服務、協(xié)作、發(fā)展_第1頁
已閱讀1頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、服務、協(xié)作、發(fā)展,索高盈政府公眾信息部,目 錄,總結工作:貫穿一年的主題是服務經(jīng)驗交流:完成工作的捷徑是協(xié)作技術探討:事業(yè)壯大的根本是發(fā)展,2005,總結工作,對外服務、業(yè)務管理,2005,負責建設完成的網(wǎng)站包括省鄉(xiāng)企局、省安監(jiān)局、省僑聯(lián)、省博管辦、潼關縣政府、《當代陜西》、省西部發(fā)展基金會、省信息中心 ;負責陜政網(wǎng)招商引資欄目的管理,部分廳局網(wǎng)站的日常維護工作;負責全省職稱、職(執(zhí))業(yè)資格證書核查系統(tǒng)項目的建設;參與了醫(yī)

2、療機構與社會藥房藥品實際零售價格查詢系統(tǒng);參與完成了《陜西省“金質工程”(一期)可行性研究報告》;制作了2006年公務員、省直事業(yè)單位招聘工作人員成績查詢系統(tǒng);負責維護在職人員攻讀碩士學位網(wǎng)報系統(tǒng),發(fā)布了事業(yè)單位登記管理公告;參加了兩月的java培訓,開發(fā)了java版的招商引資項目管理系統(tǒng);,總結工作,對外服務、業(yè)務管理,參與開發(fā)了陜西省企事業(yè)信用信息查詢和發(fā)布系統(tǒng),在該系統(tǒng)中我具體負責底層數(shù)據(jù)庫類和數(shù)據(jù)管理類的設計模式的建立,

3、同時承擔信用等級、組織管理、高管人員、經(jīng)營狀況和商標專利五個模塊的開發(fā);完善了小型的政府網(wǎng)站信息管理系統(tǒng),增加了文件上傳、咨詢和調查三個功能;聯(lián)系三秦都市報、陜西信息報等媒體對《2005中國政府網(wǎng)站評估結果揭曉》、《網(wǎng)上免費咨詢法律問題》等陜政網(wǎng)動態(tài)進行了報道;同省環(huán)保局信息中心的一位同志合作撰寫了《陜西環(huán)保產(chǎn)業(yè)網(wǎng)的設計與實現(xiàn)》論文被《環(huán)境信息技術應用與管理實踐》論文集收錄;,2005,總結工作,2005,經(jīng)驗:在以上我匯報的工

4、作中以看出,我們所處的位置都是服務提供方(乙方)。作為一個承諾者,如何完成既定的任務,獲得被服務者的認可,繼而成為他信息化工作中首選的信息資源、信息技術服務提供方,服務質量是最關鍵的,服務質量主要體現(xiàn)在服務的態(tài)度、服務的響應速度、服務者的技術水平、服務的主動性和持續(xù)性等方面。有好的服務模式和服務意識,就會樹立起一個品牌,有了品牌,就有了市場,事業(yè)就會發(fā)展。,總結工作,對外服務、業(yè)務管理,2005,總結工作,對外服務、業(yè)務管理,200

5、5,實踐:  對需要不斷發(fā)展的信息中心和部門業(yè)務來說,服務是手段,從服務的過程中發(fā)現(xiàn)新的業(yè)務增長點是目的?! ≡趯ν鈽I(yè)務聯(lián)系和服務的過程中,從服務對象口中了解他新的業(yè)務需求,例如在與省職改辦合作建立 “全省職稱、職(執(zhí))業(yè)資格證書核查系統(tǒng)”的基礎上深挖他們的其他需求,在年底又為他們建立了 “省博士后管理委員會辦公室”網(wǎng)站。同樣的,在為省鄉(xiāng)企局建設完成網(wǎng)站后,由于他們對部門的人員素質、技術實力有了深刻的了解,他們提出兩家聯(lián)合建設“全

6、省鄉(xiāng)鎮(zhèn)企業(yè)自主助建站系統(tǒng)”,目前該系統(tǒng)現(xiàn)已經(jīng)在鄉(xiāng)企局網(wǎng)站上推出并取得了很好的社會效益。,,在部門里,做一件事情最少需要兩個以上的人員參與。比如作一個網(wǎng)站,一個聯(lián)系業(yè)務負責總體規(guī)劃、一個負責美工設計、一個負責程序編寫,這幾個人合理分工、各展所長,緊密配合,團結協(xié)作,達到的效果會被各自悶頭苦干的效果好的多,所以一般做一個復雜的網(wǎng)站可能需要幾天就可以完成?! £兾魇∑笫聵I(yè)信用信息查詢發(fā)布系統(tǒng)這次是由四個人合作開發(fā)的,在開發(fā)的過程中集思廣益,

7、發(fā)揮了各個員工的特長,免去了鉆牛角尖的麻煩,提高了系統(tǒng)的開發(fā)效率,同時也提高了每個人的技術水平,加強了協(xié)作和溝通能力。,團結協(xié)作,敬業(yè)奉獻,經(jīng)驗交流,2005,經(jīng)驗交流,一花獨放不是春,百花齊放春滿園?! 》e極加大和同事的交流互動,對新同事認真支持和幫助,共享自己的經(jīng)驗積累和技術,刻意使他們加入到協(xié)作中來,使他們能夠更好的適應工作流程,提高技術素養(yǎng),學習現(xiàn)成的經(jīng)驗,使他成為部門工作中不可或缺的一分子。  正是有了協(xié)作,有了明確的分工

8、,個人的特長得到了體現(xiàn),大家才能一起提高,部門的業(yè)務,中心的事業(yè)才得到長足的發(fā)展。,2005,團結協(xié)作,敬業(yè)奉獻,技術交流,,去年參加經(jīng)驗交流會的時候我提到了開發(fā)一個搜索引擎形式系統(tǒng),大家也許還有些印象。經(jīng)過一年時間斷斷續(xù)續(xù)的設計和開發(fā),目前這個系統(tǒng)已經(jīng)基本成形,最新的版本是1.04Beta,實現(xiàn)了網(wǎng)頁采集,切分詞、生成全文索引,檢索查詢四個主要功能?! 〈蠹叶贾浪阉饕嬉话惴譃閮深悾耗夸浭胶腿臋z索式,目錄式以yahoo、suhu

9、為代表,中國陜西網(wǎng)站上的陜西導航就是目錄式的;全文檢索式以google、baidu為代表,我開發(fā)的這種是全文檢索式。  該系統(tǒng)由搜索器(俗稱“蜘蛛”(Spider)程序或“機器人”(Robot))、索引器、查詢器三部分組成。搜索器負責網(wǎng)頁信息的抓取、建立網(wǎng)頁數(shù)據(jù)庫;索引器負責將抓取的網(wǎng)頁進行解析、切詞和索引,建立索引數(shù)據(jù)庫;查詢器根據(jù)用戶查詢條件檢索索引文件并對檢索結果進行排序和集合運算,再提取網(wǎng)頁簡單摘要信息反饋給查詢用戶。,200

10、5,技術交流,,總體結構:,2005,技術交流,,系統(tǒng)的工作流程  首先從搜索器開始,啟動蜘蛛并讀取網(wǎng)址數(shù)據(jù)庫中的URL列表,抓取各URL所指定的網(wǎng)站,將抓取的網(wǎng)頁分配一個唯一文檔ID(DocId),存入網(wǎng)頁數(shù)據(jù)庫。并將當前頁上的所的超連接存入到鏈接數(shù)據(jù)庫中。在抓取的完成后,切詞模塊和索引器將已經(jīng)抓取的網(wǎng)頁文檔進行切詞處理,并按詞在網(wǎng)頁中出現(xiàn)的位置和頻率計算權值,然后將切詞結果存入索引數(shù)據(jù)庫。查詢器首先對用戶輸入的信息進行切詞處理,并

11、檢索出所有包含檢索詞的記錄,通過計算網(wǎng)頁權重和級別對查詢記錄進行排序并進行集合運算,最后從文檔數(shù)據(jù)庫中提取各網(wǎng)頁的摘要信息反饋給查詢用戶。  該系統(tǒng)擁有較為先進的信息采集技術,采用了多線程并發(fā)執(zhí)行體系結構,能夠采集多種動態(tài)和靜態(tài)網(wǎng)頁類型(如htm、html、shtml、xml、php、asp、jsp),以及多種文檔類型(如txt、pdf、rtf、doc、xls、ppt等),系統(tǒng)會自動根據(jù)網(wǎng)站的連接,短時間內(nèi)迅速抓取所有的站內(nèi)頁面,建立

12、索引。,2005,技術交流,,搜索器  搜索器(俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)),實際上是一個基于HTTP協(xié)議的網(wǎng)絡應用程序。網(wǎng)絡蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站是首頁開始,讀取網(wǎng)頁的內(nèi)容,并抽取出網(wǎng)頁中的其它超鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。搜索器包括蜘蛛和蜘蛛管理器  網(wǎng)絡蜘蛛的作用是獲取頁面,分析頁面,得到鏈接,下載頁

13、面。蜘蛛包括兩個功能模塊:一個是網(wǎng)頁讀取模塊,主要是用來讀取遠程Web服務器上的網(wǎng)頁內(nèi)容,存儲到文檔數(shù)據(jù)庫中;另一個是超鏈分析模塊,這個模塊主要是分析網(wǎng)頁中的超鏈接,將網(wǎng)頁上的所有超鏈接提取出來,放入到待抓取URL列表中;  蜘蛛管理器對網(wǎng)絡蜘蛛的數(shù)目、鏈接分析方式、鏈接存放方式、網(wǎng)頁獲取模式等參數(shù)進行管理。,2005,技術交流,,2005,關鍵技術多線程技術:由于抓取的站點URL相當多,采用單線程蜘蛛抓取時速度不夠,也不能滿足實際

14、的需要。因而需要多線程技術來創(chuàng)建多個蜘蛛線程來同時抓取,以提高速度;網(wǎng)頁抓取:網(wǎng)頁抓取是基于HTTP協(xié)議之上的,網(wǎng)頁上的資源有多種,有網(wǎng)頁,有Word文檔也有其他類型的文件,這樣抓取時需要判斷URL所指向資源的類型;超鏈分析:超鏈分析是一個比較重要的環(huán)節(jié),需要對HTML的各種標志(tag)有一個很全面的了解;持續(xù)連接:對于同一網(wǎng)站的網(wǎng)頁應該采用同一個HttpConnection這樣有效地節(jié)省創(chuàng)建一個連接的時間;抓取模式:對網(wǎng)頁進

15、行訪問采用全部獲取還是增量模式,目前我采用的是增量獲取,實現(xiàn)方式是保存一個url數(shù)據(jù)庫,每次訪問頁面時比較頁面路徑是否在數(shù)據(jù)庫中存在,如果存在察看它的修改時間,如果修改時間相同說明頁面沒有改動,就不抓取。,技術交流,,索引器  索引器是很關鍵的一個環(huán)節(jié),它主要將蜘蛛抓來的網(wǎng)頁和文檔經(jīng)過切分詞組織成適合于全文檢索的倒排文檔,我使用的是apache的lucene全文索引工具。  Lucene支持中文不拿手,他支持的中文分詞方式包括單字分

16、詞和雙字分詞,首先,肯定不能用單個字為索引單元,否則“上?!本捅环殖闪恕吧稀薄昂!?,查“上海”時,“海上”也匹配;如果使用雙字分詞,比如:"信息中心" ==> "信息 中心 息中"。這種分詞模式查詢沒有問題,但是生成的索引就比較大,冗余的詞太多。目前信息中心網(wǎng)站有95條信息,生成的索引就接近1M?! ∷孕枰_發(fā)一個基于詞庫的分詞工具,讓計算機能夠按照語言習慣對文章進行切分,讓機器有一個比

17、較豐富的詞庫才能夠比較準確的識別出語句中的單詞。所以嘗試自己開發(fā)一個,在沒有頭緒的時候,找見了一個臺灣人開發(fā)的分詞工具,我使用了拿來主義把它修改了成了java中文版,完善了其中的不足之處,現(xiàn)在使用起來效果還是比較好。,2005,技術交流,,關鍵技術:切詞:目前我的詞庫中有196127個詞,切詞的速度不快,是一種機械的切詞方法,沒有對歧義詞進行排除和分析;文檔解析器:抓取下來網(wǎng)頁包括各種格式,目前包括HTML、PDF、WORD、EXC

18、EL、POWERPOINT、RTF、TEXT等7種格式的文件,需要把這些文件中的文本信息提取出來;標簽補償器:因為大部分網(wǎng)頁的html代碼都不規(guī)范,文檔解析器解析起來容易出錯,所以必須在解析前對網(wǎng)頁進行完善,我使用了一個開源工具叫NekoHTML,實現(xiàn)了HTML掃描和標簽補償。,2005,技術交流,,查詢器  查詢器是通過Web頁接受用戶輸入的搜索參數(shù)并切分用戶輸入的字串,訪問倒排檔索引文件檢索出所有符合檢索條件的文檔,并對其進行并

19、集運算和排序運算,最后得到最終的結果文檔,再從各文檔中提取摘要信息寫入用戶反饋網(wǎng)頁中。關鍵技術查詢器的效率:通過查詢結果分頁輸出的方式提高查詢的效率;查詢條件:通過擴展分詞工具,使得查詢時支持and or + -等語法格式。,2005,技術交流,,軟件版本控制:1、1.0Beta1開發(fā)完成搜索器、索引器和查詢器,分詞工具采用lucene自帶的ChineseAnalyser,只能對字串進行單字分詞。2、1.0Beta2采用

20、CJKAnalyser,只能對字串進行雙字分詞。3、10.Beta3采用自定義字典的Analyser,根據(jù)字典對漢語進行分詞,目前字典中有196127個詞4、1.0Beata4通過修改lucene自帶demo程序,獲得檢索摘要。,2005,技術交流,,系統(tǒng)的用途:  隨著網(wǎng)絡的發(fā)展,網(wǎng)站已經(jīng)成為了政府機構或企事業(yè)單位重要的公共形象門戶,每天,大量的社會公眾、潛在客戶、投資者會登陸網(wǎng)站,網(wǎng)站帶給他們的體驗將直接影響到他們對該機構

21、的評價。因此,為用戶提供一個快速,準確,全面的信息檢索服務對網(wǎng)站提升用戶體驗,吸引用戶來說是至關重要的。該系統(tǒng)可以使用在以下幾個方面:  1、站內(nèi)檢索;  2、站群檢索;  3、專網(wǎng)內(nèi)檢索;  4、為應用系統(tǒng)提供搜索引擎擴展模塊;  5、決策支持系統(tǒng);  6、搜索引擎;,2005,技術交流,,后續(xù)需要作的工作:  1、基于目前開發(fā)的成果,繼續(xù)完善系統(tǒng)功能:  主要是從如何評價網(wǎng)頁的重要性、去除重復網(wǎng)頁、更好的解析頁面前

22、、開發(fā)更好的切分詞工具等方面進行;  2、對系統(tǒng)進行人性化設計:  加入日志功能、任務計劃功能、網(wǎng)站管理、用戶管理等功能;  3、形成產(chǎn)品:  在對系統(tǒng)功能完善的基礎上,形成一個核心產(chǎn)品包,基于這個核心產(chǎn)品包推出不同類型的產(chǎn)品,如新聞搜索引擎、站內(nèi)檢索軟件、全文索引引擎工具包等,這個市場很大,可以一試?! ?、共享開發(fā)成果,成立開發(fā)小組。開發(fā)經(jīng)驗: ?。?、大量使用了開源代碼;  2、為軟件設置版本控制,有的放矢; ?。?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論