01信息檢索概述ppt_第1頁
已閱讀1頁,還剩111頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、信息檢索,信息檢索研究室 秦兵qinb@ir.hit.edu.cn2007,我們所使用的Web搜索系統(tǒng),,,,我們將學(xué)到什么內(nèi)容?,基本內(nèi)容信息檢索概述及評(píng)價(jià)信息檢索模型檢索的改進(jìn)信息過濾Web信息檢索高級(jí)話題文本分類和聚類問答系統(tǒng)及自動(dòng)文摘,參考書,Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, Addi

2、son-Wesley. 1999.W. B. Frakes and R. Baeza-Yates, Information Retrieval: Data Structures & Algorithms, Englewood Cliffs, NJ: Prentice Hall. 1992.Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze,

3、 Introduction to Information Retrieval, Cambridge University Press. 2007. 李曉明,閆宏飛等。搜索引擎原理,技術(shù)與系統(tǒng),信息檢索的概述,,在這一部分我們將了解到:,信息檢索概念及意義信息檢索體系結(jié)構(gòu)歷史、現(xiàn)狀與困難發(fā)展趨勢(shì)國內(nèi)外主要搜索引擎信息檢索的應(yīng)用,信息檢索的概念及意義,信息檢索定義,信息檢索:從非結(jié)構(gòu)化的文檔集中找出與用戶需求相關(guān)的信息和其它相

4、關(guān)技術(shù)的區(qū)別和數(shù)據(jù)庫的區(qū)別數(shù)據(jù)庫是結(jié)構(gòu)化數(shù)據(jù), IR的檢索結(jié)果也往往是不精確的,而不象數(shù)據(jù)庫查詢那樣正確率一定是100%。 和情報(bào)檢索的區(qū)別情報(bào)檢索介紹如何利用信息檢索工具,典型的信息檢索任務(wù),給定條件自然語言的文檔集合用戶的提問(Query)查找結(jié)果和query相關(guān)的經(jīng)過排序(Rank)的文檔子集,信息檢索任務(wù)進(jìn)一步劃分為:,信息或數(shù)據(jù)的檢索和瀏覽拉出(pulling)行為集合中的文獻(xiàn)相對(duì)靜止信息過濾信息過濾的

5、變通方式-路由選擇推送(filtering)行為用戶查詢相對(duì)靜止,用戶需求:Query 及 Profile 形式,關(guān)鍵詞帶布爾操作的關(guān)鍵詞自由文本事例文檔...,信息檢索樣例,信息過濾(推送)樣例,信息檢索系統(tǒng),IRSystem,信息檢索處理的對(duì)象,非結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù):新聞、科技論文等網(wǎng)頁:HTML、XML多媒體數(shù)據(jù):圖像、視頻、圖形、音頻目前最主要的處理對(duì)象是互聯(lián)網(wǎng)文字圖片,基于內(nèi)容的圖像查詢,,,用戶的提

6、問,,搜索引擎,基于文本的圖像查詢,,信息存在的形式,在非結(jié)構(gòu)化信息中,包括文本信息和多媒體信息以文本檢索方式為主,例如:目前Google的圖片檢索技術(shù)采用的是利用圖片周圍的文字信息進(jìn)行的大多數(shù)信息都是文本形式的,沒有預(yù)先定義的格式(例如:郵件、新聞等)在企業(yè)信息化領(lǐng)域,有人統(tǒng)計(jì)認(rèn)為80%的信息是非結(jié)構(gòu)化的在信息管理向知識(shí)管理轉(zhuǎn)變的過程中,文本信息非常關(guān)鍵,信息檢索的重要性,由信息匱乏到信息爆炸,需要有效的檢索方式傳統(tǒng)管理軟

7、件需要嵌入IR技術(shù)在SQL數(shù)據(jù)庫中已采用文本檢索技術(shù)select * from Employee where Name like ’%Lee%’.在Lotus Notes辦公平臺(tái)上同樣也已采用文本檢索技術(shù)互聯(lián)網(wǎng)數(shù)據(jù)的增長和在線文檔(如聯(lián)機(jī)用戶手冊(cè)等)的增長,向IR技術(shù)提出迫切需求,檢索無處不在,智能計(jì)算:從人機(jī)交互到內(nèi)容管理,人機(jī)交互解決信息錄入和呈現(xiàn)的問題在大量信息進(jìn)入虛擬世界以后,更重要的問題在于如何對(duì)這些信息資源進(jìn)行

8、有效的管理使用戶能夠方便快捷地找到想要的信息使信息保值增值產(chǎn)生新知競爭不在于擁有多少信息,而在于能夠利用多少有價(jià)值的信息,因此內(nèi)容管理至關(guān)重要,信息檢索系統(tǒng)體系結(jié)構(gòu),,信息檢索系統(tǒng)的體系結(jié)構(gòu),分詞刪除停用詞Stemming(提取詞干),為文檔建立倒排索引表,根據(jù)倒排索引表檢索出與提問相關(guān)的文檔,將檢索出的文檔根據(jù)相關(guān)性排序,Query輸入和文檔輸出相關(guān)反饋結(jié)果的可視化,對(duì)query進(jìn)行變換,以改進(jìn)檢索結(jié)果,Web搜索,將

9、IR技術(shù)應(yīng)用于World Wide Web上的HTML網(wǎng)頁和純文本相比,網(wǎng)頁的特點(diǎn)如下:必須通過在網(wǎng)上“爬行”搜集網(wǎng)頁可以開發(fā)結(jié)構(gòu)布局信息文檔的更新是不可控的可以開發(fā)網(wǎng)頁之間的鏈接結(jié)構(gòu),Web搜索系統(tǒng),IR系統(tǒng),,IR的歷史與現(xiàn)狀,,IR的歷史,1960-70’s:最初的信息檢索系統(tǒng)面向小型的科學(xué)文摘數(shù)據(jù)庫、法律和商業(yè)文檔檢索模型為基本的布爾模型和向量空間模型Cornell University的Prof. Salton

10、和他的學(xué)生成為這個(gè)領(lǐng)域的先驅(qū),IR歷史,1980’s:IR技術(shù)出現(xiàn)在大型文檔數(shù)據(jù)庫中Lexis-Nexis美國LEXIS-NEXIS公司創(chuàng)始于1973年,其數(shù)據(jù)庫內(nèi)容很廣,其中法規(guī)法律方面的數(shù)據(jù)庫是LEXIS-NEXIS的特色信息源,具有非常大的影響力,尤其在法律業(yè)界具有很高知名度Dialog目前世界上最大的聯(lián)機(jī)檢索檢索系統(tǒng)之一,包括各學(xué)科數(shù)據(jù)庫600多種,可查詢研究動(dòng)態(tài),SCI,EI收錄以及專利等情況MEDLINEMED

11、LINE是美國國家醫(yī)學(xué)圖書館的文獻(xiàn)數(shù)據(jù)庫,IR歷史,1990’s:在互聯(lián)網(wǎng)上進(jìn)行對(duì)FTP文檔進(jìn)行搜索ArchieArchie是Internet上用來查找其標(biāo)題滿足特定條件的所有文檔的自動(dòng)搜索服務(wù)的工具。 WAIS代表“廣域信息服務(wù)”(Wide Area Information Service)。Wais作為Internet一項(xiàng)服務(wù), 是唯一由三個(gè)商業(yè)公司(Apple、Thinking Machines和Dow Jones )啟

12、動(dòng)的研究計(jì)劃促成的服務(wù)。,IR歷史,1990’s (續(xù)) :在World Wide Web上進(jìn)行搜索Yahoo雅虎成立于1994年,是網(wǎng)上最老的“分類目錄”,也是目前最重要的搜索服務(wù)網(wǎng)站,在全部互聯(lián)網(wǎng)搜索應(yīng)用中所占份額高達(dá)36%左右。 AltavistaAltaVista是網(wǎng)上最早的爬行搜索引擎。AltaVista搜索技術(shù)從純文本搜索技術(shù)開始,發(fā)布于1995年;1997年,其搜索能力擴(kuò)展到25種語言搜索;1999年開始多媒體文

13、件的搜索;2001年首次推出網(wǎng)上免費(fèi)新聞搜索,2003年AltaVista被Overture收購。,IR 歷史,1990’s (續(xù)):有組織地進(jìn)行評(píng)測(cè)美國標(biāo)準(zhǔn)與技術(shù)研究所NIST和國防部高級(jí)研究規(guī)劃局DARPA共同發(fā)起TREC,1992年開始智能推薦系統(tǒng)(個(gè)性化推薦,良好的互動(dòng)性,適應(yīng)性)RingoAmazon(亞馬遜網(wǎng)絡(luò)售書)NetPerceptions自動(dòng)文本分類和聚類系統(tǒng),IR 歷史,2000’s為Web搜索服務(wù)的

14、鏈接分析Google自動(dòng)信息抽取WhizbangFetchBurning Glass問答系統(tǒng)TREC Q/A track,近期的IR,2000’s :多媒體IR圖像(Image)視頻(Video)聲音(speech)和音頻(Audio)音樂(music)跨語言檢索Cross-Language IRDARPA Tides項(xiàng)目智能化、個(gè)性化IR,互聯(lián)網(wǎng)發(fā)展?fàn)顩r,中國互聯(lián)網(wǎng)信息中心(CNNIC)于2005年7月發(fā)

15、布的第16次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)》國內(nèi)上網(wǎng)用戶已達(dá)1.03億用戶經(jīng)常使用的網(wǎng)絡(luò)服務(wù)/功能:電子郵箱(91.3%)瀏覽新聞(79.4%)搜索引擎(64.5%)搜索引擎是用戶在互聯(lián)網(wǎng)上獲取信息的最常用的方法(58.2%),IR的困難,,難點(diǎn)所在,分析技術(shù)亟待更新,否則很難有質(zhì)的突破很難獲取非結(jié)構(gòu)化文本的語義信息“select * from Employee where Salary > 100,000”“找出所

16、有關(guān)于公司購并的新聞”“找出所有和互聯(lián)網(wǎng)公司購并相關(guān)的新聞”上述三個(gè)問題,一個(gè)比一個(gè)難資源檢索是在非受限域(unrestricted domains)文檔集上進(jìn)行的很難對(duì)文檔的類別事先定義或分類,難點(diǎn)所在(續(xù)),用戶不同的用戶基礎(chǔ)提問的意圖、文檔的意圖均很難捕獲不斷有新的需求提出(搜索引擎的第2維,第3維)用戶的耐心不足系統(tǒng)網(wǎng)頁是分布式的和相互連接的從什么地方開始搜索?信息是如何相互關(guān)聯(lián)的?效率(effici

17、ency)和效果(effectiveness)在有限的資源內(nèi),只能把效率和效果提高到有限的水平提高效率常常損失效果,反之亦然,新的資源和需求刺激新的技術(shù)突破,新的信息資源 Document -> page, blog, Web image, …新的媒體類型Text -> image, video, speech, music, map, …新的架構(gòu)Plain text file -> hypertext

18、, P2P, semantic Web, …新的應(yīng)用Crawler, email spam filter, MP3 search, mobile search, … 主要的沖擊已不再來自于IR技術(shù)的突破,Web 搜索的事實(shí)是怎樣的?,短的query 英文: 2.35 words (Altavista, 1998)中文: 3.55 chars (1999)偏精確率的檢索用戶常常瀏覽第一頁的結(jié)果,每個(gè)查詢的詞數(shù):,Refere

19、nceAmanda Spink & Bernard J. Jansen (2004). Web Search: Public Searching of the Web. Springer.,每個(gè)用戶的查詢次數(shù):,,每個(gè)用戶查詢的網(wǎng)頁:,可以看到:,Query,Document,,,Similarity,,,A huge number of pages with matched query termson the Web

20、,Query = “information retrieval”,經(jīng)過文本相似度計(jì)算獲得的排序?qū)τ诙蘍uery有些力不從心,導(dǎo)致檢索結(jié)果不盡人意,短 Query & 檢索,Query,Document,QuerySpace,DocSpace,,,Similarity,,,Query = “information retrieval”,用戶需求 & 文檔的權(quán)威性,Query,Document,QuerySpace,

21、DocSpace,,,Similarity,,,Concept:“IR book ““IR systems”, “SIGIR Web sites”,Authority:,Query = “information retrieval”,Representative IR book,傳統(tǒng) IR的通常包含這樣的假定,Query 較長 TREC對(duì)主題(查詢)描述平均15個(gè)詞評(píng)價(jià)考慮精確率和召回率對(duì)前1000個(gè)返回結(jié)果計(jì)算平均精確

22、率和召回率,多數(shù)檢索系統(tǒng)是基于關(guān)鍵詞的搜索,最簡單的概念就是關(guān)鍵詞在文檔中逐字出現(xiàn)稍微嚴(yán)格一點(diǎn)的定義是:提問中的關(guān)鍵詞在文檔中頻繁出現(xiàn),并且不考慮順序,基于關(guān)鍵詞搜索存在的問題,可能找不到同義詞“PRC” vs. “China”“電腦”vs. “計(jì)算機(jī)”可能檢索到一些不相關(guān)的多義詞“bat” (baseball vs. mammal)“Apple” (company vs. fruit)保安(地名 vs. 保護(hù)安全的人員)

23、,解決方案:智能信息檢索,考慮詞匯的意義(meaning)考慮詞匯的順序(order)根據(jù)直接或間接的反饋適應(yīng)用戶的需求考慮信息來源的權(quán)威性(authority),用戶體驗(yàn):檢索結(jié)果的呈現(xiàn),檢索結(jié)果的表現(xiàn)Web 檢索結(jié)果是很長的列表,用戶很難在概念層瀏覽結(jié)果檢索結(jié)果分門別類信息進(jìn)一步優(yōu)化,,,,DEF,,,Books,,,Tools,新課題——檢索結(jié)果聚類,,檢索結(jié)果聚類,,檢索結(jié)果聚類,,從呈現(xiàn)形式到內(nèi)容的變化——聚類文檔

24、的內(nèi)容整合,信息抽取美國科學(xué)家目前正在研究一種新型“搜索引擎”—搜得,表示它能像拖網(wǎng)一樣“撈到”所需資料網(wǎng)頁,然后以目錄表格形式將其進(jìn)行整理信息融合單文檔文摘多文檔文摘,發(fā)展趨勢(shì),,發(fā)展歷程,以雅虎初期為代表的第一代搜索引擎以人工目錄分類為基礎(chǔ)的網(wǎng)站搜索開辟了一個(gè)時(shí)代第一代搜索引擎指主要依靠人工分揀的分類目錄搜索,這種方式是被動(dòng)的搜索,更新慢、搜索能力不足第一代搜索引擎基本上已經(jīng)退出搜索舞臺(tái)。,發(fā)展歷程,以Google為代表

25、的第二代搜索引擎以超鏈分析技術(shù)為基礎(chǔ)的大規(guī)模網(wǎng)頁搜索,根據(jù)關(guān)鍵詞的分布情況對(duì)頁面進(jìn)行分類和排序優(yōu)點(diǎn):只要網(wǎng)頁上出現(xiàn)了某個(gè)關(guān)鍵詞,就能夠使用全文檢索用關(guān)鍵詞匹配把該網(wǎng)頁查出來不足:返回的無用信息太多原因:僅采用機(jī)械的關(guān)鍵詞匹配來實(shí)現(xiàn),信息檢索的目標(biāo),全:互聯(lián)網(wǎng)數(shù)據(jù)搜索的范圍更廣泛準(zhǔn):數(shù)據(jù)定位更準(zhǔn)確快:用戶應(yīng)用更簡潔便利,個(gè)性化,智能化,信息檢索,信息檢索,,數(shù)據(jù)庫,,并行處理,,,,網(wǎng)絡(luò),信息安全,數(shù)據(jù)挖掘,自然語言處理,

26、知識(shí)管理,,,,,操作系統(tǒng),,圖像、視頻、語音,下一代搜索引擎,由相關(guān)性檢索向智能化檢索過渡海量信息的存儲(chǔ),解析,索引應(yīng)用新的搜索工具,搜索任意關(guān)聯(lián)因素根據(jù)關(guān)鍵詞所在的網(wǎng)塊位置,自動(dòng)調(diào)整網(wǎng)頁的重要性與呈現(xiàn)的優(yōu)先級(jí)優(yōu)化查詢結(jié)果由互聯(lián)網(wǎng)搜索向互聯(lián)網(wǎng)挖掘過渡數(shù)據(jù)挖掘,智能搜索引擎,以自然語言理解技術(shù)為基礎(chǔ)的新一代搜索引擎,我們稱之為智能搜索引擎由于它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(shí)(或概念)層面,能夠?qū)崿F(xiàn)分詞技術(shù)、同

27、義詞技術(shù)、概念搜索、短語識(shí)別以及機(jī)器翻譯技術(shù)等 允許用戶采用自然語言進(jìn)行信息的檢索,為用戶提供更方便、更確切的搜索服務(wù)。一般包括人工智能、模式識(shí)別、語義分析、神經(jīng)網(wǎng)絡(luò)等智能搜索,新的 IR 主題,搜索行業(yè)的主題 Web搜索,移動(dòng)搜索,垃圾郵件過濾,垂直搜索,元搜索,…其他行業(yè)的主題 多媒體檢索(Multimedia) 文本挖掘 (Data Mining, NLP applications)數(shù)字圖書館Digital Libr

28、arySIGIR(情報(bào)檢索專業(yè))主題基于語言模型的信息檢索,問答系統(tǒng),跨語言信息檢索,話題檢測(cè)與跟蹤,檢索結(jié)果聚類, …,元搜索引擎-信息中介,元搜索引擎(Meta-search engine)是在前述搜索引擎基礎(chǔ)上建立的可以同時(shí)查詢多個(gè)搜索引擎的WWW站點(diǎn),其英文原意是搜索引擎之后或之上的搜索引擎,因而也可以叫做后搜索引擎元搜索就是本身并不存儲(chǔ)網(wǎng)頁數(shù)據(jù),只是提供一個(gè)接口,針對(duì)用戶的搜索關(guān)鍵字在其他搜索引擎中獲取結(jié)果,再對(duì)結(jié)果進(jìn)行

29、加工處理最后將結(jié)果顯示給用戶.按照搜索機(jī)制劃分,元搜索引擎包括并行式和串行式兩類元搜索引擎依賴其他獨(dú)立搜索引擎而存在,可以收到事半功倍的效果,但是會(huì)惹上官司?,垂直搜索,垂直搜索是針對(duì)某一個(gè)行業(yè)的專業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是對(duì)網(wǎng)頁庫中的某類專門的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶。 垂直搜索引擎的應(yīng)用方向很多,比如企業(yè)庫搜索、供求信息搜索引擎、購物搜索、房產(chǎn)搜索、人才搜索、地圖

30、搜索、mp3搜索、圖片搜索……幾乎各行各業(yè)各類信息都可以進(jìn)一步細(xì)化成各類的垂直搜索引擎。,垂直搜索,Google宗旨是盡快讓用戶離開google,垂直搜索應(yīng)該是粘住用戶方式的變化,檢索方法沒有質(zhì)的變化垂直搜索實(shí)例奇虎酷訊(KOOXOO),,,國內(nèi)外主要搜索引擎,,中國搜索引擎市場,關(guān)于搜索引擎的新聞,2003年底以前,中國搜索引擎市場的格局是:雅虎和Google都提供中文搜索服務(wù),但沒有正式進(jìn)入中國。中國本土的搜索引擎服務(wù)商主

31、要是百度、3721、中國搜索(慧聰搜索)。然而,這一切在2004年發(fā)生了徹底的變化。2003年11月21日,雅虎中國收購3721公司。3721的搜索服務(wù)成為了YHAOO中國的重要組成,YHAOO正式進(jìn)軍中國搜索引擎服務(wù)市場。2004年6月15日,Google與其他七家共同投資者一起,收購了有全球最大中文搜索引擎之稱的百度的部分股份。Google在上市前終于有了中國搜索的概念。 2004年6月21日,雅虎中國除了堅(jiān)固其門戶搜索、37

32、21之外,推出了專門的中文搜索門戶網(wǎng)站“一搜(www.yisou.com)”。2004年7月1日,微軟公司董事長比爾·蓋茨在北京含蓄地表示,要加強(qiáng)MSN搜索開拓中國市場的力度。,關(guān)于搜索引擎的新聞,2005年12月,Google閃電雇傭李開復(fù),正式進(jìn)軍中國。2006年3月,Yahoo!頻繁變臉。目前,越來越多的專業(yè)搜索引擎。7月19日,雅虎中國、雅虎全球、阿里巴巴三方聯(lián)合推出一個(gè)具有智能模糊匹配功能的搜索引擎雅虎Ima

33、tch,貼近用戶的實(shí)際需求。 由此可見,搜索市場一直是令人垂涎三尺高速成長的市場,新技術(shù)和新概念的出現(xiàn)可以隨時(shí)讓搜索市場發(fā)生巨大改變。正因此,百度的李彥宏常警醒員工:“百度離破產(chǎn)只有30天?!?……更多的精彩新聞等待我們發(fā)現(xiàn)和創(chuàng)造!,搜索引擎成功樣例:全球最大搜索引擎——Google,據(jù)預(yù)計(jì),全球搜索市場3到5年后將達(dá)70億美元以上,Google在各種搜索引擎中排名第一。Google網(wǎng)址:www.google.com技術(shù)創(chuàng)業(yè)

34、六年成長史創(chuàng)始人是兩位斯坦福大學(xué)學(xué)生,而立之年即成為百億富翁每個(gè)月有數(shù)億人使用走向壟斷?參股百度左右網(wǎng)民的價(jià)值取向受商業(yè)利益驅(qū)使,未來很難保證客觀公正性,競價(jià)排名,Google,其它主要英文搜索引擎,AOL search.aol.comAltaVista www.altavista.comAskJeeves www.askjeeves.comMSN Search search.msn.comL

35、ookSmart www.looksmart.comYahoo www.yahoo.com,中文搜索引擎,百度百度網(wǎng)址:www.baidu.com北大計(jì)算機(jī)系學(xué)生創(chuàng)辦百度的“知道”北京大學(xué)李曉明教授繼續(xù)研究“天網(wǎng)”,沒有商業(yè)化天網(wǎng) pccms.pku.edu.cn 中搜http://www.chinasearch.com.cn/全名“中國搜索”,原名“慧聰”搜狗http://www.sogou.co

36、m新浪:愛問,搜索引擎的現(xiàn)狀,隨著百度上市和Google正式進(jìn)入中國,國內(nèi)搜索引擎市場競爭格局將發(fā)生變化。2005年各大搜索引擎廠商營收穩(wěn)步上升,而各主流廠商的用戶市場占有率分別為百度37%,Google23%,Yahoo(及3721)21%,對(duì)比各搜索引擎結(jié)果: 輸入“和服”,Google的檢索結(jié)果排在前30位的網(wǎng)頁絕大多數(shù)為日本的“和服”,說明Google進(jìn)行了有效的分詞百度基本正確搜狗基本正確,部分錯(cuò)誤結(jié)果,[1]

37、重慶“偵探”商標(biāo)注冊(cè)成功 邦德公司獲工商認(rèn)可...冊(cè)范圍,將原42類商品和服務(wù)商標(biāo)注冊(cè)擴(kuò)大...[2]新潮實(shí)業(yè):“亞麻”龍頭 箭在弦上由于所有紡織品和服裝配額都將于今年底以前完全取消,近期4元左右的低價(jià)紡織股表,分詞效果不佳!,IR相關(guān)領(lǐng)域,,相關(guān)領(lǐng)域-借鑒和融合,數(shù)據(jù)庫管理圖書和情報(bào)科學(xué)人工智能自然語言處理機(jī)器學(xué)習(xí),數(shù)據(jù)庫管理,專注于研究結(jié)構(gòu)化數(shù)據(jù),比如關(guān)系表,而不是自由文本專注于處理定義好了的查詢式,如SQL查詢式

38、和數(shù)據(jù)的語義都非常清晰近來有向半結(jié)構(gòu)化數(shù)據(jù)(XML)發(fā)展的趨勢(shì),和IR越來越接近,圖書館和情報(bào)科學(xué),研究信息檢索中和人類使用者相關(guān)的內(nèi)容 (人機(jī)交互、可視化)關(guān)心對(duì)人類知識(shí)的有效分類關(guān)心引用(citation)分析和文獻(xiàn)計(jì)量學(xué)(bibliometrics)信息的結(jié)構(gòu)化最近的數(shù)字圖書館研究使它和IR距離更近,人工智能,研究知識(shí)表示、推理和智能行為知識(shí)和查詢式的形式化:一階謂詞邏輯貝葉斯網(wǎng)絡(luò)最近在Web本體論(Ontolog

39、y)和智能信息代理(Intelligent Information Agents)的研究,使它與IR更接近,從數(shù)據(jù)到知識(shí),數(shù)據(jù)(Data)未經(jīng)組織的數(shù)字、詞語、聲音、圖像等信息(Information)以有意義的形式加以排列和處理的數(shù)據(jù)知識(shí)(Knowledge)用于生產(chǎn)的信息(有意義的信息)信息經(jīng)過加工處理、應(yīng)用于生產(chǎn),才能轉(zhuǎn)變成知識(shí)智慧(Wisdom)應(yīng)用知識(shí)的能力,創(chuàng)新能力,自然語言處理,研究自然語言文本的句法、語義

40、和語用使檢索能夠在意義層面而不是僅僅在關(guān)鍵詞層面進(jìn)行,自然語言處理:IR的方向,根據(jù)上下文決定 歧義詞的意義:詞義消歧(word sense disambiguation).識(shí)別文本中特殊的信息片斷 (information extraction).從文本中回答特殊的用自然語言提出的問題,詞義消歧,機(jī)器學(xué)習(xí),研究能夠通過經(jīng)驗(yàn)改進(jìn)自身性能的計(jì)算系統(tǒng)有指導(dǎo)的學(xué)習(xí)(supervised learning)通過從人工標(biāo)注好的訓(xùn)練樣例中

41、學(xué)習(xí)概念來實(shí)現(xiàn)對(duì)樣本的自動(dòng)分類無指導(dǎo)的學(xué)習(xí)(unsupervised learning)事先不經(jīng)過的人工標(biāo)注,將樣本自動(dòng)聚為有意義的組,機(jī)器學(xué)習(xí):IR的方向,文本分類自動(dòng)層次聚類(Yahoo)自適應(yīng)/推送/推薦垃圾郵件過濾文本聚類檢索結(jié)果的自動(dòng)聚類自動(dòng)形成層次體系信息抽取文本挖掘,信息檢索的應(yīng)用,,數(shù)字圖書館,自動(dòng)分類根據(jù)國圖分類法,對(duì)文本進(jìn)行自動(dòng)分類自動(dòng)標(biāo)引自動(dòng)給出文本的主題詞,包括抽詞標(biāo)引和賦詞標(biāo)引兩種自

42、動(dòng)文摘根據(jù)不同比例以及用戶的不同需求自動(dòng)編寫文摘定題服務(wù)面向確定主題的情報(bào)服務(wù)個(gè)性化新聞根據(jù)用戶的興趣偏好,為用戶定制新聞,內(nèi)容安全,垃圾郵件過濾包括廣告、黃色和反動(dòng)郵件的過濾和分析垃圾短信過濾,企業(yè)商業(yè)秘密防泄露監(jiān)測(cè)從企業(yè)內(nèi)部發(fā)出的郵件,封殺包含企業(yè)機(jī)密的郵件聊天室和BBS監(jiān)控過濾黃色話題或反動(dòng)言論垃圾短信過濾,商務(wù)智能,自助呼叫中心以自動(dòng)問答的方式,從企業(yè)提供的大量技術(shù)支持資料中自動(dòng)獲取答案,滿足用戶的需求

43、減少呼叫中心的人力服務(wù)費(fèi)用用戶投訴信的自動(dòng)分類和匯總系統(tǒng)將用戶的投訴信自動(dòng)分發(fā)給企業(yè)的不同部門去處理自動(dòng)發(fā)現(xiàn)投訴信中的焦點(diǎn)問題,協(xié)助企業(yè)決策競爭情報(bào)定制關(guān)于互聯(lián)網(wǎng)上關(guān)于競爭對(duì)手的各種情報(bào)并匯總,電子政務(wù),首長辦公系統(tǒng)自動(dòng)匯總來自各下屬部門的文件,并提取重要內(nèi)容提供給領(lǐng)導(dǎo)閱讀政務(wù)自動(dòng)咨詢系統(tǒng)市民通過互聯(lián)網(wǎng),以問答的方式咨詢政府的政策和辦事流程等投訴自動(dòng)匯總分析系統(tǒng)將市民的投訴自動(dòng)分類匯總,以資政府決策行政簡報(bào)自動(dòng)編

44、寫系統(tǒng)定期自動(dòng)編寫簡報(bào),在政府部門內(nèi)交流,遠(yuǎn)程教育,自動(dòng)答疑系統(tǒng)用戶遠(yuǎn)程提問,系統(tǒng)根據(jù)用戶的問題收集教材中的相關(guān)內(nèi)容,匯總后提供給用戶,學(xué)生情況調(diào)查分析根據(jù)學(xué)生的提問情況,自動(dòng)分析學(xué)生的主要問題所在,以便對(duì)癥下藥地改進(jìn)教學(xué)內(nèi)容,移動(dòng)計(jì)算,短信定制服務(wù)包括新聞、股市資訊等,,短信匯總服務(wù)電視臺(tái)或廣播電臺(tái)常常提供在線的短信參與活動(dòng),大量短信發(fā)送到電視臺(tái)需要及時(shí)地分類匯總,以便主持人作出反應(yīng),比如概括出大多數(shù)用戶最關(guān)心的問題等。,軍

45、事情報(bào),國外軍事情報(bào)的跟蹤匯總重點(diǎn)針對(duì)國外互聯(lián)網(wǎng)進(jìn)行過濾跟蹤,對(duì)重要資料進(jìn)行分析匯總,輔助軍事決策,,國內(nèi)軍事情報(bào)的反泄露發(fā)現(xiàn)和攔截泄露軍事情報(bào)的郵件隱藏于普通文本中的軍事情報(bào)的過濾技術(shù)文本水印,主要研究機(jī)構(gòu),國外CMU:http://www.cs.cmu.edu/~callan/IRGroup/Stanford:http://nlp.stanford.edu/UMass: http://ciir.cs.umass.edu

46、/國內(nèi)哈工大:http://ir.hit.edu.cn清華復(fù)旦:http://www.cs.fudan.edu.cn/mcwil/irnlp/,會(huì)議,ACM SIGIR Annual International Conference on Research and Development in Information Retrieval (1978-)ACM Conference on Information Knowledg

47、e Management (CIKM)Text Retrieval Conference (TREC)全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議,期刊,ACM Transactions on Information SystemsInformation Processing and ManagementJournal of the American Society for Information ScienceJournal of Doc

48、umentationInformation SystemsInformation RetrievalKnowledge and Information Systems,參考書,Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, Addison-Wesley. 1999.W. B. Frakes and R. Baeza-Yate

49、s, Information Retrieval: Data Structures & Algorithms, Englewood Cliffs, NJ: Prentice Hall. 1992.Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridg

50、e University Press. 2007. 李曉明,閆宏飛等。搜索引擎原理,技術(shù)與系統(tǒng),本章小結(jié),介紹了信息檢索的定義以及與相關(guān)領(lǐng)域的區(qū)別與聯(lián)系介紹了信息檢索的體系結(jié)構(gòu)介紹了信息檢索的難點(diǎn)與發(fā)展趨勢(shì),實(shí)驗(yàn)室主頁:http://ir.hit.edu.cn,哈工大信息檢索研究室,研究室主頁和論壇,2007年1月1日,發(fā)布“信息檢索開放實(shí)驗(yàn)室”網(wǎng)站,論壇注冊(cè)用戶超過5700人!,語言技術(shù)平臺(tái),目前已有國內(nèi)外80余家學(xué)術(shù)機(jī)構(gòu)和我

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論