版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、信息檢索綜合課程設(shè)計(jì)課程介紹,主講人:李正華蘇州大學(xué)計(jì)算機(jī)學(xué)院2016年2月29日,主要參考陳文亮老師課件,自我介紹,姓名:李正華電子郵件:zhli13@suda.edu.cn個(gè)人主頁(yè):http://hlt.suda.edu.cn/~zhli 課程主頁(yè):http://hlt.suda.edu.cn/~zhli/teach/ir-2016-spring 研究方向:自然語(yǔ)言處理、人工智能,學(xué)生情況調(diào)查,修過哪些編程課?這學(xué)期修
2、什么課程?C++中的string; vector; map等會(huì)很方便;Java中也有類似的東西有的編程作業(yè)直接用C實(shí)現(xiàn)稍微復(fù)雜一些寫過多大規(guī)模的程序?,學(xué)習(xí)目的,學(xué)習(xí)信息檢索基礎(chǔ)知識(shí)動(dòng)手構(gòu)建一些小系統(tǒng)(編程實(shí)踐)拿到本門課學(xué)分,,計(jì)分方式,5,實(shí)驗(yàn)作業(yè):70分(可能會(huì)酌情調(diào)整)小作業(yè)3個(gè)*10分=30分大作業(yè)2個(gè)*20分=40分平時(shí)出勤、回答問題等:10分不能遲到、早退,特殊情況必須請(qǐng)假,并帶輔導(dǎo)員簽字的假條;點(diǎn)
3、名時(shí),如果發(fā)現(xiàn)名單上沒有你的名字,及時(shí)提出;(選修課的名單有時(shí)候會(huì)變)作業(yè)完成非常好的同學(xué)可以告訴我,特殊對(duì)待。期末小測(cè)驗(yàn):20分考察課程相關(guān)的基礎(chǔ)知識(shí),提綱,6,什么是信息檢索?為什么要學(xué)習(xí)信息檢索?,提綱,7,什么是信息檢索?為什么要學(xué)習(xí)信息檢索?,什么是信息檢索,現(xiàn)場(chǎng)問答來(lái)幾個(gè)互聯(lián)網(wǎng)應(yīng)用例子……,8,,,,你們來(lái)之前,什么是信息檢索?我得先調(diào)查一下,免得被蒙了。,,,,,,,,,接著,信息檢索挺有趣的哈!先整件衣
4、服吧,有點(diǎn)冷!,,,,接著,,其實(shí)我還缺個(gè)女朋友!,,,中科院研究生院2011年度秋季課程,16,什么是信息檢索?,提問(隨機(jī)點(diǎn)名系統(tǒng)),17,三個(gè)應(yīng)用例子的共同特征,給定需求(或者是對(duì)象),從信息庫(kù)中找出與之最匹配的信息(或?qū)ο?Google/百度的例子:需求 “信息檢索”淘寶的例子:對(duì)象 “男士西服”世紀(jì)佳緣網(wǎng)的例子:對(duì)象 “女朋友”!,18,信息檢索的一些官方定義,給定用戶需求,返回滿足該需求的信息的一門學(xué)科。通常涉及信
5、息的獲取、存儲(chǔ)、組織和訪問。從大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的集合中找出滿足用戶信息需求的資料的過程。非結(jié)構(gòu)化數(shù)據(jù)通常指文本什么是結(jié)構(gòu)化數(shù)據(jù)?(提問),19,本課程的內(nèi)容,主要關(guān)注面向文本數(shù)據(jù)幾部分內(nèi)容:爬蟲(Crawler),得到網(wǎng)頁(yè)(wget可以遞歸爬取靜態(tài)網(wǎng)頁(yè)html)網(wǎng)頁(yè)正文提?。╤tml文件的處理),得到文檔中文分詞文檔存儲(chǔ)(倒排;快速查詢)用戶query分詞檢索:找到相關(guān)文檔相關(guān)文檔簡(jiǎn)單排序,20,本課程不涉及內(nèi)容
6、,非文本數(shù)據(jù)Query深度分析和擴(kuò)展網(wǎng)頁(yè)鏈接分析(PageRank)等復(fù)雜排序方法...,21,22,完整的搜索系統(tǒng)示意圖,,,22,,信息檢索技術(shù)的應(yīng)用,,23,搜索,推薦,挖掘,,,,IR技術(shù),情報(bào)處理,內(nèi)容安全,輿情分析,,,,信息檢索應(yīng)用系統(tǒng),搜索系統(tǒng)Web搜索引擎IBM Waston問答系統(tǒng)……推薦系統(tǒng)淘寶網(wǎng)豆瓣網(wǎng)當(dāng)當(dāng)網(wǎng),24,從信息規(guī)模上分類,個(gè)人信息檢索:個(gè)人相關(guān)信息的組織、整理、搜索等。桌面搜索(De
7、sktop Search)、個(gè)人信息管理(PIM = Personal Information Management)、個(gè)人數(shù)字記憶(Personal Digital Memory)企業(yè)級(jí)信息檢索:在企業(yè)內(nèi)容文檔的組織、管理、搜索等。內(nèi)容管理(Content Management)Web信息檢索:在超大規(guī)模數(shù)據(jù)集上的檢索。,25,提綱,中科院研究生院2011年度秋季課程,26,什么是信息檢索?為什么要學(xué)習(xí)信息檢索?課程情況,直接
8、經(jīng)濟(jì)效益-能賺錢啊!,世界級(jí)牛公司很多互聯(lián)網(wǎng)的公司:Google, baidu, … 高市值公司軟件工程師年薪高,市場(chǎng)發(fā)展的需求,用戶需要信息檢索技術(shù):互聯(lián)網(wǎng)的信息量太大、噪音太多,尋找所需要的信息非常不容易公司需要信息檢索技術(shù):搜索引擎改變了很多傳統(tǒng)的生活方式,Yahoo、Google、Baidu,還有一些公司如Microsoft、Sina、Sohu、Tecent、Netease都加入到這個(gè)搜索技術(shù)的競(jìng)爭(zhēng)。不只是搜索引擎才需要
9、信息檢索技術(shù),電子商務(wù)(如亞馬遜網(wǎng)站、阿里巴巴)、社交網(wǎng)(微博、Facebook、twitter、校內(nèi)網(wǎng))、數(shù)字圖書館、大規(guī)模數(shù)據(jù)分析等都需要信息檢索技術(shù)人才的競(jìng)爭(zhēng):搜索相關(guān)人才人數(shù)出現(xiàn)缺口,他們非常搶手,待遇如日中天是不是泡沫:2000年左右出現(xiàn)的網(wǎng)絡(luò)泡沫和現(xiàn)在的互聯(lián)網(wǎng)有什么不同,搜索引擎在其中占什么位置?,28,幾個(gè)應(yīng)用需求,移動(dòng)搜索產(chǎn)品搜索專利搜索廣告推薦消費(fèi)行為分析網(wǎng)絡(luò)評(píng)論分析SEO營(yíng)銷……,29,對(duì)相關(guān)專業(yè)學(xué)
10、生的基本要求,信息檢索技術(shù)是內(nèi)容應(yīng)用特別是互聯(lián)網(wǎng)內(nèi)容應(yīng)用的核心技術(shù),可以說(shuō)在這些應(yīng)用中無(wú)處不在信息檢索將會(huì)成為一門計(jì)算機(jī)專業(yè)的基礎(chǔ)學(xué)科搜索(狹義的信息檢索)的三個(gè)層次,30,,,中科院研究生院2011年度秋季課程,31,應(yīng)用層次:搜索是一項(xiàng)非常重要的應(yīng)用!,,,中科院研究生院2011年度秋季課程,32,中間層次:搜索是極其重要的API,,,中科院研究生院2011年度秋季課程,33,www.Googlefight.com,,,中科院研
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 信息檢索課程
- 綜合課程設(shè)計(jì)
- 信息檢索課程報(bào)告
- 課程設(shè)計(jì)---組網(wǎng)與配置綜合實(shí)踐課程設(shè)計(jì)
- 電子信息系統(tǒng)綜合課程設(shè)計(jì)
- 信息檢索課程報(bào)告
- 《信息檢索》課程報(bào)告
- 綜合布線課程設(shè)計(jì)
- 綜合電子課程設(shè)計(jì)
- 通信綜合課程設(shè)計(jì)
- 工藝綜合課程設(shè)計(jì)
- eda綜合課程設(shè)計(jì)
- 綜合布線課程設(shè)計(jì)
- matlab課程設(shè)計(jì)-- 三階系統(tǒng)綜合分析與介紹
- 綜合電子課程設(shè)計(jì)教學(xué)大鋼(課程設(shè)計(jì)類)
- 煤礦課程設(shè)計(jì)--煤礦信息化系統(tǒng)綜合設(shè)計(jì)
- 數(shù)據(jù)結(jié)構(gòu)課程設(shè)計(jì)報(bào)告--航班信息查詢與檢索
- pscad課程設(shè)計(jì)論文-電氣工程專業(yè)綜合課程設(shè)計(jì)
- 通信系統(tǒng)綜合課程設(shè)計(jì)
- 綜合布線系統(tǒng)課程設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論