競爭對手網(wǎng)站商業(yè)情報挖掘.pdf_第1頁
已閱讀1頁,還剩56頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、作為一個廣泛流行的交流渠道,網(wǎng)絡(luò)正越來越吸引更多的公司把他們的信息公布到互聯(lián)網(wǎng)上。隨著更多競爭對手的信息公開,對于一個公司而言,得到更多有關(guān)競爭對手的商業(yè)情報及其競爭優(yōu)勢的機(jī)會已然到來。然而,要從競爭對手的網(wǎng)站上找到有價值的信息并不是一件簡單的事情,因?yàn)椋旱谝痪W(wǎng)頁數(shù)量如此眾多以至于手工尋找這類信息根本不可行;第二如果沒有匯總分析,實(shí)體間的模式和隱藏的關(guān)系是發(fā)現(xiàn)不了的。
   信息檢索的應(yīng)用軟件,尤其是網(wǎng)絡(luò)搜索引擎,能克服前面提到

2、的第一個困難。但使用搜索引擎,需要用戶給出其具體而詳盡的需求。在尋找那些未知信息時,這種需求在結(jié)果沒有呈現(xiàn)出來以前是模糊的。搜索引擎也缺乏對文檔檢索的分析,文檔上的模式也不容易找到,所以目前的搜索工具對于獲取商業(yè)情報的能力是有限的。
   為從競爭對手網(wǎng)站挖掘到那些用戶無法描述清楚或根本不知道但對用戶很有用的信息,即挖掘商業(yè)情報,我們使用了一些新的概念和方法,比如拿用戶自身網(wǎng)站作為背景知識的來源,因?yàn)槲覀冇凶銐虻睦碛杉俣?,相似?/p>

3、公司應(yīng)該具有相似的基本信息,從事相同行業(yè)的人應(yīng)該懂得這個行業(yè)的一些基本知識。然后我們將用戶自身網(wǎng)站與競爭對手網(wǎng)站的內(nèi)容進(jìn)行對比挖掘,比較方法因具體的不同需求而不同,但核心都是挖掘關(guān)鍵詞及其在文檔中的出現(xiàn)頻率,然后對它們進(jìn)行分析比較以過濾那些無用的信息得到想要的結(jié)果。
   可是與西文網(wǎng)站相比,對中文網(wǎng)站的挖掘還有一個難處就是中文句子里的詞與詞之間沒有顯式分隔標(biāo)記,要想挖掘到有用信息首先就要對文本進(jìn)行中文分詞。無詞典分詞是基于文檔

4、中詞的統(tǒng)計信息來識別詞的,它在未登錄詞(人名、地名、企業(yè)名等)以及領(lǐng)域內(nèi)專業(yè)名詞的識別上有很好的優(yōu)勢。本文研究了一種基于后綴數(shù)組的無詞典分詞方法,改進(jìn)了其計算候選詞出現(xiàn)頻率的方法并且大大減少了篩選候選詞集時兩兩判斷候選詞是否具有父子關(guān)系的次數(shù),提高了其運(yùn)算的速度。同時我們還介紹了三種典型的分詞詞典機(jī)制并設(shè)計了一個新的分詞詞典機(jī)制——雙字哈希-詞尾PATRICIAtree機(jī)制,該機(jī)制利用了已有線性詞典機(jī)制隨機(jī)訪問快的優(yōu)點(diǎn)同時又結(jié)合了PAT

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論