隨機(jī)森林方法在電信行業(yè)客戶流失預(yù)測(cè)中的應(yīng)用_第1頁(yè)
已閱讀1頁(yè),還剩10頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、收稿日期:收稿日期:20160808錄用日期:錄用日期:20161209基金項(xiàng)目:基金項(xiàng)目:福建省軟科學(xué)項(xiàng)目(2015R0083)通信作者:通信作者:qiuyihui@xmut.1doi:10.6043j.issn.04380479.201608004基于分類回歸決策樹(shù)算法的專利價(jià)值評(píng)估指標(biāo)體系基于分類回歸決策樹(shù)算法的專利價(jià)值評(píng)估指標(biāo)體系邱一卉張馳雨(廈門(mén)理工學(xué)院經(jīng)濟(jì)與管理學(xué)院,福建廈門(mén)361024)摘要:摘要:科學(xué)、準(zhǔn)確的專利價(jià)值評(píng)估

2、將有效地促進(jìn)專利的產(chǎn)業(yè)化、商業(yè)化,是提升國(guó)家、企業(yè)綜合實(shí)力的重要關(guān)鍵點(diǎn)。針對(duì)我國(guó)專利數(shù)據(jù)來(lái)源眾多、指標(biāo)關(guān)系復(fù)雜等特點(diǎn),現(xiàn)有專利價(jià)值評(píng)估過(guò)程依賴人為主觀,缺乏客觀、合理評(píng)估方法等問(wèn)題,提出了一種基于分類回歸決策樹(shù)(classificationregressiontreeCART)模型的屬性選擇方法,用于構(gòu)建專利價(jià)值評(píng)估的指標(biāo)體系。實(shí)驗(yàn)結(jié)果表明相較于基于隨機(jī)森林的屬性選擇方法,該方法不僅能有效地降低指標(biāo)體系的規(guī)模,并且能提高評(píng)估建模的效率,

3、在兼顧評(píng)估模型可解釋性的基礎(chǔ)上更好地提高專利價(jià)值評(píng)估的準(zhǔn)確性。進(jìn)一步通過(guò)枚舉遍歷的方法,約減指標(biāo)集大小,構(gòu)建出規(guī)模更小的指標(biāo)體系,結(jié)合專家知識(shí)和實(shí)證研究,有效地驗(yàn)證了該指標(biāo)體系的可解釋性和現(xiàn)實(shí)意義。關(guān)鍵詞:關(guān)鍵詞:專利價(jià)值評(píng)估指標(biāo)體系;屬性選擇;決策樹(shù)算法中圖分類號(hào):中圖分類號(hào):TP181文獻(xiàn)標(biāo)志碼文獻(xiàn)標(biāo)志碼:A近年來(lái),我國(guó)的專利總量快速增長(zhǎng)。2015年,我國(guó)全年科研經(jīng)費(fèi)支出達(dá)14220億元,比上年增長(zhǎng)9.2%,全年受理專利申請(qǐng)279.

4、9萬(wàn)件,為171.8萬(wàn)件授予專利權(quán)[1]。據(jù)世界銀行統(tǒng)計(jì),我國(guó)的科技成果轉(zhuǎn)換率為15%,其中專利轉(zhuǎn)換率為25%,專利推廣率在15%~20%左右,與龐大的專利數(shù)量相比,如此之低的轉(zhuǎn)換率使得大量?jī)?yōu)秀專利技術(shù)處于閑置和浪費(fèi)狀態(tài),缺乏有效的專利價(jià)值評(píng)估手段就是影響專利快速轉(zhuǎn)換的一大阻礙。若能快速有效地對(duì)專利進(jìn)行評(píng)估,不僅可以節(jié)約60%的研究時(shí)間,更可以節(jié)省40%的研究經(jīng)費(fèi)[1~3]。因此,進(jìn)行有效地專利價(jià)值評(píng)估是最為關(guān)鍵的一環(huán)。專利價(jià)值評(píng)估涉及

5、諸多的指標(biāo),因此識(shí)別影響專利價(jià)值的關(guān)鍵指標(biāo)有利于我們進(jìn)行更加準(zhǔn)確和有效的專利評(píng)估。近年來(lái)國(guó)內(nèi)外學(xué)者在專利價(jià)值評(píng)估指標(biāo)體系方面研究取得了不少成果,Park[4]和Hou[5]分別提出了影響專利價(jià)值評(píng)估的主要因素,也出現(xiàn)了CHI專利價(jià)值評(píng)估指標(biāo)體系[6]和佐治亞太平洋(GegiaPacific)評(píng)估體系[7]等相關(guān)指標(biāo)體系。楊丹丹、李清海、趙蘊(yùn)華等[8~14]提出了影響專利價(jià)值評(píng)估的關(guān)鍵指標(biāo),并構(gòu)建了專利價(jià)值評(píng)估指標(biāo)體系。國(guó)家知識(shí)產(chǎn)權(quán)局于2

6、012年出版了《專利價(jià)值分析指標(biāo)體系操作手冊(cè)》[15],該體系主要包括技術(shù)價(jià)值因素、法律價(jià)值因素及經(jīng)濟(jì)價(jià)值因素3個(gè)一級(jí)指標(biāo)及一系列二級(jí)指標(biāo),為專利價(jià)值評(píng)估提供指導(dǎo)性的先驗(yàn)信息。綜上,國(guó)內(nèi)外學(xué)者對(duì)專利價(jià)值評(píng)估指標(biāo)體系研究取得了不少成果,在實(shí)際應(yīng)用鄰域仍未形成統(tǒng)一的評(píng)估模型及標(biāo)準(zhǔn)。我國(guó)專利數(shù)據(jù)庫(kù)也存在不完善、未標(biāo)準(zhǔn)化等問(wèn)題使得很多國(guó)外的研究成果不適用于我國(guó)的專利價(jià)值評(píng)估,導(dǎo)致以往的專利價(jià)值評(píng)估過(guò)程中過(guò)于依賴人為評(píng)價(jià)、主觀性太強(qiáng),缺乏公正、合

7、理和易操作的評(píng)估方法。在這一背景下,利用跨領(lǐng)域的新方法對(duì)專利價(jià)值評(píng)估指標(biāo)體系進(jìn)行進(jìn)一步研究將具有重要的理論意義和實(shí)踐價(jià)值。專利價(jià)值評(píng)估數(shù)據(jù)具有來(lái)源眾多、指標(biāo)關(guān)系復(fù)雜、類別不平衡等特點(diǎn),為進(jìn)一步提高評(píng)估性能,對(duì)專利價(jià)值評(píng)估數(shù)據(jù)進(jìn)行屬性選擇、建立一個(gè)簡(jiǎn)約的專利價(jià)值評(píng)估指標(biāo)體系十分必要。機(jī)器學(xué)習(xí)領(lǐng)域的屬性選擇分為三種模式:第一種模式是過(guò)濾器(Filter)方法,獨(dú)立的對(duì)數(shù)據(jù)屬性進(jìn)行選擇處理,與后續(xù)模型無(wú)關(guān);第二種模式是包裹式(Wrapper)

8、方法,直接把最終將使用的模型性能作為特征子集的評(píng)價(jià)準(zhǔn)則;第三種模式是嵌入式(Embedding)方法,將屬性選擇過(guò)程與模型訓(xùn)練過(guò)程融為一體。一般而言,由于包裹式屬性選擇方法直接針對(duì)模型進(jìn)行優(yōu)化,因此從最終模型性能來(lái)看,包裹式特征選擇比過(guò)濾式特征選擇更好。Fisher’sratio、Fsce[16]和之間的關(guān)系,所選取的屬性之間可能存在嚴(yán)重冗余,提高過(guò)擬合風(fēng)險(xiǎn)。而KPSVM[18](KernelPenalizedSupptVectMach

9、ine)和BoostingSVM[19](BoostingSupptVectMachine)則是嵌入式的屬性選擇方法,嵌入式的屬性選擇方法效率較高,它們?cè)跇?gòu)造分類器的同時(shí)選擇相關(guān)的屬性。基于隨機(jī)森林[20]的屬性選擇方法也是一種嵌入式屬性選擇方法,在建立隨機(jī)森林的同時(shí)可以得到變量重要性的排序列表,根據(jù)該列表進(jìn)行屬性選擇。但是這類方法依賴于特定的數(shù)據(jù)類型,在專利價(jià)值評(píng)估的數(shù)據(jù)上運(yùn)用效果不佳。針對(duì)以上屬性選擇方法在專利價(jià)值評(píng)估指標(biāo)體系應(yīng)用中

10、出現(xiàn)的問(wèn)題。本文提取出一種基于CART決策樹(shù)算法的屬性選擇方法,用于構(gòu)建專利價(jià)值評(píng)估的指標(biāo)體系。實(shí)驗(yàn)結(jié)果表明相較于基于隨機(jī)森林的屬性選擇方法,該方法具有更大的優(yōu)勢(shì),能夠有效地降低指標(biāo)體系的規(guī)模。相較于上述屬性選擇方法該方法能快速簡(jiǎn)潔地對(duì)屬性進(jìn)行選擇,得到屬性的重要性程度排序,并可適用于多種數(shù)據(jù)類型。本文進(jìn)一步通過(guò)枚舉遍歷的方法,約減指標(biāo)集大小,構(gòu)建出規(guī)模更小的指標(biāo)體系,結(jié)合專家知識(shí)和實(shí)證研究,有效地驗(yàn)證了該指標(biāo)體系可解釋性和現(xiàn)實(shí)意義。與

11、傳統(tǒng)的成本法[21]和市場(chǎng)法[22]相比本文提出的專利價(jià)值評(píng)估指標(biāo)體系不受市場(chǎng)波動(dòng)影響,更具客觀性,數(shù)據(jù)獲取也更加準(zhǔn)確、便利。1屬性選擇方法屬性選擇方法1.1CART決策樹(shù)算法決策樹(shù)算法為提高專利評(píng)估的效率,本文利用在機(jī)器學(xué)習(xí)領(lǐng)域應(yīng)用最為廣泛的CART決策樹(shù)算法進(jìn)行屬性選擇。決策樹(shù)是一種由結(jié)點(diǎn)和有向邊組成的層次結(jié)構(gòu),樹(shù)中包含三種結(jié)點(diǎn):根結(jié)點(diǎn)、內(nèi)部結(jié)點(diǎn)、終結(jié)點(diǎn)。決策樹(shù)僅有一個(gè)根結(jié)點(diǎn),是全體訓(xùn)練數(shù)據(jù)集合。樹(shù)中的每個(gè)內(nèi)部結(jié)點(diǎn)是一個(gè)分裂問(wèn)題,它

12、將到達(dá)該結(jié)點(diǎn)處的樣本按某個(gè)特定屬性分塊。每個(gè)終結(jié)點(diǎn)是帶有分類標(biāo)簽的數(shù)據(jù)集合。從決策樹(shù)的根結(jié)點(diǎn)到葉結(jié)點(diǎn)的一條路徑形成一個(gè)判別規(guī)則。CART決策樹(shù)算法是Breiman[23]于1984年提出的,該算法可以處理處理高度傾斜或多態(tài)的數(shù)值型數(shù)據(jù),也可以處理順序或無(wú)序的類屬型數(shù)據(jù)[24]。CART算法使用基尼系數(shù)(GiniIndex)作為不純度的度量,CART算法選擇具有最小Gini系數(shù)值的屬性作為決策樹(shù)的分裂屬性,Gini系數(shù)值越小,表明樣本對(duì)于

13、分類問(wèn)題的純凈度越高,劃分效果越好。基尼系數(shù)的定義如公式1所示:(1)21()1CiiGiniAp????公式1表示一個(gè)節(jié)點(diǎn)A的Gini不純度,其中表示屬于類的概率,C表示測(cè)試集樣本共有Cipi類。當(dāng)時(shí)表明所有樣本屬于同類,當(dāng)所()0GiniA?有類在節(jié)點(diǎn)中以等概率出現(xiàn)時(shí),()(1)2GiniACC??最大化。在實(shí)際遞歸劃分中,如果當(dāng)前節(jié)點(diǎn)()GiniA的中的樣本數(shù)不為1并且所有樣本不屬于同一類,則此節(jié)點(diǎn)為非葉子節(jié)點(diǎn),嘗試樣本中的每個(gè)屬

14、性作為分裂屬性進(jìn)行計(jì)算,嘗試找出不純度最小的一個(gè)劃分,該屬性劃分即為該節(jié)點(diǎn)下的最優(yōu)分支。按上述生成過(guò)程遞歸得到的完整的決策樹(shù)往往都會(huì)出現(xiàn)“過(guò)擬合”現(xiàn)象,因此需要對(duì)決策樹(shù)進(jìn)行剪枝。CART算法采用交叉驗(yàn)證法進(jìn)行剪枝,最終得到的是一棵兼顧復(fù)雜度和錯(cuò)誤率的最優(yōu)二叉樹(shù)。1.2基于基于CART樹(shù)預(yù)測(cè)準(zhǔn)確率的屬性選樹(shù)預(yù)測(cè)準(zhǔn)確率的屬性選擇方法擇方法本文提出一種基于CART決策樹(shù)預(yù)測(cè)準(zhǔn)確率計(jì)算的屬性選擇方法,基本思路是利用對(duì)決策樹(shù)模型預(yù)測(cè)準(zhǔn)確率的影響程

15、度來(lái)定義某個(gè)屬性(指標(biāo))的重要程度,影響程度越高說(shuō)明該屬性對(duì)評(píng)估預(yù)測(cè)越重要,影響程度越低說(shuō)明該屬性與評(píng)估預(yù)測(cè)越不相關(guān),即越不重要?;谝陨纤悸穪?lái)進(jìn)行屬性選擇,首先根據(jù)去除某一屬性之后對(duì)模型預(yù)測(cè)準(zhǔn)確率的影響程度定義“影響系數(shù)值”,其次根據(jù)加入某一屬性之后對(duì)模型預(yù)測(cè)準(zhǔn)確率的提升程度定義“提升系數(shù)值”,最終結(jié)合以上兩個(gè)系數(shù)值,找到對(duì)評(píng)估預(yù)測(cè)影響最大的關(guān)鍵指標(biāo),建立專利評(píng)估的指標(biāo)體系。首先定義“影響系數(shù)值”如式2所示。(2)0iiAAI??其中

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論