版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、模式識別,也被稱為分類或者是統計分類,模式識別學科的研究目的就是為了構建能夠自動判別輸入數據類別信息的分類系統。聚類分析是一種無監(jiān)督的模式識別方法,是模式識別研究中的一個重要領域。無監(jiān)督的聚類分析算法能夠探索輸入數據的內部群組結構,目前已經被廣泛應用于各種數據分析場合,包括計算機視覺分析,統計分析,圖像處理,醫(yī)療信息處理,生物科學,社會科學和心理科學等。聚類分析的基本原理就是將輸入數據分成不同的群組,同一組中的成員擁有相似的特性,相反不
2、同組中的成員特性相異。
本文主要針對聚類分析算法及其應用進行研究,本文研究的聚類分析算法主要應用于生物信息學數據分析,大規(guī)模選址問題,數據不規(guī)則形狀分布聚類分析問題。主要的工作和取得的成果概括如下:
(1)基因表達序列分析技術(Serial.Analysis of gene expression,SAGE)是一種快速詳細的分析數以千計轉錄(transcripts)的最佳方法,這項技術最開始由Victor Ve
3、lculescu博士于1995年提出。聚類分析算法是一種非常有用的SAGE數據分析方法,被用于發(fā)現SAGE數據集中潛在的新的或隱含的轉錄或者是基因組,因此已經被用于分析SAGE數據。盡管研究人員已經給出了多種用于SAGE數據分析的聚類分析算法,但是這些算法通常都需要結合一些用戶自己設定的參數,并且聚類分析的結果對參數選擇有很強的依賴性。本文基于SAGE數據的Poisson統計特性和最近提出的仿射消息傳播聚類分析算法提出一種自適應的聚類分
4、析算法,在該算法中引入了一個聚類結果校驗測度,并以該測度為代價函數對聚類結果進行優(yōu)化調整以獲得優(yōu)化的聚類結果,該算法被命名為PoissonAPS。在多個實際生命數據集上的對比實驗結果表明本文給出的方法能夠對SAGE數據進行很好的聚類分析,并且產生有意義的可解釋的分類結果。
(2)隨著高通量測序技術的發(fā)展,目前在生物信息數據庫中已經累積了大量的蛋白質序列數據。但是由于實驗確定蛋白質序列功能的速度無法趕上新序列測序的速度,因此
5、造成大量的新測序的蛋白質序列尚未通過實驗的方式來確定它們的生物功能和家族信息。由于實驗驗證過程非常耗時并且昂貴,因此理想情況下希望僅僅依賴序列之間的相似性來探測未知功能序列和已知功能序列之間的同源關系,進而確定未知功能序列的信息。聚類分析方法能夠通過將蛋白質序列分類到不同的蛋白質家族獲得有意義的信息。最近幾年研究人員已經提出了多種用于蛋白質序列分析的聚類算法。面對眾多的蛋白質序列聚類分析算法,有必要進行一個對比研究分析,分析的結果將有利
6、于生命科學研究人員考察不同的算法并且選擇合適的用于特定實驗分析場合的算法。本文比較了四種典型的蛋白質序列分析算法,在多個數據集上考察算法的以下幾方面的性能:缺省參數條件下的聚類算法性能分析;算法對蛋白質序列在數據集中所處位置是否敏感;數據集自身的真實類分布對聚類算法結果的影響;調節(jié)算法的參數,觀察參數對聚類結果的影響。本文給出的實驗結果能夠幫助研究人員選擇合適的分析算法。并且實驗結果還表明蛋白質序列聚類分析算法還有很大的改進空間。
7、> (3)隨著大量的未知功能的蛋白質序列數據的累積,目前已經無法通過實驗的手段來標注未知功能的蛋白質序列。聚類分析方法通過將蛋白質序列分類到不同的同源組來確定未知功能的蛋白質序列的信息。本文引入了一種用于大數據量蛋白質序列分析的無比對的在線聚類分析方法,命名為OmineCAPS。該方法具有速度快,可在有限內存環(huán)境下運行等優(yōu)點,此外該方法還可以被部署在WEB服務器上。實驗結果表明該方法能夠快速的分析大數據量的蛋白質序列,并且獲得的聚
8、類結果的質量接近于其它算法。
(4)選址布局問題是一個廣泛研究的運籌學問題。通過將選址布局問題看作聚類問題,結合聚類分析算法并且將候選地址的信息映射為特征向量,本文提出了兩種求解選址布局問題的方法:基于塊劃分的選址布局方法;基于道路網絡的選址布局方法。文中使用模擬數據集和真實數據集來評估這兩種方法,實驗結果表明兩種方法都能夠求解設施資源受限和不受限情況下的選址布局問題,而且可以很好的解決大規(guī)模的選址布局問題。
9、 (5)探測數據不規(guī)則形狀分布的自然類簇分布是模式識別研究領域的一個困難的任務。本文給出了一種有效的數據不規(guī)則形狀分布聚類分析算法,該算法結合了譜聚類和仿射消息傳播聚類算法的優(yōu)點,能夠很好的分析數據不規(guī)則形狀分布的類簇結構。與此同時,文中給出了一種新的基于鄰居離散分析的相似度測度。本文給出的方法簡單有效,在多個模擬數據和實際數據上檢驗了方法的性能。實驗結果表明本文給出的方法能夠探測數據中的自然類簇分布,并且聚類分析的結果和人的自然判斷相
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 模糊聚類分析技術及其應用研究.pdf
- 復雜網絡聚類分析及其應用研究.pdf
- 基因表達數據聚類分析及其應用研究.pdf
- 新能源汽車數據聚類分析及其應用研究.pdf
- 基于DF關系的聚類分析算法及其應用研究.pdf
- 面向證券行業(yè)數據的聚類分析及其應用研究.pdf
- 空間聚類分析及其在GIS中的應用研究.pdf
- 聚類分析及其在基因表達數據中的應用研究.pdf
- 改進聚類分析算法及其在成績分析中的應用研究.pdf
- 基于聚類分析的可視化技術及其應用研究.pdf
- 布谷鳥搜索及其在雙聚類分析的應用研究.pdf
- 聚類分析中的相似性度量及其應用研究.pdf
- 聚類分析及其在Web日志挖掘中的應用研究.pdf
- 蟻群算法及其在聚類分析中的應用研究.pdf
- 聚類分析在稅源管理中的應用研究.pdf
- 聚類分析中的相似性度量及其應用研究(1)
- 聚類分析及其在移動通信企業(yè)數據挖掘分析中的應用研究.pdf
- 數據場在聚類分析中的應用研究.pdf
- 聚類分析在電力營銷中的應用研究.pdf
- 聚類分析在圖像分類中的應用研究.pdf
評論
0/150
提交評論