2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩177頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、Bioinformatics,生物信息學(xué),劉 紅,liuhongseminar@126.com,復(fù)習(xí)內(nèi)容第一章要點,生物信息學(xué)(Bioinformatics): 生物信息學(xué)是一門交叉學(xué)科,它包含了生物信息的獲取、處理、存儲、分發(fā)、分析和解釋在內(nèi)的所有方面。他綜合的應(yīng)用數(shù)學(xué)、計算機(jī)科學(xué)和生物學(xué)的各種工具 ,來闡明和理解大量數(shù)據(jù)中包含的生物學(xué)意義。人類基因組計劃(human genome project,HGP) 規(guī)

2、模模宏大的科學(xué)計劃,其旨在測定組成人類染色體(指單倍體)中所包含的30億個核苷酸序列的堿基組成,從而繪制下人類基因組圖譜,并且辨識并呈現(xiàn)其上的所有基因及其序列,進(jìn)而破譯人類遺傳信息。人類基因組計劃是人類為了解自身的奧秘所邁出的重要一步,是繼曼哈頓計劃和阿波羅登月計劃之后,人類科學(xué)史上的又一個偉大工程。,,Sanger 測序法又稱 雙脫氧末端終止法。 Sanger法是根據(jù)核苷酸在某一固定的點開始,隨機(jī)在某一個特定的堿基處終止,并

3、且在每個堿基后面進(jìn)行熒光標(biāo)記,產(chǎn)生以A、T、C、G結(jié)束的四組不同長度的一系列核苷酸,然后在尿素變性的PAGE膠上電泳進(jìn)行檢測,從而獲得可見的DNA堿基序列。 Sanger法測序的原理就是,每個反應(yīng)含有所有四種脫氧核苷酸三磷酸(dNTP)使之?dāng)U增,并混入限量的一種不同的雙脫氧核苷三磷酸(ddNTP)使之終止。由于ddNTP缺乏延伸所需要的3‘-OH基團(tuán),使延長的寡聚核苷酸選擇性地在G、A、T或C處終止,終止點由反應(yīng)中相應(yīng)的雙脫

4、氧而定。每一種dNTPs和ddNTPs的相對濃度可以調(diào)整,使反應(yīng)得到一組長幾個至千以上個,相差一個堿基一系列片斷。它們具有共同的起始點,但終止在不同的的核苷酸上,可通過高分辨率變性凝膠電泳分離大小不同的片段,凝膠處理后可用X-光膠片放射自顯影或非同位素標(biāo)記進(jìn)行檢測。,鳥槍法序列測定(Shotgun sequencing) 是一種廣泛使用的為長DNA測序的方法,比傳統(tǒng)的定序法快速,但精確度較差。曾經(jīng)使用于塞雷拉基因組(Celera

5、 Genomics)公司所主持的人類基因組計劃。 原理:將基因組打斷為數(shù)百萬個DNA片斷,然后用一定的算法將片斷的序列信息重新整合在一起,從而得到整個基因組序列。為了提高這一方法的效率,1980年代,測序和片斷信息整合達(dá)到了自動化。這一方法雖然已被用于序列長達(dá)6百萬個堿基對的細(xì)菌基因組測序,但對于人類基因組中3千萬個堿基對的序列測定,這一技術(shù)能否成功在當(dāng)時還未有定論。,生物信息學(xué)數(shù)據(jù)庫,內(nèi)容提綱,生物信息計算機(jī)基礎(chǔ)知識簡介分

6、子生物信息數(shù)據(jù)庫生物信息數(shù)據(jù)存儲格式生物信息的檢索和提交,,生物信息計算機(jī)基礎(chǔ)知識簡介,Linux 系統(tǒng)BioperlMySQLDBMS DBSDM,,Linux 系統(tǒng),Linux 系統(tǒng) 免費使用和自由傳播的類UNIX操作系統(tǒng)。 1991,芬蘭赫爾辛基大學(xué) Linus Torvalds 命名為Linux 特點: 1. 開放性 2. 多用戶

7、3. 多任務(wù) 多任務(wù)運行時效率高于Windows系統(tǒng),,Bioperl,正式開發(fā)于1995年,開源項目,基于Perl語言開發(fā),由OBF(Open Bioinformatics Foundation)支持。專門用于生物信息學(xué)、基因組學(xué)以及其他生命科學(xué)領(lǐng)域的工具和函數(shù)模塊集,超過1000個模塊。www.bioperl.org,,數(shù)據(jù)庫管理系統(tǒng)(database management system, DBMS)

8、 對數(shù)據(jù)庫進(jìn)行管理的系統(tǒng)軟件,提供DB的建立、查詢、更新以及各種數(shù)據(jù)控制功能。 數(shù)據(jù)庫系統(tǒng)(database system, DBS) 采用數(shù)據(jù)庫技術(shù)的計算機(jī)系統(tǒng)。DBS是計算機(jī)軟件/硬件、數(shù)據(jù)資源和數(shù)據(jù)庫管理員共同組成的系統(tǒng)。 數(shù)據(jù)模型(data model) 數(shù)據(jù)庫結(jié)構(gòu)和語義的一種抽象描述。由數(shù)據(jù)的結(jié)構(gòu)、數(shù)據(jù)操作和完整性約束三部分組成。,生物信息學(xué)數(shù)據(jù)庫產(chǎn)生的動力,生物分子數(shù)據(jù)的高速增長 有效的

9、存儲 計算機(jī)技術(shù)迅速發(fā)展 數(shù)據(jù)存貯技術(shù)的成熟 互聯(lián)網(wǎng) 生物信息分析是現(xiàn)代生物學(xué)研究的基礎(chǔ) 及時的獲取 高效的利用 分子生物學(xué)數(shù)據(jù),,(1)時間性 新的數(shù)據(jù)可以及時在互聯(lián)網(wǎng)獲?。?)注釋 對每個序列有一致的、詳細(xì)的說明信息 (3)支撐數(shù)據(jù) 相關(guān)的研究背景,原始數(shù)據(jù)。文獻(xiàn)支持(4)數(shù)據(jù)質(zhì)量 數(shù)據(jù)庫管理者對數(shù)據(jù)質(zhì)量進(jìn)行核查(5)集成性

10、 三種基本數(shù)據(jù)(核酸、蛋白、蛋白結(jié)構(gòu))的集成。 有效提高研究者的研究效率,生物信息數(shù)據(jù)庫應(yīng)滿足的主要需求,,現(xiàn)代生物信息數(shù)據(jù)庫的特征(*),,(1)數(shù)據(jù)更新速度快,數(shù)據(jù)量呈指數(shù)增長趨勢 (2)數(shù)據(jù)庫使用頻率快速增長,重要性日益被科研工作者所認(rèn)識 (3)數(shù)據(jù)庫的復(fù)雜程度不斷增加(4)數(shù)據(jù)庫網(wǎng)絡(luò)化 互聯(lián)網(wǎng)上訪問;公共數(shù)據(jù)庫之間相互鏈接;集成數(shù)據(jù)庫系統(tǒng)。(5)面向應(yīng)用。如提供在

11、線分析工具。(7)先進(jìn)的計算機(jī)硬件和軟件的配置,http://www.ncbi.nlm.nih.gov/genbank/genbankstats.html,GenBank 堿基數(shù)每年增長幅度約為100% !,分子生物數(shù)據(jù)庫的分類,,,一級數(shù)據(jù)庫概念:數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理和注釋 包含: 基因組數(shù)據(jù)庫、 核酸序列數(shù)據(jù)庫、 蛋白一級結(jié)構(gòu)序列數(shù)據(jù)庫、

12、 生物大分子三維空間結(jié)構(gòu)數(shù)據(jù)庫(主要為蛋白質(zhì)),二級數(shù)據(jù)庫概念:對原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果,是在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎(chǔ)上針對特定的應(yīng)用目標(biāo)而建立的。包含:種類繁多:真核生物啟動子序列庫 EPD ;功能模體(motif)數(shù)據(jù)庫 PROSITE,數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理和注釋。,一級數(shù)據(jù)庫,,基因組數(shù)據(jù)庫,基因組數(shù)據(jù)庫的主體是模式生物基因組數(shù)據(jù)庫,此外還包括染色體,

13、基因突變,遺傳疾病,分類學(xué),比較基因組,基因表達(dá)和調(diào)控,放射雜交,基因圖譜等各種數(shù)據(jù)庫。,,NCBI 基因組數(shù)據(jù)庫 Genome http://www.ncbi.nlm.nih.gov/sites/entrez?db=genome,Map view http://www.ncbi.nlm.nih.gov/projects/mapview/,生物基因組計劃信息,,基因組數(shù)據(jù)庫(GDB),創(chuàng)建:1990 Johns Hopkins

14、大學(xué)創(chuàng)建目標(biāo):構(gòu)建關(guān)于人類基因組的百科全書,除了構(gòu)建基因組圖譜之外,開發(fā)了描述 序列水平的基因組內(nèi)容的方法:包括序列變異和其它對功能 和表型 的描述 內(nèi)容:人 類 基 因 組 區(qū) 域 ( 包 括 基 因 、 克 隆 、 amplimers PCR 標(biāo) 記 、 斷 點breakpoints、細(xì)胞遺傳標(biāo)記 cytogenetic markers、易碎位點 fragile sites、EST 序列、綜合區(qū)域 syn

15、dromic regions、contigs 和重復(fù)序列);人類基因組圖譜(包括細(xì)胞遺傳圖譜、連接圖譜、放射性雜交圖譜、content contig 圖譜和綜合圖譜等);人類基因組內(nèi)的變異(包括突變和多態(tài)性,加上等位基因頻率數(shù)據(jù))。,,http://www.gdb.org國內(nèi)鏡像是:http://gdb.pku.edu.cn/gdb/,EMBL-EBI和Sanger研究所共同開發(fā)的一個系統(tǒng)。Ensembl產(chǎn)生并維護(hù)關(guān)于各種

16、模式生物基因組的自動注釋。人類基因組、小鼠基因組、大鼠基因組、黑猩猩基因組等。Ensembl試圖跟蹤這些基因組的序列片段,并將序列片段組裝成單個長序列,進(jìn)而分析這些經(jīng)過組裝的DNA序列,搜索其中的基因,發(fā)現(xiàn)生物學(xué)家或醫(yī)學(xué)工作者感興趣的序列。Ensembl所用的基因預(yù)測程序為GenScan。單核苷酸多態(tài)性(SNP)、重復(fù)序列與其它序列高度相似(或同源)的序列。Ensembl 數(shù)據(jù)庫還提供疾病、細(xì)胞等方面的信息,并且提供

17、數(shù)據(jù)搜索、數(shù)據(jù)下載、統(tǒng)計分析等服務(wù)。,綜合基因組數(shù)據(jù)庫(Ensembl Genome),,Ensembl (http://www.ensembl.org/),,,,模式生物基因組的數(shù)據(jù)庫,酵母,大腸桿菌,果蠅,線蟲,老鼠,,,AceDB 線蟲基因數(shù)據(jù)庫,是數(shù)據(jù)庫也是靈活和通用數(shù)據(jù)庫管理系統(tǒng)Sanger中心已將其用于線蟲和人類基因的瀏覽和檢索庫內(nèi)資源包括:限制性圖譜、基因結(jié)構(gòu)信息、質(zhì)粒圖譜、參考文獻(xiàn)等。,秀麗線蟲Caen

18、orhabditis elegans一種透明的、生活在海灘泥沙中的小蟲細(xì)胞數(shù)目一定:成蟲細(xì)胞數(shù)目只有959個,其中包括302個神經(jīng)元; 有6條染色體,1998,長9.7Mb,序列數(shù)據(jù)庫,,主要核酸序列數(shù)據(jù)庫: GenBank、EMBL、 DDBJ主要蛋白質(zhì)序列數(shù)據(jù)庫:Swissprot, PIR,核酸序列數(shù)據(jù)庫,美國國家生物技術(shù)信息中心的GenBank http://www.ncbi.nlm.nih.gov/Web/Ge

19、nbank/index.html 歐洲分子生物學(xué)實驗室的EMBL http://www.embl-heidelberg.de 日本遺傳研究所的DDBJ http://www.ddbj.nig.ac.jp/,,1979年開始建設(shè),1982年正式運行 美國國家生物信息中心負(fù)責(zé)維護(hù) Banson,D.A. et al. (1998) Nucleic Acids Res. 26, 1-7,

20、GenBank數(shù)據(jù)庫,,GenBank數(shù)據(jù)庫的數(shù)據(jù)來源有三種:直接來源于測序工作者提交的序列與其它數(shù)據(jù)機(jī)構(gòu)協(xié)作交換的數(shù)據(jù)美國專利局提供的專利數(shù)據(jù),1980年開始建設(shè),1982年正式運行 歐洲主要的核酸序列收集單位歐洲生物信息中心(EBI),德國海德堡站點負(fù)責(zé)維護(hù),EMBL數(shù)據(jù)庫,,EMBL數(shù)據(jù)庫的數(shù)據(jù)來源有三種:直接來源于測序工作者提交的序列(Sanger測序中心)與其它數(shù)據(jù)機(jī)構(gòu)協(xié)作交換的數(shù)據(jù)歐洲專利局提供的專利數(shù)據(jù),日

21、本1984年開始建立,并于1987年正式服務(wù)。 亞洲唯一的核酸序列數(shù)據(jù)庫生物信息學(xué)中心和日本國家遺傳研究所的DNA數(shù)據(jù)庫(CIB-DDBJ),共同組建。,DDBJ數(shù)據(jù)庫,,DDBJ數(shù)據(jù)庫的數(shù)據(jù)來源有二種:90%直接來源于日本研究者提交的序列與其它數(shù)據(jù)機(jī)構(gòu)協(xié)作交換的數(shù)據(jù),在短短的約18年間,數(shù)據(jù)量增長了近十萬倍,公共序列數(shù)據(jù)庫(Public Sequence Database),1988 年3個數(shù)據(jù)庫達(dá)成協(xié)議,組成合作聯(lián)合體。它們

22、每天交換信息,并對數(shù)據(jù)庫 DNA 序列記錄的統(tǒng)一標(biāo)準(zhǔn)達(dá)成一致。 每個機(jī)構(gòu)負(fù)責(zé)收集來自不同地理分布的數(shù)據(jù) (EMBL 負(fù)責(zé)歐洲, GenBank 負(fù)責(zé)美洲, DDBJ負(fù)責(zé)亞洲等) ,將所有信息匯總在一起,共同享有并向世界開放,故這 3 個數(shù)據(jù)庫又被稱為公共序列數(shù)據(jù)庫,,GenBank,DDBJ,EMBL,,,,蛋白質(zhì)序列數(shù)據(jù)庫,重要蛋白質(zhì)序列數(shù)據(jù)庫:SWISS-PROT(歐洲)PIR(美國),,蛋白質(zhì)序列數(shù)據(jù)庫,SWISS

23、-PROT和PIR是國際上二個主要的蛋白質(zhì)序列數(shù)據(jù)庫,目前這二個數(shù)據(jù)庫在EMBL和GenBank數(shù)據(jù)庫上均建立了鏡像 (mirror) 站點。SWISS-PROT數(shù)據(jù)庫包括了從EMBL翻譯而來的蛋白質(zhì)序列,這些序列經(jīng)過檢驗和注釋。PIR數(shù)據(jù)庫的數(shù)據(jù)由美國家生物技術(shù)信息中心(NCBI)翻譯自GenBank的DNA序列。,,二種蛋白質(zhì)數(shù)據(jù)庫種類和特點,,SWISS-PROT 蛋白數(shù)據(jù)庫,1986創(chuàng)建 瑞士日內(nèi)瓦大學(xué)醫(yī)學(xué)生物化學(xué)系

24、和歐洲生物信息學(xué)研究所(EBI)合作維護(hù) 在EMBL和GenBank數(shù)據(jù)庫上均建立了鏡像站點; 數(shù)據(jù)庫包括了從EMBL翻譯而來的蛋白質(zhì)序列 這些序列經(jīng)過 檢驗和注釋; 數(shù)據(jù)記錄包括兩部分: 序列 注釋: 結(jié)構(gòu)域、功能位點、跨膜區(qū)域、二硫鍵位置、翻譯后的修飾 數(shù)據(jù)存在滯后性,,http://cn.expasy.org/sprot,PIR 蛋白數(shù)據(jù)庫,PIR

25、(Protein information resource) 1. 由美國NCBI翻譯自GenBank的DNA序列(1984年); 2. 在EMBL和GenBank數(shù)據(jù)庫上均建立了鏡像站點; 3. 數(shù)據(jù)依據(jù)注釋的質(zhì)量分為4類。,,PIR數(shù)據(jù)庫的分類情況,http://www-nbrf.georgetown.edu/,PIR 數(shù)據(jù)庫的特點,,幫助研究者鑒別和解釋蛋白質(zhì)序列信息,研究

26、分子進(jìn)化、功能基因組。它是一個全面的、經(jīng)過注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫。 所有序列數(shù)據(jù)都經(jīng)過整理,超過99%的序列已按蛋白質(zhì)家族分類,一半以上還按蛋白質(zhì)超家族進(jìn)行了分類。,生物大分子三維結(jié)構(gòu)數(shù)據(jù)庫,蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫 PDB 蛋白質(zhì)分類數(shù)據(jù)庫 SCOP和CATH,,PDB蛋白結(jié)構(gòu)數(shù)據(jù)庫,PDB,Protein Data Bank,1. 目前最主要的蛋白質(zhì)分子結(jié)構(gòu)數(shù)據(jù)庫; 2. 1970年代建立,美國Bro

27、okhaven國家實驗室維護(hù)管理; 3. 1988年,由美國RCSB(research collaboratory for structural biology)管理; 4. 以文本格式存放數(shù)據(jù),包括原子坐標(biāo)、物種來源、測定方法、提交者信息、一級結(jié)構(gòu)、二級結(jié)構(gòu)等; 5. PDBsum數(shù)據(jù)庫:PDB注釋信息綜合數(shù)據(jù)庫,具有檢索、分析、可視化的功能。,,http://www.rcsb.org/pdb,http:

28、//www.ebi.ac.uk/thornton-rv/databases/pdbsum/,蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫,SCOP (Structural Classification of Proteins)CATH( Class, Architecture, Topology, Homology),,蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫SCOP,描述了結(jié)構(gòu)和進(jìn)化關(guān)系。SCOP數(shù)據(jù)庫從不同層次對蛋白質(zhì)結(jié)構(gòu)進(jìn)行分類,以反映它們結(jié)構(gòu)和進(jìn)化的相關(guān)性。第一個分

29、類層次為家族,通常將序列相似性程度在30%以上的蛋白質(zhì)歸入同一家族,有比較明確的進(jìn)化關(guān)系。超家族:序列相似性較低,結(jié)構(gòu)和功能特性表明它們有共同的進(jìn)化起源,將其視作超家族。折疊類型:無論有無共同的進(jìn)化起源,只要二級結(jié)構(gòu)單元具有相同的排列和拓?fù)浣Y(jié)構(gòu),即認(rèn)為這些蛋白質(zhì)具有相同的折疊方式。在這些情況下,結(jié)構(gòu)的相似性主要依賴于二級結(jié)構(gòu)單元的排列方式或拓?fù)浣Y(jié)構(gòu)。,,蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫CATH,類型Class、構(gòu)架Architecture 、拓

30、撲結(jié)構(gòu)Topology和同源性Homology 。分類基礎(chǔ)是蛋白質(zhì)結(jié)構(gòu)域。與SCOP不同的是,CATH把蛋白質(zhì)分為4類,即a主類、b主類,a-b類(a/b型和a+b型)和低二級結(jié)構(gòu)類。低二級結(jié)構(gòu)類是指二級結(jié)構(gòu)成分含量很低的蛋白質(zhì)分子。CATH數(shù)據(jù)庫的第二個分類依據(jù)為由α螺旋和β折疊形成的超二級結(jié)構(gòu)排列方式,而不考慮它們之間的連接關(guān)系。,,第三個層次為拓?fù)浣Y(jié)構(gòu),即二級結(jié)構(gòu)的形狀和二級結(jié)構(gòu)間的聯(lián)系。第四個層次為結(jié)構(gòu)的同源性,它是先通過

31、序列比較然后再用結(jié)構(gòu)比較來確定的。CATH數(shù)據(jù)庫的最后一個層次為序列(Sequence)層次,在這一層次上,只要結(jié)構(gòu)域中的序列同源性大于35%,就被認(rèn)為具有高度的結(jié)構(gòu)和功能的相似性。對于較大的結(jié)構(gòu)域,則至少要有60%與小的結(jié)構(gòu)域相同。,蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫CATH,,End of PART 1,,現(xiàn)代生物信息數(shù)據(jù)庫的特征(*),,(1)數(shù)據(jù)更新速度快,數(shù)據(jù)量呈指數(shù)增長趨勢 (2)數(shù)據(jù)庫使用頻率快速增長,重要性日益被科研工作者所認(rèn)識

32、(3)數(shù)據(jù)庫的復(fù)雜程度不斷增加(4)數(shù)據(jù)庫網(wǎng)絡(luò)化 互聯(lián)網(wǎng)上訪問;公共數(shù)據(jù)庫之間相互鏈接;集成數(shù)據(jù)庫系統(tǒng)。(5)面向應(yīng)用。如提供在線分析工具。(7)先進(jìn)的計算機(jī)硬件和軟件的配置,分子生物數(shù)據(jù)庫的分類,,,一級數(shù)據(jù)庫概念:數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理和注釋 包含: 基因組數(shù)據(jù)庫、 核酸序列數(shù)據(jù)庫、 蛋白一級結(jié)構(gòu)序列數(shù)據(jù)庫、

33、 生物大分子三維空間結(jié)構(gòu)數(shù)據(jù)庫(主要為蛋白質(zhì)),二級數(shù)據(jù)庫概念:對原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果,是在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎(chǔ)上針對特定的應(yīng)用目標(biāo)而建立的。包含:種類繁多:真核生物啟動子序列庫 EPD ;功能模體(motif)數(shù)據(jù)庫 PROSITE,數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理和注釋。,一級數(shù)據(jù)庫,,序列數(shù)據(jù)庫,,主要核酸序列數(shù)據(jù)庫: GenBank、EMBL、 DDBJ主要蛋白質(zhì)序列

34、數(shù)據(jù)庫:Swissprot, PIR,公共序列數(shù)據(jù)庫(Public Sequence Database),1988 年3個數(shù)據(jù)庫達(dá)成協(xié)議,組成合作聯(lián)合體。它們每天交換信息,并對數(shù)據(jù)庫 DNA 序列記錄的統(tǒng)一標(biāo)準(zhǔn)達(dá)成一致。 每個機(jī)構(gòu)負(fù)責(zé)收集來自不同地理分布的數(shù)據(jù) (EMBL 負(fù)責(zé)歐洲, GenBank 負(fù)責(zé)美洲, DDBJ負(fù)責(zé)亞洲等) ,將所有信息匯總在一起,共同享有并向世界開放,故這 3 個數(shù)據(jù)庫又被稱為公共序列數(shù)據(jù)庫,,Ge

35、nBank,DDBJ,EMBL,,,,內(nèi)容提綱(Part 2),生物信息數(shù)據(jù)存儲格式生物信息的檢索和提交,,生物信息的存貯格式,GTAAGACTAAGATATCATGATGGATCCTGTGTCTGTTGTACATAGCTTTGCTAGGAGTCAGGGCCTGCCACTTAACTTCAAAACTGTGGGTTGTGAGGGTCCAAGTCACGACCCACGATTCGTAATTGAATGTAAACTTCTTGATMVHLPEE

36、KDAVTALWGKVNVGGEALGRLLVVYPWTQRFFESFGDLSTDAVMGNPKVKAHGKKVLGAFSD,RAW序列格式,實驗所得的原始序列數(shù)據(jù)序列可以是一行也可以是多行,行的長度沒有限制序列中可以包含ATCGUY(TC)R(GA),以及與之對應(yīng)的小寫形式其他的字符不可以出現(xiàn)交流性差,,FASTA格式,又稱Pearson 格式特點:最常用、最簡單的序列注釋格式 命名規(guī)則: 1、以大于號“>&

37、quot;起始 2、 標(biāo)題行( a single-line description) 位于文件的第一行,(中英) 3、 序列行隨后,序列行中不允許有空間,每行文字不超 過80個字符 4、組成序列信息字符串的符號應(yīng)為IUB/IUPAC (International Union Of Pure And Applied Chemistry)核苷酸或氨基酸的符號 5、核苷酸字符大小寫均可,氨基酸

38、字符應(yīng)大寫 6、"-"單個連字符表示一個空位 “gap” 7、序列中不允許有數(shù)字、不明確的核苷酸用N表示,氨基酸用X表示 8、 氨基酸序列中“*”表示終止 9、常保存為.TXT文檔,,IUB-IUPAC堿基代碼表,IUB-IUPAC氨基酸代碼表,FASTA文件格式示例,,FASTA格式示例,錯誤,,FASTA格式示例,,正確,新的問題的提出 簡單的命名如何區(qū)分眾多的序列?,F

39、ASTA格式示例,,標(biāo)題行相關(guān)部分用 “|”分隔; 命名的順序:gi號| Accesion number|相對應(yīng)的英文名稱,“[ ]” 相應(yīng)物種的拉丁文名稱,gi : GenoInfo Identifier 的簡寫,指的序列標(biāo)識號。 序列的任何改變都會被分配一個新的GI號。 一條核苷酸序列翻譯成蛋白質(zhì)序列, 也會分配一個新的GI號,,RefSeq的數(shù)據(jù)特點,,GenBank中一個基因的索引號可能

40、有上百個,但對應(yīng)一個基因的RefSeq只有一個,GBFF,GBFF (GenBank Flat File)文本文件GBFF是GenBank數(shù)據(jù)庫的基本信息單位最為廣泛使用的生物信息學(xué)序列格式之一三大數(shù)據(jù)庫交換數(shù)據(jù)是采用的格式,,GBFF的格式,第一部分:描述符 包含了關(guān)于整個記錄的信息 第二部分:特征表

41、 包含了注釋這一記錄的特性第三部分:核酸序列本身 在最后一行以“// ”結(jié)尾。,,LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds; an

42、d Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS . SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces

43、cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibb

44、s,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 150

45、3-1509 (1994) PUBMED 7871890 ......FEATURES Location/Qualifiers CDS <1..206 /codon_start=3 /product="TCP1-beta"

46、 /protein_id="AAA98665.1" /db_xref="GI:1293614" /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRAR

47、PRTANRQHM" gene 687..3158 /gene="AXL2" ...... ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagtt

48、aggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct ...... 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc //,LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 DEFINITIO

49、N Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS . SOURCE Saccharomyces

50、 cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFE

51、RENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis

52、in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) PUBMED 7871890 ......FEATURES Location/Qualifiers CDS <1..206 /codon_start=3

53、 /product="TCP1-beta" /protein_id="AAA98665.1" /db_xref="GI:1293614" /translation="SSIYNGISTSGLDLNNGTIADM

54、RQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM" gene 687..3158 /gene="AXL2" ...... ORIGIN 1 gatcctccat atacaacggt atctccacct ca

55、ggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct ...... 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc //,,描述符(包含整個記錄的信息),,特征表(注釋這一紀(jì)錄的信

56、息),,序列信息,所有序列數(shù)據(jù)庫的最后一行均以 // 結(jié)尾,LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (RE

57、V7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS . SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi;

58、 Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TI

59、TLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) PUBMED 7871890 .....

60、.FEATURES Location/Qualifiers CDS <1..206 /codon_start=3 /product="TCP1-beta" /protein_id="AAA98665.1&quo

61、t; /db_xref="GI:1293614" /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM" gene 687

62、..3158 /gene="AXL2" ...... ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gta

63、gtcagct ...... 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc //,定義行,CDS 指的是編碼區(qū)序列(Coding sequence)。 序列功能區(qū)域的表示方法: 1. 確定的功能區(qū),直接寫作n........m 2. 表示partial on t

64、he 3'end 4.complement 互補序列。表示CDS位于互補鏈,EMBL Format,EMBL數(shù)據(jù)庫序列詳細(xì)注釋的格式與GBFF類似僅字符的標(biāo)識符是兩個字的簡寫,,EMBL格式,EMBL:酵母菌TCB1-β,蛋白序列數(shù)據(jù)庫的存儲格式,SWISS-PROT的存儲格式和EMBL的存儲格式相似PIR的存儲格式與GenBank d的存儲格式詳細(xì),,重點掌握GBFF格式,練習(xí) GBFF注釋A

65、ccession number:GQ331973.1,生物信息的檢索,信息檢索(informal retrieval): 是將無序的數(shù)據(jù)有序化,形成信息集合,并根據(jù)需要從信息集合中提取特定信息的過程。 實質(zhì):將用戶的檢索標(biāo)識和信息集中存儲的信息標(biāo)識進(jìn)行比較和選擇(或稱匹配),,,GenBank 和EMBL格式等數(shù)據(jù)存儲格式 兩大部分組成: 序列數(shù)據(jù)和對序列數(shù)據(jù)的注釋,數(shù)據(jù)庫查詢與數(shù)據(jù)庫搜索,數(shù)據(jù)庫查詢(d

66、atabase query) 是指對序列、結(jié)構(gòu)以及各種二次數(shù)據(jù)庫中的注釋信息進(jìn)行關(guān)鍵詞匹配查找。 數(shù)據(jù)庫搜索(database search) 分子生物信息學(xué)中有特定含義,它是指通過特定的序列相似性比對算法,找出核酸或蛋白質(zhì)序列數(shù)據(jù)庫中與檢測序列具有一定程度相似性的序列。,,生物信息檢索系統(tǒng),Entrez(http://www.ncbi.nlm.nih.gov/sites/gquery) SR

67、S (Sequence Retrieval System),,生物信息檢索系統(tǒng)—Entrez(*),Entrez (http://www.ncbi.nlm.nih.gov/sites/gquery) NCBI著名的用于提取序列信息的工具,它將科學(xué)文獻(xiàn)、DNA和蛋白質(zhì)序列數(shù)據(jù)庫、蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)、種群研究數(shù)據(jù)以及全基因組組裝數(shù)據(jù)整合成一個高度集成的系統(tǒng)。,,生物信息檢索系統(tǒng)—SRS,SRS SRS是Sequence Re

68、trieval System的縮寫,由EMBL(歐洲分子生物學(xué)實驗室)開發(fā)的以萬維網(wǎng)界面運行的生物數(shù)據(jù)庫檢索系統(tǒng)。最初是為核酸序列數(shù)據(jù)庫EMBL和蛋白質(zhì)序列數(shù)據(jù)庫SwissProt的查詢開發(fā)的系統(tǒng)。隨著分子生物信息數(shù)據(jù)庫的應(yīng)用和開發(fā)需求不斷增長,SRS已經(jīng)成為歐洲生物信息網(wǎng)主要的 數(shù)據(jù)檢索工具,,Entrez,集成NCBI的各種數(shù)據(jù)庫: 生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫 (PubMed,Books,Journals date

69、base and PMC) 核酸序列數(shù)據(jù)庫 (GenBank/ EMBL/ DDBJ,Genome Datebase,Unigene,STS)  蛋白質(zhì)序列數(shù)據(jù)庫 (Swiss-Prot, PIR) 三維結(jié)構(gòu)數(shù)據(jù)庫 (Conserved Domains, 3D Domains) 基因組和染色體圖譜資料 (Genomes,Gene,Cancer Chromo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論