版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第 5 屆超大數(shù)據(jù)庫會(huì)議(XLDB2011)大會(huì)報(bào)告(中文版) 廈門大學(xué)計(jì)算機(jī)科學(xué)系教師林子雨翻譯 http://www.cs.xmu.edu.cn/linziyu 第 1 頁/共 9 頁 第 5 屆超大數(shù)據(jù)庫會(huì)議 ( 屆超大數(shù)據(jù)庫會(huì)議 (XLDB2011)大會(huì)報(bào)告(中文版) 大會(huì)報(bào)告(中文版) REPORT FROM THE 5th WORKSHOP ON EXTREMELY LARGE DATABASES Jacek Becla1
2、*, Daniel Liwei Wang2, Kian-Tat Lim3 SLAC National Accelerator Laboratory, Menlo Park, CA 94025, USA *1 Email: becla@slac.stanford.edu 2 Email: danielw@slac.stanford.edu 3 Email: ktl@slac.stanford.edu 溫馨提示: 本文由廈門大學(xué)計(jì)算機(jī)系
3、林子雨老師翻譯自 XLDB 會(huì)議網(wǎng)站的英文報(bào)告, 轉(zhuǎn)載請注明出處,僅用于學(xué)習(xí)交流,請勿用于商業(yè)用途。 [本文翻譯的原始出處:廈門大學(xué)計(jì)算機(jī)系數(shù)據(jù)庫實(shí)驗(yàn)室網(wǎng)站林子雨老師的超大數(shù)據(jù)庫技術(shù)資料專區(qū) http://dblab.xmu.edu.cn/XLDB] 翻譯者林子雨個(gè)人主頁:http://www.cs.xmu.edu.cn/linziyu 1 大會(huì)總結(jié) 大會(huì)總結(jié) 第 5 屆 XLDB 大會(huì)(XLDB2011) ,主要關(guān)注醫(yī)療和基因?qū)W領(lǐng)域
4、所面臨的挑戰(zhàn),基于電子表格的大規(guī)模分析,以及大規(guī)模應(yīng)用統(tǒng)計(jì)信息和機(jī)器學(xué)習(xí)所面臨的挑戰(zhàn)。 XLDB2011 明確了在醫(yī)療和基因?qū)W領(lǐng)域的相關(guān)問題。 一些問題是比較普遍的, 比如一些軟件、數(shù)據(jù)格式和使用模型,在概念上都是相同的,可是無法兼容。使用習(xí)慣并沒有明顯的趨同性, 因?yàn)橛脩敉ǔ>芙^接受變化。 在這個(gè)數(shù)據(jù)極大豐富的世界,一些分析者還是采用處理數(shù)據(jù)稀少情形所采用的思維,雖然, 已經(jīng)有部分人開始意識(shí)到這個(gè)問題。 新機(jī)器和新技術(shù)(DNA 序列和
5、醫(yī)療圖像)所產(chǎn)生的數(shù)據(jù),正在迅速增長,這讓分析人員猝不及防,但是,同時(shí),這也讓我們發(fā)現(xiàn)了具備高可擴(kuò)展能力的工具的缺失,并讓我們意識(shí)到需要更加強(qiáng)大、擴(kuò)展性更好的數(shù)據(jù)管理。 在 XLDB 會(huì)議中,電子表格被放在大數(shù)據(jù)的背景下進(jìn)行討論,這也正好延續(xù)了上一屆會(huì)議的討論興趣。就單個(gè)電子表格而言,通常都很小,但是,它非常普及,數(shù)量非常龐大,無處不在,這就讓它成為了一個(gè)需要關(guān)注的大問題。電子表格具有很直觀的接口,因此,它很難被其他產(chǎn)品所取代, 即使它
6、存在著數(shù)據(jù)質(zhì)量的問題。電子表格更像是原始數(shù)據(jù), 沒有質(zhì)量保證機(jī)制,比如模式、數(shù)據(jù)類型、一致性和真實(shí)性,因此,很難對電子表格進(jìn)行檢索和維護(hù)。沒有嚴(yán)格約束,增加了電子表格的易用性,也減少了在記錄新概念時(shí)的沖突。因此,處理電子表格問題的解決方案, 主要關(guān)注把電子表格訪問接口提供給其他技術(shù), 這些技術(shù)對大規(guī)模數(shù)據(jù)集具有很好的適應(yīng)性和可擴(kuò)展能力,比如 Hadoop 和并行 RDBMS。 基于大規(guī)模數(shù)據(jù)的統(tǒng)計(jì), 仍然是一個(gè)有待解決的問題, 雖然現(xiàn)在
7、已經(jīng)有一些方案。統(tǒng)計(jì)軟件包本身不具備可擴(kuò)展性, 可是, 可以在構(gòu)建可擴(kuò)展的代碼之前用來對算法進(jìn)行原型實(shí)驗(yàn)。一些與會(huì)者注意到, 設(shè)計(jì)一個(gè)可以綜合考量可用性和可擴(kuò)展性的軟件, 并不可行;而其他與會(huì)者則認(rèn)為很多擴(kuò)展性問題都是可以解決的。 由于計(jì)算代價(jià)過高, 一些普通算法很難實(shí)現(xiàn)擴(kuò)展,因此,就需要新的更加聰明的算法,或者是一些近似算法。統(tǒng)計(jì)分析人員和技術(shù)人員之間缺少溝通, 也是一個(gè)大問題,有時(shí)候就會(huì)出現(xiàn)一些問題, 比如某個(gè)問題可能已經(jīng)存在解決第
8、 5 屆超大數(shù)據(jù)庫會(huì)議(XLDB2011)大會(huì)報(bào)告(中文版) 廈門大學(xué)計(jì)算機(jī)科學(xué)系教師林子雨翻譯 http://www.cs.xmu.edu.cn/linziyu 第 3 頁/共 9 頁 XLDB2011 大會(huì)引入了兩個(gè)新領(lǐng)域的用戶群體參加會(huì)議,即醫(yī)療和基因?qū)W。其中,兩名代表來自國家衛(wèi)生研究院,一名代表來自 GNS 醫(yī)療機(jī)構(gòu)。與會(huì)者討論了這些領(lǐng)域的數(shù)據(jù)管理和分析,包括當(dāng)前的實(shí)踐、最嚴(yán)峻的問題、尋找解決方案所面臨的障礙,以及他們和比其更大
9、的 XLDB 群體如何能夠取得進(jìn)展。 數(shù)據(jù)的分片和小規(guī)模的方法 數(shù)據(jù)的分片和小規(guī)模的方法 基因?qū)W和醫(yī)療群體是非常分散的, 對于如何生成和管理數(shù)據(jù), 許多小團(tuán)體之間都沒有達(dá)成共識(shí)。這從實(shí)用主義的觀點(diǎn)出發(fā),兩個(gè)群體都認(rèn)為計(jì)算是必須的開銷。但是,他們對于標(biāo)準(zhǔn)化和統(tǒng)一化沒有什么積極性。他們的數(shù)據(jù)生成設(shè)備和數(shù)據(jù)分析方法,各不相同。在語言、定義和方法上很少具有共同的地方,這使得合作變得很困難。例如, 排序機(jī)器都具有不同的解決方案、文件格式和接口,有
10、時(shí)候,即使是同一個(gè) 機(jī)器的不同版本,這些內(nèi)容都不相同。由此生成的混亂的數(shù)據(jù),很難用于其它作業(yè),由此也導(dǎo)致了群體之間的隔閡。所幸的是,人們已經(jīng)開始認(rèn)識(shí)到數(shù)據(jù)碎片問題的嚴(yán)重性。 一種解決方案是,盡量減少自己開發(fā), 而直接采用供應(yīng)商的現(xiàn)成軟件, 這可能會(huì)增加可互操作性?;?qū)W群體很愿意采用價(jià)格不高的商業(yè)軟件和開源軟件。但是,現(xiàn)實(shí)情況是,商業(yè)軟件價(jià)格不菲,開源軟件根本找不到,還需要時(shí)間使其走向成熟。因此,這些群體還是繼續(xù)自己開發(fā)相應(yīng)的解決方案。
11、 之所以采用自己開發(fā)應(yīng)用,還有一個(gè)很重要的原因就是,有些需求事先無法準(zhǔn)確知道,當(dāng)這些需求被完全確定的時(shí)候,呈現(xiàn)在你面前的就是一個(gè)定制的、半生不熟的解決方案。 醫(yī)療行業(yè)會(huì)頻繁購買商業(yè)軟件,比如分析軟件, 這導(dǎo)致了極大的開銷, 而且還會(huì)存在一些浪費(fèi)。一些公司同時(shí)扮演著用戶和供應(yīng)商的角色,比如 GNS 醫(yī)療機(jī)構(gòu),就專注于構(gòu)建和銷售定義化的解決方案。業(yè)界用戶非常重視對開源的商業(yè)支持。 編程語言方面也存在少量“分裂”的問題。這兩個(gè)群體都使用 Ja
12、va、R 和不同的腳本語言。SQL 雖然不是很普及,卻也是一種可以被接受的語言。R 是一個(gè)統(tǒng)計(jì)包,在基因?qū)W領(lǐng)域很普及, 被用到很多項(xiàng)目中, 比如 Bioconductor 就是一個(gè)對高吞吐量的基因數(shù)據(jù)進(jìn)行分析和理解的框架。R 已經(jīng)被廣泛接受,并得到了認(rèn)可,但是,大家都知道它的可擴(kuò)展性很差。這個(gè)群體已經(jīng)習(xí)慣于在 R 的各種限制下進(jìn)行工作,也知道需要具有更高可擴(kuò)展性的工具,不過,就是不知道有什么更好的解決方案。 技術(shù)進(jìn)步帶來的問題 技術(shù)進(jìn)步
13、帶來的問題 在未來的 1 到 1.5 年時(shí)間里,基因?qū)W群體需要解決迫切的、令人絕望的數(shù)據(jù)爆炸問題。數(shù)據(jù)爆炸本身是由技術(shù)進(jìn)步帶來的。 更好的解決方案和更高的設(shè)備性能 (這些設(shè)備現(xiàn)在要比以前便宜幾個(gè)數(shù)量級(jí)) ,使得數(shù)據(jù)的增長速度超出了摩爾定律。在本次大會(huì)召開的時(shí)候,美國國家衛(wèi)生研究院,每年可以產(chǎn)生 1PB 的數(shù)據(jù)。 主要的問題還在于文化和人, 而不是技術(shù)。 生物學(xué)群體很慢才接受把計(jì)算作為研究的一個(gè)重要部分。生物學(xué)家還不習(xí)慣于把計(jì)算和分析開銷
14、也列入預(yù)算。在以前,基因組測序(sequencing)是很昂貴的,它的數(shù)據(jù)很稀少,這意味著存儲(chǔ)和分析數(shù)據(jù)的開銷幾乎可以忽略不計(jì)。 但是, 現(xiàn)在的條件發(fā)生了極大的變化, 美國國家人類基因租研究院報(bào)告顯示, 在 2007年對一個(gè)人類基因租進(jìn)行測序需要耗費(fèi) 10M 美元,但是,到了 2011 年,就只需要花費(fèi) 10K美元。對于許多生物學(xué)家而言,硬件基礎(chǔ)設(shè)施并沒有及時(shí)更新?lián)Q代,半數(shù)以上的人還要被迫使用無法滿足需求的、擴(kuò)展性差的、固定的硬件設(shè)施。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 第5屆超大數(shù)據(jù)庫會(huì)議(xldb2011)大會(huì)報(bào)告(中文版)
- 外文翻譯--數(shù)據(jù)庫營銷 中文版
- 中文數(shù)據(jù)庫檢索實(shí)習(xí)報(bào)告
- 中文數(shù)據(jù)庫
- 第5章 數(shù)據(jù)庫操作
- chapter5-廈門大學(xué)-林子雨-大數(shù)據(jù)技術(shù)原理與應(yīng)用(第2版教材)-第5章-nosql數(shù)據(jù)庫(2
- 中文醫(yī)學(xué)數(shù)據(jù)庫檢索
- 常用中文數(shù)據(jù)庫檢索
- 維普中文數(shù)據(jù)庫
- ipc-2223 2011版中文版
- 3 數(shù)據(jù)庫第2章第5題解答
- 數(shù)據(jù)庫原理與應(yīng)用第2版
- 華東交大數(shù)據(jù)庫大題題庫
- 外文數(shù)據(jù)庫實(shí)習(xí)-材料2011
- 第5章數(shù)據(jù)庫的創(chuàng)建和管理
- 常用中文數(shù)據(jù)庫檢索cnki
- 電大數(shù)據(jù)庫基礎(chǔ)與應(yīng)用期末試題匯總5套
- 數(shù)據(jù)庫第12章 數(shù)據(jù)庫技術(shù)新進(jìn)展
- 第3章創(chuàng)建數(shù)據(jù)庫和數(shù)據(jù)庫文件
- 高級(jí)數(shù)據(jù)庫技術(shù)-第7章_移動(dòng)數(shù)據(jù)庫
評(píng)論
0/150
提交評(píng)論