版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于OAI和METS遠(yuǎn)程收集數(shù)據(jù)的方法和流程 趙陽(yáng)zhaoyang@lib.tsinghua.edu.cn清華大學(xué)圖書館 學(xué)位論文項(xiàng)目組2007.09.27 南京,主要內(nèi)容:,“CALIS學(xué)位論文全文數(shù)據(jù)庫(kù)”服務(wù)體系架構(gòu)基于OAI和METS數(shù)據(jù)收割模式基于OAI和METS數(shù)據(jù)收割實(shí)施步驟,NOW,“CALIS 學(xué)位論文數(shù)據(jù)庫(kù)”服務(wù)體系架構(gòu),,,參建館本地系統(tǒng),,CALIS數(shù)字圖書館門戶,計(jì)費(fèi)中心,認(rèn)證中心,資源
2、調(diào)度中心,CALIS-OID解析中心,紙本掃描加工,,,,,,,CALIS中心,學(xué)位論文提交與發(fā)布系統(tǒng),DRM閱讀器,讀者,DRM數(shù)字版權(quán)保護(hù),瀏覽器,,,CALIS高校學(xué)位論文數(shù)據(jù)庫(kù)分中心,,CALIS 學(xué)位論文參建館本地系統(tǒng)涉及到三個(gè)層面:,本館層面滿足提交、審核、編目、標(biāo)準(zhǔn)化、回溯、發(fā)布、檢索、管理、存儲(chǔ)等需求符合相關(guān)標(biāo)準(zhǔn)、規(guī)范開放架構(gòu)CALIS子項(xiàng)目(分中心)層面納入“CALIS高校學(xué)位論文數(shù)據(jù)
3、庫(kù)”服務(wù)體系CALIS中心層面納入“CALIS高等教育數(shù)字圖書館”服務(wù)體系,,學(xué)位論文參建館本地系統(tǒng)結(jié)構(gòu)圖,,,,,,論文元數(shù)據(jù)庫(kù),論文(PDF)對(duì)象庫(kù),服務(wù)接口層,應(yīng)用層,存儲(chǔ)層,學(xué)位論文提交與發(fā)布系統(tǒng),安全通信層,,,,DRM版權(quán)保護(hù)系統(tǒng)(PDF),紙本掃描加工系統(tǒng),,,,,MQ服務(wù)器,METS接口模塊,OAI-DP服務(wù)器,認(rèn)證接口,計(jì)費(fèi)接口,CLRC OpenURL接口,,學(xué)位論文參建館本地系統(tǒng)結(jié)構(gòu)圖,
4、1,2,3,4,5,6,7,8,讀者瀏覽器,DRM閱讀器,,,,,,,Web審核,Web提交,,參建館本地系統(tǒng)與CALIS子項(xiàng)目中心的互操作關(guān)系,,,服務(wù)接口層,安全通信層,,,MQ服務(wù)器,METS接口模塊,OAI收割服務(wù)器,,中心論文元數(shù)據(jù)倉(cāng)庫(kù),論文(前16頁(yè))對(duì)象倉(cāng)庫(kù),倉(cāng)儲(chǔ)層,,,,,,,服務(wù)接口層,應(yīng)用層,存儲(chǔ)層,學(xué)位論文提交與發(fā)布系統(tǒng),安全通信層,,,,DRM數(shù)字版權(quán)保護(hù)系統(tǒng),,,,MQ服務(wù)器,M
5、ETS接口模塊,OAI-DP服務(wù)器,認(rèn)證接口,計(jì)費(fèi)接口,CLRC OpenURL接口,,,,1,2,3,4,5,6,7,8,參建館,CALIS學(xué)位論文分中心,,,,,,,,學(xué)位論文提交與發(fā)布系統(tǒng)與CALIS中心的互操作關(guān)系,,CALIS中心,CALIS-OID解析中心,,,認(rèn)證中心,,,計(jì)費(fèi)中心,,,資源調(diào)度中心,,,,,CALIS數(shù)字圖書館服務(wù)門戶,,,,,,,,服務(wù)接口層,應(yīng)用層,存儲(chǔ)層,學(xué)位論文提交與發(fā)
6、布系統(tǒng),安全通信層,,,,DRM數(shù)字版權(quán)保護(hù)系統(tǒng),,,,MQ服務(wù)器,METS接口模塊,OAI-DP服務(wù)器,認(rèn)證接口,計(jì)費(fèi)接口,CLRC OpenURL接口,,,,1,2,3,4,5,6,7,8,參建館,,,,,,,,本地系統(tǒng)升級(jí)的主要接口,OAI和METS數(shù)據(jù)收割接口,實(shí)現(xiàn)元數(shù)據(jù)和對(duì)象數(shù)據(jù)的收集;CALIS_OID解析接口,實(shí)現(xiàn)數(shù)字對(duì)象的解析和獲取;數(shù)字對(duì)象安全下載接口,實(shí)現(xiàn)數(shù)字對(duì)象的安全下載;CALIS OD
7、L接口,實(shí)現(xiàn)CADLIS各系統(tǒng)之間的統(tǒng)一檢索;CADLIS認(rèn)證/計(jì)費(fèi)接口,實(shí)現(xiàn)認(rèn)證計(jì)費(fèi)。,本地系統(tǒng)升級(jí)的主要接口,主要內(nèi)容:,“CALIS學(xué)位論文全文數(shù)據(jù)庫(kù)”服務(wù)體系架構(gòu)基于OAI和METS數(shù)據(jù)收割模式基于OAI和METS數(shù)據(jù)收割實(shí)施步驟,NOW,基于OAI和METS數(shù)據(jù)收割模式,模式一: OAI-DP / METS-DP+MQ聯(lián)動(dòng)模式二: 僅采用OAI-DP,模式一:OAI-DP / METS
8、-DP+MQ聯(lián)動(dòng) ---收割方式(1),實(shí)時(shí)自動(dòng)收割 元數(shù)據(jù)通過(guò)OAI-DP發(fā)布。OAI-DP所發(fā)布出來(lái)的OAI Record采用“CALIS OAI Record V1.0” 數(shù)據(jù)格式;本地系統(tǒng)的數(shù)字對(duì)象通過(guò)METS-DP+MQ發(fā)布。METS-DP負(fù)責(zé)將數(shù)字對(duì)象封裝成METS數(shù)據(jù)包,然后通過(guò)MQ服務(wù)器發(fā)布出去,數(shù)據(jù)格式記為“CALIS METS Record V1.0” ;
9、元數(shù)據(jù)和數(shù)字對(duì)象之間的關(guān)系通過(guò)OAI Record中的CALIS_OBJ:objInfo 子元素所包含的MetaID進(jìn)行關(guān)聯(lián);學(xué)位論文中心系統(tǒng)接收到 OAI-DP或METS-DP+MQ請(qǐng)求,自動(dòng)收割參建館本地系統(tǒng)中的數(shù)據(jù);,模式一:OAI-DP / METS-DP+MQ聯(lián)動(dòng) ---收割方式(2),手動(dòng)收割 用OAI數(shù)據(jù)導(dǎo)出工具將OAI-DP中的元數(shù)據(jù)導(dǎo)出成為包含OAI Recor
10、d數(shù)據(jù)的XML文件,該文件稱為OAI記錄文件,數(shù)據(jù)格式為“CALIS OAI Record V1.0” ;用METS數(shù)據(jù)導(dǎo)出工具將METS-DP中的數(shù)字對(duì)象數(shù)據(jù)導(dǎo)出成為包含METS Record數(shù)據(jù)的XML文件,該文件稱為METS記錄文件,數(shù)據(jù)格式記為“CALIS METS Record V1.0” ; 本地系統(tǒng)管理員手工將上述兩類文件通過(guò)FTP上傳至CALIS學(xué)位論文中心,由其完成數(shù)據(jù)匯總、統(tǒng)計(jì)工作;,模式一:OAI-DP / M
11、ETS-DP+MQ聯(lián)動(dòng) ---數(shù)據(jù)格式(元數(shù)據(jù)),,CALIS RECORD V1.0,,用于維護(hù)元數(shù)據(jù)與METS一致的四項(xiàng)信息,模式一:OAI-DP / METS-DP+MQ聯(lián)動(dòng) ---數(shù)據(jù)格式(對(duì)象數(shù)據(jù)),,模式一:OAI-DP / METS-DP+MQ聯(lián)動(dòng) ---實(shí)際收割測(cè)試,2006.03月--
12、-2006.07月學(xué)位論文和特色庫(kù)項(xiàng)目驗(yàn)收前,采用模式一方式收割學(xué)位論文本地系統(tǒng)在部分參建館完成升級(jí)、數(shù)據(jù)遷移和發(fā)布工作;在廠商和參建館配合下,CALIS技術(shù)中心和學(xué)位論文子項(xiàng)目組共同進(jìn)行數(shù)據(jù)收割;參加測(cè)試的學(xué)校:TPI:中國(guó)人民大學(xué),中國(guó)農(nóng)業(yè)大學(xué)TRS:清華大學(xué)北大方正:北京大學(xué)杭州麥達(dá):北京大學(xué)醫(yī)學(xué)院,模式一:OAI-DP / METS-DP+MQ聯(lián)動(dòng) ---實(shí)際收割測(cè)
13、試,收割結(jié)果實(shí)時(shí)自動(dòng)收割:本地系統(tǒng)和數(shù)據(jù)都存在問(wèn)題中心系統(tǒng)對(duì)本地系統(tǒng)的自動(dòng)收割難以有效進(jìn)行手工收割:本地系統(tǒng)能順利提交數(shù)據(jù)但所上傳的數(shù)據(jù)仍存在問(wèn)題本地系統(tǒng)存在的主要問(wèn)題系統(tǒng)bugs數(shù)據(jù)問(wèn)題,模式一:OAI-DP / METS-DP+MQ聯(lián)動(dòng) ---實(shí)際收割測(cè)試(系統(tǒng)bugs),OAI-DP本身的bugs比較容易發(fā)現(xiàn)。但本地管理員仍缺乏有效易用的工具;METS-DP本身的bug問(wèn)題以及M
14、Q配置問(wèn)題難以由本地管理員自行發(fā)現(xiàn);OAI-DP+METS-DP+MQ聯(lián)動(dòng)問(wèn)題廠商技術(shù)人員和本地管理員都難以測(cè)試和發(fā)現(xiàn);其他問(wèn)題著錄和導(dǎo)入工具不完備;本地DP所在機(jī)器軟硬件系統(tǒng)的不穩(wěn)定;DP本身的穩(wěn)定性和可靠性問(wèn)題 ;METS包傳輸丟包問(wèn)題;,模式一:OAI-DP / METS-DP+MQ聯(lián)動(dòng) ---實(shí)際收割測(cè)試(數(shù)據(jù)問(wèn)題),數(shù)據(jù)不符合schema導(dǎo)出的OAI和METS包文件,其數(shù)據(jù)不符合s
15、chema數(shù)據(jù)必備性問(wèn)題很多數(shù)據(jù)項(xiàng)缺乏,不符合子項(xiàng)目組的數(shù)據(jù)規(guī)范性要求CALIS元數(shù)據(jù)schema本身不支持必備性機(jī)制,而廠商本地系統(tǒng)也未能提供相應(yīng)的必備性檢測(cè)功能數(shù)據(jù)內(nèi)容不一致問(wèn)題(尤其是OAI記錄和METS記錄之間的不一致)OAI記錄中的about內(nèi)容不合邏輯如:有時(shí)間戳或類型而沒有calis-oid;有calis-oid而沒有時(shí)間戳。 元數(shù)據(jù)時(shí)間戳應(yīng)該不小于數(shù)字對(duì)象時(shí)間戳;更新數(shù)字對(duì)象時(shí)應(yīng)同時(shí)更新元數(shù)據(jù)時(shí)間戳,才能保
16、證聯(lián)動(dòng)收割時(shí)對(duì)這條記錄重收。METS包中的時(shí)間戳應(yīng)與OAI-about中的時(shí)間戳一致等。數(shù)據(jù)的語(yǔ)義問(wèn)題張冠李戴,模式一:OAI-DP / METS-DP+MQ聯(lián)動(dòng) ---實(shí)際收割測(cè)試(問(wèn)題原因),本地系統(tǒng)的著錄工具問(wèn)題單條入庫(kù)的元數(shù)據(jù)和數(shù)字對(duì)象在必備性、一致性等方面存在問(wèn)題。本地系統(tǒng)的批量導(dǎo)入工具問(wèn)題批量入庫(kù)的元數(shù)據(jù)和數(shù)字對(duì)象在必備性、一致性等方面存在問(wèn)題;批量導(dǎo)入的數(shù)據(jù)的時(shí)間戳都為同一個(gè)時(shí)間點(diǎn),這給OAI
17、-DP帶來(lái)很大壓力。統(tǒng)計(jì)結(jié)果的一致性問(wèn)題本地OAI-DP、METS-DP實(shí)際發(fā)布的記錄數(shù)與本地系統(tǒng)的數(shù)據(jù)庫(kù)查詢模塊提供的記錄數(shù)不一致,給管理員造成困惑?!蓛?nèi)部檢索機(jī)制不一致因素所造成。 本地系統(tǒng)缺乏有效的“數(shù)據(jù)質(zhì)量檢測(cè)工具/模塊”在OAI-DP和METS-DP發(fā)布之前,系統(tǒng)本身對(duì)數(shù)據(jù)沒有進(jìn)行這種質(zhì)量檢測(cè)(包括必備性、一致性等)。管理員無(wú)法自行發(fā)現(xiàn)上面的“數(shù)據(jù)問(wèn)題”。,模式二:僅采用OAI-DP收割,為解決模式一收割中的系
18、統(tǒng)和數(shù)據(jù)問(wèn)題,CALIS管理中心于2006年10月招集廠商開會(huì),提出模式二;廠商依據(jù)規(guī)范要求,改進(jìn)和完善系統(tǒng);模式二: 收割方式實(shí)時(shí)自動(dòng)收割手動(dòng)收割,,模式二:僅采用OAI-DP收割 ---收割方式(1),實(shí)時(shí)自動(dòng)收割 元數(shù)據(jù)和數(shù)字對(duì)象僅通過(guò)OAI-DP發(fā)布。發(fā)布出來(lái)的OAI Record采用“CALIS OAI Re
19、cord V2.0” 數(shù)據(jù)格式;學(xué)位論文中心系統(tǒng)接收到 OAI-DP或METS-DP+MQ請(qǐng)求,自動(dòng)收割參建館本地系統(tǒng)中的數(shù)據(jù);,,手動(dòng)收割 用新的OAI數(shù)據(jù)導(dǎo)出工具將本地系統(tǒng)中的元數(shù)據(jù)和數(shù)字對(duì)象合并為一條OAI記錄導(dǎo)出為OAI記錄文件。該文件中的數(shù)據(jù)格式為“CALIS OAI Record V2.0” ; METS-DP中的數(shù)字對(duì)象數(shù)據(jù)無(wú)需再單獨(dú)導(dǎo)出; 本地系統(tǒng)管理員手工將上述兩類文件通過(guò)FTP上傳至CALIS學(xué)位論文中
20、心,由其完成數(shù)據(jù)匯總、統(tǒng)計(jì)工作;,模式二:僅采用OAI-DP收割 ---收割方式(2),模式二:僅采用OAI-DP收割 ---數(shù)據(jù)格式,,CALIS Record V1,CALIS Record V2,模式二:僅采用OAI-DP收割
21、 ---數(shù)據(jù)格式,,,CALIS Record V2,無(wú)Mets,模式二:僅采用OAI-DP收割 ---實(shí)際收割測(cè)試,2007.09月參加測(cè)試的學(xué)校:TPI:中國(guó)農(nóng)業(yè)大學(xué)TRS:清華大學(xué)北大方正:北京大學(xué)杭州麥達(dá):北京大學(xué)醫(yī)學(xué)院,比較: 模式一與模式二 ----在系統(tǒng)部署和維護(hù)方面,比較: 模式一與模式二
22、----優(yōu)缺點(diǎn)比較,,比較: 模式一與模式二 ----結(jié)論,“模式二”是對(duì)”模式一”的簡(jiǎn)化,相應(yīng)的系統(tǒng)改造、升級(jí)、部署、維護(hù)等。 工作量和難度都得大為減少, 模式二 的易用性和可管理性都大為提高;其中“模式二”的手動(dòng)收割,更為安全穩(wěn)定,CALIS特色庫(kù)的大批量數(shù)據(jù)收割均采用該方式;學(xué)位論文本地系統(tǒng)的收割模塊: TPI: 支持模式二的實(shí)時(shí)自動(dòng)收割、手動(dòng)收割; 北大方
23、正:支持模式二的實(shí)時(shí)自動(dòng)收割、手動(dòng)收割; 麥達(dá):支持模式二的實(shí)時(shí)自動(dòng)收割、手動(dòng)收割; TRS:支持模式二的手動(dòng)收割;,主要內(nèi)容:,“CALIS學(xué)位論文全文數(shù)據(jù)庫(kù)”服務(wù)體系架構(gòu)基于OAI和METS數(shù)據(jù)收割模式基于OAI和METS數(shù)據(jù)收割實(shí)施步驟,NOW,基于OAI和METS數(shù)據(jù)收割實(shí)施步驟 ---針對(duì)模式二(手動(dòng)收割),1)現(xiàn)有系統(tǒng)升級(jí)----公司介紹2)數(shù)據(jù)導(dǎo)出----公司介紹3) 數(shù)據(jù)質(zhì)量檢測(cè)4)通過(guò)FT
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 鐵路科技數(shù)據(jù)庫(kù)介紹-北京交通大學(xué)圖書館
- powerpointtemplate-北京交通大學(xué)圖書館
- calis規(guī)范 - 北京交通大學(xué)圖書館
- 國(guó)泰安csmar數(shù)據(jù)庫(kù)應(yīng)用-北京交通大學(xué)圖書館
- 項(xiàng)目名稱北京交通大學(xué)圖書館服務(wù)外包
- ex libris 解決方案與 - 北京交通大學(xué)圖書館
- 館藏發(fā)展的有關(guān)問(wèn)題與對(duì)策-北京交通大學(xué)圖書館
- 武漢大學(xué)與北京交通大學(xué)圖書館電子資源門戶系統(tǒng)比較
- 鐘建法—館藏復(fù)選原理、方法與操作-北京交通大學(xué)圖書館
- 如何在elsevier期刊上發(fā)表文章-北京交通大學(xué)圖書館
- 索書號(hào)-上海交通大學(xué)圖書館
- powerpointtemplate-西安交通大學(xué)圖書館
- emis使用演示-上海交通大學(xué)圖書館
- 報(bào)告編號(hào) - 西南交通大學(xué)圖書館
- 數(shù)字圖書館元數(shù)據(jù)登記系統(tǒng).pdf
- 文獻(xiàn)分類標(biāo)引規(guī)則-西安交通大學(xué)圖書館
- 數(shù)據(jù)庫(kù)檢索指南——ebsco數(shù)據(jù)庫(kù)-武漢大學(xué)圖書館
- 陜西省高校圖工委 - 西安交通大學(xué)圖書館
- 項(xiàng)目名稱-北京師范大學(xué)圖書館北京師范大學(xué)圖書館
- 一、下載科技查新委托單-上海交通大學(xué)圖書館
評(píng)論
0/150
提交評(píng)論