書(shū)目數(shù)據(jù)庫(kù)是存儲(chǔ)某個(gè)領(lǐng)域的二次文獻(xiàn)(如目錄、題錄,文摘等書(shū)目數(shù)據(jù))的一類數(shù)據(jù)庫(kù),有時(shí)又稱為二次文獻(xiàn)數(shù)據(jù)庫(kù),或簡(jiǎn)稱文獻(xiàn)數(shù)據(jù)庫(kù)。主要提供文獻(xiàn)的題名、作者、出處等基本書(shū)目信息,有的提供文獻(xiàn)。常見(jiàn)的書(shū)目型數(shù)據(jù)庫(kù)有:《生物文摘》,《全國(guó)報(bào)刊索引》,《中國(guó)學(xué)術(shù)期刊文摘》以及《科學(xué)文摘》等。
發(fā)展現(xiàn)狀
書(shū)目數(shù)據(jù)庫(kù)是最早出現(xiàn)的一類數(shù)據(jù)庫(kù)之一。自1964年第一個(gè)書(shū)目數(shù)據(jù)庫(kù)——MEDLARS開(kāi)發(fā)成功并投入檢索服務(wù)以來(lái),全球范圍內(nèi)已建立了大量的書(shū)目數(shù)據(jù)庫(kù)。在可提供聯(lián)機(jī)檢索的數(shù)據(jù)庫(kù)中,書(shū)目數(shù)據(jù)庫(kù)占據(jù)了主導(dǎo)地位,涵蓋了幾乎所有專業(yè)領(lǐng)域的文獻(xiàn)。書(shū)目數(shù)據(jù)庫(kù)的增長(zhǎng)迅速,影響力巨大,這一現(xiàn)象背后存在著特定的歷史背景。
情報(bào)政策背景
在當(dāng)今時(shí)代,信息被視為財(cái)富和實(shí)力的象征,掌握和處理信息的能力被認(rèn)為是國(guó)家科技發(fā)展水平、社會(huì)進(jìn)步程度和國(guó)際地位的標(biāo)志。各國(guó)政府尤其是發(fā)達(dá)國(guó)家都將信息視為國(guó)家戰(zhàn)略武器,控制信息成為國(guó)家的基本政策,也成為民間產(chǎn)業(yè)的關(guān)注焦點(diǎn)。這是書(shū)目數(shù)據(jù)庫(kù)發(fā)展的政策背景。
社會(huì)背景
在西方國(guó)家,通貨膨脹導(dǎo)致圖書(shū)館預(yù)算緊張,書(shū)籍價(jià)格上漲顯著,而科技圖書(shū)的出版數(shù)量持續(xù)增加。許多圖書(shū)館難以購(gòu)置所需的書(shū)籍,因此加強(qiáng)了館際互借、照相復(fù)制等工作,并致力于建立合作網(wǎng)絡(luò),實(shí)現(xiàn)資源共享。其中一個(gè)舉措是建立和利用機(jī)讀數(shù)據(jù)庫(kù)。例如,美國(guó)國(guó)會(huì)從1969年開(kāi)始發(fā)行機(jī)讀目錄(MARC)磁帶,俄亥俄州立大學(xué)圖書(shū)館中心(OCLC)在此基礎(chǔ)上進(jìn)行共享編目,建立反映了該網(wǎng)絡(luò)各成員館藏書(shū)的機(jī)讀數(shù)據(jù)庫(kù),并促成了洛克希德、系統(tǒng)發(fā)展公司及書(shū)目檢索服務(wù)公司等情報(bào)檢索服務(wù)商的發(fā)展,為機(jī)讀數(shù)據(jù)庫(kù)的大規(guī)模增長(zhǎng)奠定了基礎(chǔ)。
技術(shù)背景
書(shū)目數(shù)據(jù)庫(kù)與計(jì)算機(jī)化的照相排版技術(shù)結(jié)合,使得傳統(tǒng)的印刷型文摘索引的出版商也開(kāi)始生產(chǎn)與其對(duì)應(yīng)的手動(dòng)檢索工具,即書(shū)目數(shù)據(jù)庫(kù),并以磁帶形式發(fā)行。此外,計(jì)算機(jī)性能提升和價(jià)格降低,極大地推動(dòng)了書(shū)目數(shù)據(jù)庫(kù)的發(fā)展并提升了其利用率。
分類
書(shū)目數(shù)據(jù)庫(kù)按照存儲(chǔ)信息的性質(zhì)可分為文摘索引數(shù)據(jù)庫(kù)和圖書(shū)館目錄數(shù)據(jù)庫(kù)兩類。
文摘索引數(shù)據(jù)庫(kù)
文摘索引數(shù)據(jù)庫(kù)的內(nèi)容與書(shū)本式文摘索引相似,主要用于記錄某一時(shí)間段內(nèi)發(fā)表的文章,供人們檢索和查詢。它們提供了文獻(xiàn)的確切來(lái)源信息,即文摘對(duì)應(yīng)的原始文獻(xiàn),但通常不提供原始文獻(xiàn)的館藏信息。
圖書(shū)館目錄數(shù)據(jù)庫(kù)
圖書(shū)館目錄數(shù)據(jù)庫(kù),又稱機(jī)器可讀目錄(Machine Readable Catalogue,MARC),是以特定代碼形式和特定結(jié)構(gòu)預(yù)先錄制在計(jì)算機(jī)存儲(chǔ)媒介上的、能夠被計(jì)算機(jī)識(shí)別和處理的目錄。它是傳統(tǒng)卡片目錄內(nèi)容以標(biāo)準(zhǔn)數(shù)據(jù)形式記錄在計(jì)算機(jī)存儲(chǔ)媒介上并通過(guò)計(jì)算機(jī)識(shí)別的形式。它包含了特定圖書(shū)館實(shí)際收藏的各文獻(xiàn)資料的書(shū)目信息和存儲(chǔ)位置,是用戶通過(guò)計(jì)算機(jī)查找圖書(shū)館資料的工具,同時(shí)也是圖書(shū)館業(yè)務(wù)部門的業(yè)務(wù)管理工具。其數(shù)據(jù)內(nèi)容詳細(xì),除了文獻(xiàn)外部特征的描述信息外,還包括了許多管理信息、館藏信息等附加信息,并且擁有統(tǒng)一的記錄格式。
特點(diǎn)
書(shū)目數(shù)據(jù)庫(kù)與其他類型的書(shū)目產(chǎn)品和其他類型的數(shù)據(jù)庫(kù)相比,具有以下特點(diǎn):
1. 便于對(duì)書(shū)目數(shù)據(jù)的管理和維護(hù)。書(shū)目數(shù)據(jù)庫(kù)將文獻(xiàn)的各種特征信息用特定的代碼形式和結(jié)構(gòu)存儲(chǔ)在相關(guān)媒介上,并可通過(guò)計(jì)算機(jī)硬件識(shí)別,使其易于管理和維護(hù)。
2. 檢索快捷,具有較高的查全與查準(zhǔn)率。相較于手動(dòng)檢索,利用計(jì)算機(jī)從書(shū)目數(shù)據(jù)庫(kù)進(jìn)行檢索不僅能大幅節(jié)約時(shí)間,還能得益于書(shū)目數(shù)據(jù)庫(kù)在存儲(chǔ)密度、易于處理等方面的優(yōu)勢(shì),實(shí)現(xiàn)更高的標(biāo)引深度和更快的更新頻率,從而保障較高的查準(zhǔn)率與查全率,增強(qiáng)檢索者的信心。
3. 數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單,記錄格式固定,生產(chǎn)費(fèi)用低廉。書(shū)目數(shù)據(jù)庫(kù)結(jié)構(gòu)簡(jiǎn)單,記錄格式穩(wěn)定,生產(chǎn)成本相對(duì)較低,這也是其競(jìng)爭(zhēng)優(yōu)勢(shì)之一。
4. 便于產(chǎn)生其他類型的書(shū)目產(chǎn)品。書(shū)目數(shù)據(jù)庫(kù)可用于生產(chǎn)卡片或書(shū)本式目錄、縮微膠片目錄和光盤(pán)數(shù)據(jù)庫(kù)等多種形式的產(chǎn)品。此外,還可利用書(shū)目數(shù)據(jù)庫(kù)方便地形成各種輔助索引。
書(shū)目數(shù)據(jù)庫(kù)還具備數(shù)據(jù)量大、連續(xù)性、累積性強(qiáng)、交換便捷等特點(diǎn)。
應(yīng)用
書(shū)目數(shù)據(jù)庫(kù)的主要用途是進(jìn)行情報(bào)檢索服務(wù)。聯(lián)機(jī)檢索是最常見(jiàn)的一種檢索服務(wù),用戶可通過(guò)系統(tǒng)終端訪問(wèn)聯(lián)機(jī)書(shū)目數(shù)據(jù)庫(kù),獲取感興趣的信息。聯(lián)機(jī)檢索服務(wù)機(jī)構(gòu)可通過(guò)提供此類服務(wù)獲取收益,而數(shù)據(jù)庫(kù)生產(chǎn)者則通過(guò)收取數(shù)據(jù)使用費(fèi)收回投資。除聯(lián)機(jī)檢索外,書(shū)目數(shù)據(jù)庫(kù)還可用于批式檢索服務(wù),如定題服務(wù)(SDl)和回溯檢索服務(wù)。此外,書(shū)目數(shù)據(jù)庫(kù)還可用于生產(chǎn)其他形式的檢索工具,如書(shū)本式檢索工具或卡片式目錄、縮微膠片目錄和光盤(pán)數(shù)據(jù)庫(kù)。最后,通過(guò)對(duì)書(shū)目數(shù)據(jù)庫(kù)的半成品或成品進(jìn)行二次開(kāi)發(fā),可以獲得特定需求的多種專題數(shù)據(jù)庫(kù)或?qū)iT類型的數(shù)據(jù)庫(kù)。這類數(shù)據(jù)庫(kù)通常規(guī)模較小,被稱為微數(shù)據(jù)庫(kù)(microdatabase)。然而,微數(shù)據(jù)庫(kù)的建設(shè)主要涉及版權(quán)問(wèn)題,應(yīng)在建設(shè)中予以充分考慮。
形態(tài)
當(dāng)前發(fā)行的書(shū)目數(shù)據(jù)庫(kù)主要以三種形態(tài)存在:
1. 聯(lián)機(jī)系統(tǒng)的數(shù)據(jù)庫(kù)。這種數(shù)據(jù)庫(kù)被集成在聯(lián)機(jī)檢索系統(tǒng)中,允許聯(lián)機(jī)訪問(wèn)。其規(guī)模可能最大,有些包含數(shù)百萬(wàn)篇文獻(xiàn)記錄。
2. 光盤(pán)檢索系統(tǒng)中的數(shù)據(jù)庫(kù)。這種數(shù)據(jù)庫(kù)的載體是CD-ROM光盤(pán),因此發(fā)行具有相對(duì)獨(dú)立性。其規(guī)模屬于中等,因?yàn)槊繌埞獗P(pán)的容量約為500MB,包含的文獻(xiàn)記錄可達(dá)數(shù)十萬(wàn)篇。
3. 單獨(dú)發(fā)行或提供服務(wù)的專業(yè)或?qū)iT文獻(xiàn)類型的數(shù)據(jù)庫(kù)。這種數(shù)據(jù)庫(kù)的規(guī)模較小,適用于在個(gè)人電腦上運(yùn)行,通常配備相應(yīng)的檢索軟件,構(gòu)成獨(dú)立系統(tǒng)。
構(gòu)建過(guò)程
書(shū)目數(shù)據(jù)庫(kù)的構(gòu)建是一項(xiàng)復(fù)雜的過(guò)程,也是一個(gè)集知識(shí)、技術(shù)和勞動(dòng)力于一體的高度專業(yè)化產(chǎn)業(yè)。其過(guò)程主要包括數(shù)據(jù)庫(kù)的整體設(shè)計(jì)、數(shù)據(jù)的獲取與加工整理、數(shù)據(jù)庫(kù)的創(chuàng)建、數(shù)據(jù)庫(kù)的維護(hù)與更新以及數(shù)據(jù)庫(kù)的評(píng)價(jià)五個(gè)部分。
總體設(shè)計(jì)
邏輯設(shè)計(jì)
邏輯設(shè)計(jì)旨在確定所建立的書(shū)目數(shù)據(jù)庫(kù)的目標(biāo)用戶群體、內(nèi)容范圍和功能要求。首先確定目標(biāo)用戶群的特點(diǎn)和特殊需求,這些需求決定了數(shù)據(jù)庫(kù)的內(nèi)容范圍和功能。內(nèi)容范圍指的是數(shù)據(jù)庫(kù)應(yīng)涵蓋的領(lǐng)域和情報(bào)源,數(shù)據(jù)庫(kù)內(nèi)應(yīng)收錄的數(shù)據(jù)類型,記錄的數(shù)量等。功能要求包括書(shū)目數(shù)據(jù)庫(kù)的更新、驗(yàn)證、檢索、輸出、訪問(wèn)控制和數(shù)據(jù)保護(hù)等措施。
技術(shù)設(shè)計(jì)
技術(shù)設(shè)計(jì)旨在確定數(shù)據(jù)庫(kù)的總體結(jié)構(gòu),庫(kù)內(nèi)各種文檔的結(jié)構(gòu),文檔之間的關(guān)系,存取路徑的選擇和文檔的物理組織方式;桿式及存儲(chǔ)空間的分配等。數(shù)據(jù)庫(kù)總體結(jié)構(gòu)指的是庫(kù)內(nèi)包含的文檔數(shù)量、文檔類型、各文檔之間的邏輯關(guān)系,以及數(shù)據(jù)流程。文檔結(jié)構(gòu)設(shè)計(jì)指的是確定文檔的記錄內(nèi)容和格式,包括字段組成、字段定義、長(zhǎng)度、劃分可檢字段與不可檢字段、設(shè)立字段標(biāo)識(shí)等。一般地,一條書(shū)目記錄應(yīng)含有文獻(xiàn)號(hào)、題名、著者、出版、語(yǔ)種、文摘、主題詞、分類號(hào)等各種必要的字段,且一般包括文獻(xiàn)出處。不同的圖書(shū)情報(bào)機(jī)構(gòu)在書(shū)目加工時(shí)對(duì)原始數(shù)據(jù)的取舍有很大差異。為了統(tǒng)一,可參照新修訂的國(guó)家標(biāo)準(zhǔn)GB2901推薦的標(biāo)準(zhǔn)格式以及通用國(guó)際目錄信息交換標(biāo)準(zhǔn)ISO2709。文檔的物理組織方式設(shè)計(jì)指的是根據(jù)計(jì)算機(jī)數(shù)據(jù)處理方式、操作系統(tǒng)提供的文件組織方式、存取方式、服務(wù)程序以及對(duì)存取時(shí)間、處理時(shí)間的要求,確定各種文檔物理存儲(chǔ)方式,以加快數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)的存取速度。存取路徑的選擇指的是確定檢索途徑或檢索點(diǎn)以及相應(yīng)的工作文檔,根據(jù)檢索點(diǎn)來(lái)設(shè)定索引文檔,定義其中的記錄。一般說(shuō)來(lái),每一類檢索點(diǎn)都需要一種索引文檔來(lái)支持。
數(shù)據(jù)獲取與加工整理
數(shù)據(jù)獲取與加工整理,亦稱數(shù)據(jù)準(zhǔn)備階段,是書(shū)目數(shù)據(jù)庫(kù)建設(shè)的關(guān)鍵環(huán)節(jié)。其成功與否決定了書(shū)目數(shù)據(jù)庫(kù)的價(jià)值。數(shù)據(jù)準(zhǔn)備通常包括數(shù)據(jù)采集、鑒選、著錄、標(biāo)引、文摘加工和審核六個(gè)步驟。
數(shù)據(jù)采集
數(shù)據(jù)采集指的是根據(jù)設(shè)計(jì)方案規(guī)定的內(nèi)容范圍和數(shù)據(jù)類型,收集所需的數(shù)據(jù)。收集對(duì)象可根據(jù)需要確定,可能是普通書(shū)刊、特種文獻(xiàn)、內(nèi)部出版物、機(jī)讀磁帶、軟盤(pán)或光盤(pán)。采集手段包括訂購(gòu)、交換或利用行政手段收集下屬機(jī)構(gòu)的數(shù)據(jù),或利用現(xiàn)有傳統(tǒng)數(shù)據(jù)(如書(shū)本式文摘、題錄、目錄、指南等)。收集工作應(yīng)主要面向圖書(shū)館和收藏豐富的資料單位,力求快速、全面、準(zhǔn)確,確保數(shù)據(jù)來(lái)源的可靠、準(zhǔn)確和完整。
鑒選
鑒選是決定書(shū)目數(shù)據(jù)庫(kù)具體內(nèi)容范圍的基本方式之一。鑒別真?zhèn)巍^(qū)分優(yōu)劣是必要的,不能“有書(shū)必錄”。對(duì)于低水平或明顯有錯(cuò)誤的文獻(xiàn)應(yīng)該排除在外。在選擇時(shí),可以文獻(xiàn)類型為準(zhǔn)則,也可以學(xué)科為準(zhǔn)則,或以問(wèn)題或任務(wù)為準(zhǔn)則。以文獻(xiàn)類型為準(zhǔn)則,可以專收一種類型文獻(xiàn),如研究報(bào)告數(shù)據(jù)庫(kù)、專利文獻(xiàn)數(shù)據(jù)庫(kù)等,也可以收錄多種類型的文獻(xiàn);以學(xué)科為準(zhǔn),就是所謂“面向?qū)W科的數(shù)據(jù)庫(kù)”,如《化學(xué)文摘》數(shù)據(jù)庫(kù),《核物理文摘》數(shù)據(jù)庫(kù)等;以問(wèn)題為準(zhǔn)的數(shù)據(jù)庫(kù),如環(huán)境數(shù)據(jù)庫(kù),《污染文摘》數(shù)據(jù)庫(kù)等;以任務(wù)為準(zhǔn)的,有所謂面向任務(wù)的數(shù)據(jù)庫(kù),如《航空航天文摘》數(shù)據(jù)庫(kù)等。
著錄
著錄是對(duì)文獻(xiàn)內(nèi)容和形式特征進(jìn)行分析、選擇和記錄的過(guò)程。為了提高書(shū)目數(shù)據(jù)庫(kù)的質(zhì)量和資源共享的便利性,書(shū)目數(shù)據(jù)的著錄應(yīng)按統(tǒng)一的著錄原則和標(biāo)準(zhǔn)進(jìn)行,例如我國(guó)有國(guó)家標(biāo)準(zhǔn)GB3792.1—83《文獻(xiàn)著錄總則》,GB37921—83(檢索期刊條目著錄規(guī)則》等,只有遵循了統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行書(shū)目數(shù)據(jù)的著錄,才能保證書(shū)目數(shù)據(jù)庫(kù)中的全部記錄符合標(biāo)準(zhǔn)化和規(guī)范化的要求。
標(biāo)引
標(biāo)引是給數(shù)據(jù)庫(kù)中的各個(gè)記錄賦予內(nèi)容特征標(biāo)識(shí)的過(guò)程。主要是要給出分類號(hào)、主題詞和自由詞等。標(biāo)引可以是人工標(biāo)引,即標(biāo)引員針對(duì)文獻(xiàn)內(nèi)容,根據(jù)一定的分類表或主題詞表給出標(biāo)引詞;也可以是完全或部分由計(jì)算機(jī)參與的自動(dòng)標(biāo)引或半自動(dòng)標(biāo)引。自動(dòng)標(biāo)引的原理是,將分類表或詞表及有關(guān)規(guī)則存儲(chǔ)在計(jì)算機(jī)中,通過(guò)編制的程序自動(dòng)完成標(biāo)引工作,對(duì)于在計(jì)算機(jī)標(biāo)引過(guò)程中進(jìn)行適當(dāng)人工干預(yù)的標(biāo)引就是所謂的半自動(dòng)標(biāo)引了。對(duì)于中文文獻(xiàn)來(lái)說(shuō),進(jìn)行自動(dòng)標(biāo)引,首先要解決詞的自動(dòng)切分問(wèn)題。此外,標(biāo)引還有另一種方式,稱為“無(wú)標(biāo)引”或“全標(biāo)引”,如單漢字檢索方式中每個(gè)漢字都由計(jì)算機(jī)做倒排檔,因此不需人工參與,故被稱為“無(wú)標(biāo)引”。而從計(jì)算機(jī)的角度來(lái)說(shuō),對(duì)每個(gè)漢字均作了標(biāo)引詞的處理,所以也可理解為“全標(biāo)引”。相對(duì)于中文文獻(xiàn),西文文獻(xiàn)的自動(dòng)標(biāo)引和全標(biāo)引實(shí)現(xiàn)起來(lái)就要簡(jiǎn)單得多。
文摘加工
文摘的編寫(xiě)加工也非常重要。編寫(xiě)文摘應(yīng)當(dāng)言簡(jiǎn)意賅,簡(jiǎn)潔明了。文摘可以由文獻(xiàn)著者自行撰寫(xiě),附于文獻(xiàn)之前,也可以由文摘員進(jìn)行撰寫(xiě)。文摘的編寫(xiě)也應(yīng)當(dāng)標(biāo)準(zhǔn)化,我國(guó)有國(guó)家標(biāo)準(zhǔn)CB6447—86《文摘編寫(xiě)規(guī)則》作為編寫(xiě)依據(jù)。文摘有報(bào)道性文摘、指示性文摘以及報(bào)道—指示性文摘等多種類型,不同類型的文摘對(duì)編寫(xiě)和長(zhǎng)度有不同的要求。編寫(xiě)時(shí)應(yīng)根據(jù)具體需要進(jìn)行相應(yīng)的編寫(xiě)。
審核修正
審核修正指的是記錄正式數(shù)據(jù)庫(kù)之前的把關(guān)工作。這須由高水平人員進(jìn)行。審核的內(nèi)容包括數(shù)據(jù)項(xiàng)是否完備、準(zhǔn)確,有關(guān)的著錄是否符合標(biāo)準(zhǔn),標(biāo)引深度是否適當(dāng),等等。
經(jīng)過(guò)以上六步,數(shù)據(jù)的準(zhǔn)備工作就已完成,接下來(lái)就可以進(jìn)行數(shù)據(jù)庫(kù)的正式創(chuàng)建工作。
創(chuàng)建
硬件配置與軟件選擇
進(jìn)行書(shū)目數(shù)據(jù)庫(kù)的開(kāi)發(fā),必須配備相應(yīng)的計(jì)算機(jī)系統(tǒng),應(yīng)根據(jù)需要購(gòu)買性能優(yōu)良的計(jì)算機(jī)硬件設(shè)備。通常情況下,計(jì)算機(jī)主機(jī)系統(tǒng)已經(jīng)存在,建庫(kù)者要做的是完成必要的終端和外設(shè)與主機(jī)系統(tǒng)的連接,例如,安裝光盤(pán)驅(qū)動(dòng)設(shè)備,掃描和打印設(shè)備等。如果建庫(kù)工作是在聯(lián)機(jī)網(wǎng)絡(luò)的節(jié)點(diǎn)上進(jìn)行,那么還要完成設(shè)備與網(wǎng)絡(luò)的連接工作,解決網(wǎng)絡(luò)數(shù)據(jù)通信問(wèn)題。解決了硬件問(wèn)題后,建庫(kù)者需要選擇合適的建庫(kù)和檢索軟件。建庫(kù)軟件的獲取一般有兩種途徑,一種是購(gòu)買現(xiàn)成的數(shù)據(jù)庫(kù)管理系統(tǒng)軟件,另一種是自行編制。當(dāng)然,目前大多數(shù)采用的是前一種途徑,即直接購(gòu)買現(xiàn)成的數(shù)據(jù)庫(kù)管理軟件。我國(guó)圖書(shū)情報(bào)部門比較流行的數(shù)據(jù)庫(kù)管理軟件是聯(lián)合國(guó)教科文組織推出的CDS/ISIS軟件。
數(shù)據(jù)錄入
數(shù)據(jù)錄入就是將前面所述的文獻(xiàn)處理結(jié)果轉(zhuǎn)化為機(jī)讀數(shù)據(jù)的過(guò)程。數(shù)據(jù)錄入通常有兩種方式:自動(dòng)錄入和平工錄入。手工錄入的方式是對(duì)非機(jī)讀書(shū)目信息的錄入。計(jì)算機(jī)系統(tǒng)顯示一個(gè)類似于工作單的表格,上面有用戶定義的字段名稱,用戶只需在這些字段名稱之后用鍵盤(pán)錄入相應(yīng)數(shù)據(jù)即可。為了加速錄入工作,用戶也可以用其他文字處理軟件(如MICROSOFT WORD)對(duì)書(shū)目數(shù)據(jù)進(jìn)行錄入,之后再做成批轉(zhuǎn)換;另外還可以利用光學(xué)字符識(shí)別技術(shù)(OCR),讓計(jì)算機(jī)根據(jù)一定的印刷或打印字體將文本轉(zhuǎn)化為機(jī)讀形式。自動(dòng)錄入的方式用于對(duì)光盤(pán)數(shù)據(jù)庫(kù)、磁帶數(shù)據(jù)庫(kù)或其他類型的機(jī)讀數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行轉(zhuǎn)錄或套錄。所謂套錄,就是從一個(gè)或幾個(gè)計(jì)算機(jī)中獲得數(shù)據(jù)庫(kù)的數(shù)據(jù),傳送到另一計(jì)算機(jī)中,并將其存儲(chǔ)在后者的磁盤(pán)或磁帶等存儲(chǔ)介質(zhì)上的一種過(guò)程或手段。具體地說(shuō),就是從聯(lián)機(jī)檢索系統(tǒng)或光盤(pán)中的數(shù)據(jù)庫(kù)中套錄下一些書(shū)目信息,然后,再將這些書(shū)目信息進(jìn)行編輯、歸并、格式轉(zhuǎn)換等再處理,使數(shù)據(jù)產(chǎn)生新的組合,確立新的結(jié)構(gòu),從而獲得適合特定需要的書(shū)目數(shù)據(jù)庫(kù)。這種套錄建庫(kù)方式,也稱為書(shū)目數(shù)據(jù)庫(kù)的二次開(kāi)發(fā)。信息技術(shù)和數(shù)據(jù)庫(kù)業(yè)的發(fā)展,促進(jìn)了套錄的誕生和推廣。目前供發(fā)行和服務(wù)的書(shū)目數(shù)據(jù)庫(kù),不管以何種形式出現(xiàn),大多可以用適當(dāng)?shù)姆椒ū惶卒洝_@種套錄建庫(kù)優(yōu)勢(shì)在于,建庫(kù)周期短、投資少、易上規(guī)模、重復(fù)勞動(dòng)少,使信息資源得到極大程度的共享。但它可能涉及到的產(chǎn)權(quán)問(wèn)題也應(yīng)引起重視,切勿顧此失彼,帶來(lái)未曾預(yù)計(jì)的損失。當(dāng)手工或自動(dòng)錄入數(shù)據(jù)后,在建庫(kù)軟件的支持下,計(jì)算機(jī)自動(dòng)生成書(shū)目數(shù)據(jù)庫(kù)的各種順序文檔。這種數(shù)據(jù)庫(kù)內(nèi)的書(shū)目信息有其復(fù)雜的計(jì)算機(jī)能識(shí)別、處理的機(jī)內(nèi)記錄格式,內(nèi)容主要包括:一條記錄的總長(zhǎng)度,書(shū)目數(shù)據(jù)的實(shí)際起始地址,每個(gè)字段的名稱、長(zhǎng)度,字段間的分隔符、結(jié)束符、記錄狀態(tài)的標(biāo)識(shí)符等。另外,數(shù)據(jù)庫(kù)所需的各種索引倒排文檔也無(wú)需人工干預(yù),而由建庫(kù)程序自行完成。
程序檢查
程序檢查指的是計(jì)算機(jī)自動(dòng)對(duì)錄入的文本進(jìn)行形式上的審查,例如,括號(hào)是否配對(duì),定義了數(shù)字形式的字段是否出現(xiàn)文字;定長(zhǎng)字段長(zhǎng)度是否符合要求,字段的數(shù)據(jù)形式,如ISBN號(hào),是否正確,各種標(biāo)識(shí)符號(hào)是否有錯(cuò),是否出現(xiàn)了系統(tǒng)禁止使用的專用字符或非法字符等。計(jì)算機(jī)對(duì)數(shù)據(jù)的校驗(yàn)可在不同階段進(jìn)行。
經(jīng)過(guò)這三個(gè)步驟,書(shū)目數(shù)據(jù)庫(kù)就已經(jīng)基本建成了。但在正式投入使用之前,還需要進(jìn)行試運(yùn)行。根據(jù)規(guī)劃設(shè)計(jì)要求,選取一定檢索實(shí)例進(jìn)行檢驗(yàn),通過(guò)設(shè)計(jì)者、使用者和有關(guān)專家的鑒定之后,才算完成數(shù)據(jù)庫(kù)的建立工作。
維護(hù)與更新
書(shū)目數(shù)據(jù)庫(kù)投入運(yùn)行后,由于不斷地對(duì)文檔進(jìn)行插入、刪除、修改等操作,可能會(huì)使文檔的時(shí)空性能變壞,或者是由于原來(lái)的文檔組織方式已不能適應(yīng)新的要求,或者新書(shū)目的激增使得原來(lái)的數(shù)據(jù)量已不能滿足用戶的需求,故而必須定期地對(duì)書(shū)目數(shù)據(jù)庫(kù)進(jìn)行維護(hù)與更新,以適應(yīng)用戶要求和文獻(xiàn)生產(chǎn)情況的變化。維護(hù)主要是指對(duì)數(shù)據(jù)庫(kù)系統(tǒng)硬件設(shè)備的維修、保養(yǎng)和對(duì)系統(tǒng)軟件功能的修改和擴(kuò)充。更新主要是指對(duì)數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行添加和重新組織,它對(duì)書(shū)目數(shù)據(jù)庫(kù)的存在和使用,保證書(shū)目數(shù)據(jù)的質(zhì)量有著尤為重要的意義。數(shù)據(jù)庫(kù)的數(shù)據(jù)往往不是個(gè)別進(jìn)行插入、刪除和修改,而是定期、批量地進(jìn)行。這種數(shù)據(jù)庫(kù)的更新,不僅要對(duì)順序文檔進(jìn)行更新,而且還必須對(duì)所有相關(guān)的倒排檔及索引文件進(jìn)行重組,這就要求要對(duì)新追加的大量數(shù)據(jù)進(jìn)行一系列加工處理后重裝文獻(xiàn)庫(kù)。重裝雖然要開(kāi)銷一定的維護(hù)時(shí)間,但可以保證檢索的快速性,因而是值得的。另外,數(shù)據(jù)庫(kù)的更新工作還要隨文檔的存儲(chǔ)方式而異。順序文檔一般采用尾接擴(kuò)充法,就是將新的書(shū)目記錄依次尾接在文檔后面;索引或倒排文檔通常采用重裝方法,即將新加記錄抽詞排序后的文檔與原來(lái)的排序文檔歸并,然后重新總體排序,建立索引。另外,在數(shù)據(jù)庫(kù)的維護(hù)中一定要重視數(shù)據(jù)庫(kù)及其文檔的備份工作。一般地,順序文檔和倒排文檔都應(yīng)該保存2—3份副本,即不僅保留本次更新的副本,而且要保留前1—2次更新時(shí)的副本。這樣,如果由于硬件故障等原因使得數(shù)據(jù)庫(kù)文檔不能正常使用時(shí),就可用副本重裝一次,從而保證數(shù)據(jù)庫(kù)的正常運(yùn)行。
性能指標(biāo)和評(píng)價(jià)準(zhǔn)則
一個(gè)書(shū)目數(shù)據(jù)庫(kù)建成后,其構(gòu)造是否合理,建設(shè)是否成功,要依據(jù)一定的性能指標(biāo)和評(píng)價(jià)準(zhǔn)則進(jìn)行評(píng)估。這里我們將簡(jiǎn)要介紹一些目前得到普遍認(rèn)可的數(shù)據(jù)庫(kù)性能指標(biāo)與評(píng)價(jià)準(zhǔn)則。
1. 數(shù)據(jù)收錄的完備性
它是指根據(jù)數(shù)據(jù)庫(kù)的主題范圍,看其收錄的文獻(xiàn)數(shù)據(jù)是否完整或基本完整。其中最重要的是數(shù)據(jù)收錄的覆蓋面。例如,一個(gè)特定的書(shū)目數(shù)據(jù)庫(kù),其收錄是否包括所有類型的出版物,還是某一特定類型的出版物;它所收錄的文獻(xiàn)包括哪些文種,其時(shí)間跨度有多長(zhǎng);它對(duì)核心出版物、一般出版物、邊緣相關(guān)出版物的收錄和覆蓋面各有多大。收錄完備性是數(shù)據(jù)庫(kù)質(zhì)量的首要指標(biāo)。因?yàn)橛脩羰褂脮?shū)目數(shù)據(jù)庫(kù)的目的,是要獲得與自己特定情報(bào)需求相關(guān)的全面資料,如果數(shù)據(jù)庫(kù)本身收錄的數(shù)據(jù)就不夠全面,那么即便用戶非常專業(yè),進(jìn)行了細(xì)致的檢索,所獲得的檢索結(jié)果也是不符合要求的。
2. 數(shù)據(jù)的準(zhǔn)確性
書(shū)目數(shù)據(jù)庫(kù)中所收錄的數(shù)據(jù)必須非常準(zhǔn)確,這體現(xiàn)在它與原始材料的一致性、著錄的標(biāo)準(zhǔn)性等多個(gè)方面。數(shù)據(jù)庫(kù)不同于利用手工檢索的書(shū)目文獻(xiàn),在手工檢索的文獻(xiàn)中,用戶對(duì)著錄格式的差異、同一詞拼寫(xiě)上的不同、字符設(shè)備的出入等在一定程度上可以容忍和理解,但在利用計(jì)算機(jī)進(jìn)行機(jī)檢時(shí),這些因素,甚至一個(gè)括號(hào)使用的不同,都會(huì)對(duì)用戶的利用產(chǎn)生很大影響,無(wú)論對(duì)建庫(kù)還是檢索都會(huì)造成一定的混亂。如果說(shuō)數(shù)據(jù)庫(kù)收錄材料覆蓋面的高低是取得用戶信賴的量方面的因素,那么,數(shù)據(jù)庫(kù)中數(shù)據(jù)的準(zhǔn)確性,則是取得用戶信賴的質(zhì)方面的因素。它的混亂將導(dǎo)致用戶對(duì)整個(gè)數(shù)據(jù)庫(kù)價(jià)值的否認(rèn)。
3. 數(shù)據(jù)庫(kù)的時(shí)效性
在這里主要是指數(shù)據(jù)庫(kù)的時(shí)差,即從一篇文獻(xiàn)出版發(fā)表到納入數(shù)據(jù)庫(kù)之間的時(shí)間差距。數(shù)據(jù)庫(kù)的時(shí)差就是全庫(kù)文獻(xiàn)的平均時(shí)間差距。不同學(xué)科領(lǐng)域?qū)r(shí)差的要求和敏感性有所不同,對(duì)于迅速發(fā)展中的學(xué)科,如計(jì)算機(jī)、網(wǎng)絡(luò)科學(xué),及對(duì)現(xiàn)實(shí)性要求比較高的信息,如報(bào)紙信息,數(shù)據(jù)庫(kù)時(shí)差的縮短尤其重要。對(duì)于情報(bào)用戶來(lái)說(shuō),如果他們首先看到了原始文獻(xiàn),然后才從數(shù)據(jù)庫(kù)中檢索到該文獻(xiàn)的信息,用戶就會(huì)感到該數(shù)據(jù)庫(kù)中的信息缺乏新穎性。因此,對(duì)一般用戶來(lái)說(shuō)的新穎率(即用戶最先從庫(kù)中了解到的信息占庫(kù)中所有信息的百分比)是數(shù)據(jù)庫(kù)時(shí)效性的另一種衡量指標(biāo)。很顯然,數(shù)據(jù)庫(kù)的時(shí)效性與數(shù)據(jù)庫(kù)的更新周期有密切的關(guān)系。更新周期短,自然能縮短數(shù)據(jù)庫(kù)的時(shí)差,提高新穎率。
4. 數(shù)據(jù)信息含量的充分性
信息含量的充分性,主要是指書(shū)目數(shù)據(jù)庫(kù)中款目記錄的完備與充分性。例如,為每篇文獻(xiàn)記錄設(shè)置了多少個(gè)項(xiàng)目(字段),是否設(shè)有摘要,摘要的詳略如何。顯然,款目中的信息含量越充分,則越有助于用戶了解該文獻(xiàn)的外表特征與內(nèi)容特征,從而有助于用戶確認(rèn)一篇文獻(xiàn),判斷該文獻(xiàn)對(duì)自己檢索目的的切題程度和價(jià)值,判斷有無(wú)閱讀原文的需要。數(shù)據(jù)信息含量的高低,是數(shù)據(jù)庫(kù)內(nèi)在質(zhì)量的標(biāo)志之一。
5. 詞表和標(biāo)引的適當(dāng)性
詞表和標(biāo)引的適當(dāng)性主要是指書(shū)目數(shù)據(jù)庫(kù)采用的控制同表的質(zhì)量和標(biāo)引深度的適度性。一般書(shū)目數(shù)據(jù)庫(kù)均會(huì)采用一定的控制詞表(包括分類表)作為標(biāo)引的依據(jù),因此詞表本身的質(zhì)量是制約數(shù)據(jù)庫(kù)質(zhì)量的根本性因素之一。標(biāo)引是根據(jù)文獻(xiàn)內(nèi)容給出詞表中有關(guān)詞(分類號(hào))的過(guò)程。標(biāo)引的深度就是為一篇文獻(xiàn)記錄賦予檢索詞的數(shù)目。從用戶角度來(lái)說(shuō),標(biāo)引深度也就是能檢索到該文獻(xiàn)內(nèi)容特征的檢索點(diǎn)數(shù)。檢索點(diǎn)的充分與否,關(guān)系到檢索的查全性能與查準(zhǔn)性能。無(wú)論是詞表還是標(biāo)引,適度是很重要的。如果詞表與標(biāo)引太簡(jiǎn)單粗淺,自然無(wú)法對(duì)數(shù)據(jù)進(jìn)行充分完全的描述,因而不能滿足查準(zhǔn)性能的要求;但如若詞表與標(biāo)引太細(xì)太繁,則不僅會(huì)增加詞表編制及標(biāo)引工作的成本,增加數(shù)據(jù)庫(kù)占用空間,而且也可能導(dǎo)致誤檢率的提高。
除了上述五點(diǎn)之外,數(shù)據(jù)庫(kù)的經(jīng)濟(jì)成本、著錄格式的標(biāo)準(zhǔn)與交換性、數(shù)據(jù)庫(kù)設(shè)計(jì)的合理性等也都可以作為書(shū)目數(shù)據(jù)庫(kù)的性能指標(biāo)和評(píng)價(jià)準(zhǔn)則。
參考資料 >
書(shū)目數(shù)據(jù)庫(kù).書(shū)目數(shù)據(jù)庫(kù).2024-08-29
“中國(guó)歷史文獻(xiàn)總庫(kù)·民國(guó)圖書(shū)數(shù)據(jù)庫(kù)”是“中國(guó)歷史文獻(xiàn)總庫(kù)”的子庫(kù),由國(guó)家圖書(shū)館出版社開(kāi)發(fā)。本數(shù)據(jù)庫(kù)已完成五期20萬(wàn)種圖書(shū)的建設(shè),總計(jì)3500萬(wàn)頁(yè),3.8TB,全部圖書(shū)實(shí)現(xiàn)全文檢索,可檢索的字?jǐn)?shù)超過(guò)100億字。.國(guó)家圖書(shū)館出版社.2024-08-29
中國(guó)國(guó)家圖書(shū)館 中華古籍善本聯(lián)合書(shū)目.中國(guó)國(guó)家圖書(shū)館 中華古籍善本聯(lián)合書(shū)目.2024-08-29