非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、XML, HTML、各類報表、圖像和音頻/視頻信息等等。
計算機(jī)信息化系統(tǒng)中的數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)其格式非常多樣,標(biāo)準(zhǔn)也是多樣性的,而且在技術(shù)上非結(jié)構(gòu)化信息比結(jié)構(gòu)化信息更難標(biāo)準(zhǔn)化和理解。所以存儲、檢索、發(fā)布以及利用需要更加智能化的IT技術(shù),比如海量存儲、智能檢索、知識挖掘、內(nèi)容保護(hù)、信息的增值開發(fā)利用等。
優(yōu)勢
需要處理大量數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù)在任何地方都可以得到。這些數(shù)據(jù)可以在你公司內(nèi)部的郵件信息、聊天記錄以及搜集到的調(diào)查結(jié)果中得到,也可以是你對個人網(wǎng)站上的評論、對客戶關(guān)系管理系統(tǒng)中的評論或者是從你使用的個人應(yīng)用程序中得到的文本字段。而且也可以在公司外部的社會媒體、你監(jiān)控的論壇以及來自于一些你很感興趣的話題的評論。
蘊(yùn)藏著大量的價值
有些企業(yè)現(xiàn)在正投資幾十億美金分析結(jié)構(gòu)化數(shù)據(jù),卻對非結(jié)構(gòu)化數(shù)據(jù)置之不理,在非結(jié)構(gòu)化數(shù)據(jù)中蘊(yùn)藏著有用的信息寶庫,利用數(shù)據(jù)可視化工具分析非結(jié)構(gòu)化數(shù)據(jù)能夠幫助企業(yè)快速地了解現(xiàn)狀、顯示趨勢并且識別新出現(xiàn)的問題。
不依靠數(shù)據(jù)團(tuán)隊
分析數(shù)據(jù)不需要一個專業(yè)性很強(qiáng)的數(shù)學(xué)家或數(shù)據(jù)科學(xué)團(tuán)隊,公司也不需要專門聘請IT精英去做。真正的分析發(fā)生在用戶決策階段,即管理一個特殊產(chǎn)品細(xì)分市場的部門經(jīng)理,可能是負(fù)責(zé)尋找最優(yōu)活動方案的市場營銷者,也可能是負(fù)責(zé)預(yù)測客戶群體需求的總經(jīng)理。終端用戶有能力、也有權(quán)利和動機(jī)去改善商業(yè)實(shí)踐,并且視覺文本分析工具可以幫助他們快速識別最相關(guān)的問題,及時采取行動,而這都不需要依靠數(shù)據(jù)科學(xué)家。
終端用戶授權(quán)
正確的分析需要機(jī)器計算和人類解釋相結(jié)合。機(jī)器進(jìn)行大量的信息處理,而終端客戶利用他們的商業(yè)頭腦,在已發(fā)生的事實(shí)基礎(chǔ)上決策出最好的實(shí)施方案。終端客戶必須清楚的知道哪一個數(shù)據(jù)集是有價值的,他們應(yīng)該如何采集并將他們獲取的信息更好地應(yīng)用到他們的商業(yè)領(lǐng)域。此外,一個公司的工作就是使終端用戶盡可能地收集到更多相關(guān)的數(shù)據(jù)并盡可能地根據(jù)這些數(shù)據(jù)中的信息作出最好的決策。
很明顯,非結(jié)構(gòu)化數(shù)據(jù)分析可以用來創(chuàng)造新的競爭優(yōu)勢。新的前沿可視化工具使用戶容易解釋,讓他們在點(diǎn)擊幾下鼠標(biāo)之后就能清楚地了解情況。從非結(jié)構(gòu)化的數(shù)據(jù)源中挖掘信息從來就沒有像現(xiàn)在這樣如此簡單。
采集
在很多知識庫系統(tǒng)中,為了查詢大量積累下來的文檔,需要從pdf、Word、Rtf、Excel和PowerPoint等格式的文檔中提取可以描述文檔的文字,這些描述性的信息包括文檔標(biāo)題、作者、主要內(nèi)容等等。這樣一個過程就是非結(jié)構(gòu)化數(shù)據(jù)的采集過程。
非結(jié)構(gòu)化數(shù)據(jù)的采集是信息進(jìn)一步處理的基礎(chǔ)。現(xiàn)在有許多開源庫己經(jīng)實(shí)現(xiàn)了從非結(jié)構(gòu)化文檔中采集關(guān)鍵信息的功能,但針對不同格式的文檔,所用的開源庫不盡相同。
例如,apache POI是Apache軟件基金會的開放源碼函式庫,POI提供API給Java程序?qū)icrosoft Office格式檔案讀和寫的功能。其結(jié)構(gòu)包括:HSSF提供讀寫Microsoft Excel XLS格式檔案的功能;XSSF提供讀寫Microsoft Excel OOXML XLSX格式檔案的功能;HWPF提供讀寫MicrosoftWord DOC格式檔案的功能;HSLF提供讀Microsoft PowerPoint格式檔案的功能;HDGF提供讀寫微軟 Visio格式檔案的功能等。
PDFBox是Java實(shí)現(xiàn)的PDF文檔協(xié)作類庫,提供PDF文檔的創(chuàng)建、處理以及文檔內(nèi)容提取功能,也包含了一些命令行實(shí)用工具。主要特性包括:從pdf提取文本;合并PDF文檔;PDF文檔加密與解密;與Lucene搜索引擎的集成;填充PDFIXFDF表單數(shù)據(jù);從文本文件創(chuàng)建PDF文檔;從PDF頁面創(chuàng)建圖片;打印PDF文檔。PDFBox還提供和Lucene的集成,它提供了一套簡單的方法把PDFDocuments加入到Lucene的索引中去。
另外還有parse-rtf可以對RTF文件處理,SearchWord可對Word和Excel,PPT文件進(jìn)行處理等等。
查詢
隨著計算機(jī)、互聯(lián)網(wǎng)和數(shù)字媒體等的進(jìn)一步普及,以文本、圖形、圖像、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)為主的信息急劇增加,面對如此巨大的信息海洋,特別是非結(jié)構(gòu)化數(shù)據(jù)信息,如何存儲、查詢、分析、挖掘和利用這些海量信息資源就顯得尤為關(guān)鍵。傳統(tǒng)關(guān)系數(shù)據(jù)庫主要面向事務(wù)處理和數(shù)據(jù)分析應(yīng)用領(lǐng)域,擅長解決結(jié)構(gòu)化數(shù)據(jù)管理問題,在管理非結(jié)構(gòu)化數(shù)據(jù)方面存在某些先天不足之處,尤其在處理海量非結(jié)構(gòu)化信息時更是面臨巨大挑戰(zhàn)。為了應(yīng)對非結(jié)構(gòu)化數(shù)據(jù)管理的挑戰(zhàn),出現(xiàn)了各種非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng),例如基于傳統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng)擴(kuò)展的非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng),基于NoSQL的非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)等。
在非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)中,查詢處理模塊是其中一個重要的組成部分,針對非結(jié)構(gòu)化數(shù)據(jù)的特性設(shè)計合理的查詢處理框架和查詢優(yōu)化策略對于非結(jié)構(gòu)數(shù)據(jù)的快速、有效訪問極為重要。傳統(tǒng)的結(jié)構(gòu)化查詢處理過程是:首先翻譯器翻譯查詢請求生成查詢表達(dá)式,然后由優(yōu)化器優(yōu)化查詢表達(dá)式,得到優(yōu)化過的查詢計劃,最后由執(zhí)行器選擇最優(yōu)的查詢計劃執(zhí)行,得到查詢結(jié)果。查詢處理的主要操作包括選擇操作、連接操作、投影操作、聚合函數(shù)、排序等。查詢優(yōu)化的方法包括基于代價估算的優(yōu)化和基于啟發(fā)式規(guī)則的優(yōu)化等。
非結(jié)構(gòu)化查詢處理過程中除了結(jié)構(gòu)化數(shù)據(jù)查詢處理所包含的操作外,還有兩個重要的操作相似性檢索和相似性連接。相似性檢索是指給定一個元素,在由該種類元素組成的集合中尋找與之相似的元素。例如論文查重系統(tǒng)用到文本的相似性檢索,谷歌的以圖搜圖的功能用到圖像的相似性檢索,手機(jī)上根據(jù)哼唱匹配音樂是音頻的相似性檢索等。相似性連接是數(shù)據(jù)庫連接操作在非結(jié)構(gòu)化數(shù)據(jù)上的一種擴(kuò)展,它尋找兩個元素種類相同的集合之間滿足相似性約束的元素對,在數(shù)據(jù)清洗、數(shù)據(jù)查重、抄襲檢測等領(lǐng)域有著重要的作用。非結(jié)構(gòu)化查詢處理框架要針對這兩種非結(jié)構(gòu)化數(shù)據(jù)特有的查詢操作對結(jié)構(gòu)化查詢處理框架進(jìn)行改進(jìn)。
非結(jié)構(gòu)化查詢優(yōu)化,在代價估算上除了要考慮結(jié)構(gòu)化數(shù)據(jù)的代價估算模型外,還要設(shè)法建立相似性查詢和相似性連接的代價估算模型,對于針對非結(jié)構(gòu)化數(shù)據(jù)的全文索引和空間索引,也應(yīng)該有不同與B樹索引的代價估算模型。代價估算模型除了要考慮CPU時間、IO時間外,由于非結(jié)構(gòu)化數(shù)據(jù)一般都存儲在分布式系統(tǒng)之上,還需要考慮到中間結(jié)果網(wǎng)絡(luò)傳輸所用的時間,所以中間結(jié)果的大小估算對于非結(jié)構(gòu)化數(shù)據(jù)的查詢優(yōu)化比結(jié)構(gòu)化數(shù)據(jù)的查詢優(yōu)化更為重要。非結(jié)構(gòu)化數(shù)據(jù)的查詢優(yōu)化中的啟發(fā)式規(guī)則和結(jié)構(gòu)化數(shù)據(jù)也有所不同。
存儲
據(jù)IDC的一項調(diào)查報告中指出:企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長60%。據(jù)報道指出:平均只有1%-5%的數(shù)據(jù)是結(jié)構(gòu)化的數(shù)據(jù)。如今,這種迅猛增長的從不使用的數(shù)據(jù)在企業(yè)里消耗著復(fù)雜而昂貴的一級存儲的存儲容量。如何更好的保留那些在全球范圍內(nèi)具有潛在價值的不同類型的文件,而不是因為處理它們卻干擾日常的工作?云存儲是越來越多的IT公司正在使用的存儲技術(shù)。
參考資料 >