數(shù)據(jù)挖掘(英文:Data mining)又稱數(shù)據(jù)勘測(cè)、數(shù)據(jù)采礦,是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的原始數(shù)據(jù)中,提取隱含的、事先未知的、但又潛在有用的信息和知識(shí)的過程。它利用一種或多種計(jì)算機(jī)學(xué)習(xí)技術(shù),能夠自動(dòng)分析數(shù)據(jù)庫中的數(shù)據(jù)并提取知識(shí)。
數(shù)據(jù)挖掘一詞起源于數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)。1989年8月,在美國底特律召開的第11屆國際人工智能聯(lián)合會(huì)議上首次提出了知識(shí)發(fā)現(xiàn)KDD(Knowledge Discovery in Database)的概念。1995年,在加拿大召開的第一屆知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘國際學(xué)術(shù)會(huì)議上,數(shù)據(jù)挖掘一詞開始流傳開來。1997年,亞太地區(qū)召開一年一度的數(shù)據(jù)挖掘會(huì)議,標(biāo)志著數(shù)據(jù)挖掘進(jìn)入了發(fā)展階段。1998年成立數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)專業(yè)組。
數(shù)據(jù)挖掘可以針對(duì)任何類型的數(shù)據(jù)庫進(jìn)行,包括傳統(tǒng)的關(guān)系數(shù)據(jù)庫、文本數(shù)據(jù)庫、Web數(shù)據(jù)庫、數(shù)據(jù)倉庫、多媒體數(shù)據(jù)、空間數(shù)據(jù)、時(shí)序數(shù)據(jù)等,發(fā)現(xiàn)的知識(shí)可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護(hù)等。基于以上特點(diǎn),數(shù)據(jù)挖掘在商業(yè)領(lǐng)域、科學(xué)研究以及教育領(lǐng)域等都被廣泛應(yīng)用。
產(chǎn)生背景
全球信息技術(shù)的迅速發(fā)展和互聯(lián)網(wǎng)的快速普及造成了數(shù)據(jù)過量和信息爆炸,僅以數(shù)據(jù)庫系統(tǒng)的錄入、查詢、統(tǒng)計(jì)等功能,無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì),更缺乏挖掘數(shù)據(jù)背后隱藏知識(shí)的手段。要從海量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息,需要功能強(qiáng)大和通用的工具,把這些數(shù)據(jù)轉(zhuǎn)換成有組織的知識(shí),數(shù)據(jù)挖掘正是實(shí)現(xiàn)這一功能的有效手段。數(shù)據(jù)挖掘又譯為資料勘測(cè)、數(shù)據(jù)采礦,是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、事先不知道的但又潛在有用的信息和知識(shí)的過程。
數(shù)據(jù)挖掘一詞起源于數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)KDD(Knowledge Discovery in Database)。1989年8月,在美國底特律召開的第11屆國際人工智能聯(lián)合會(huì)議上首次提出了KDD的概念,指的是從數(shù)據(jù)庫中挖掘有效的、新穎的、潛在有用的并最終能被人們所理解的信息和知識(shí)的復(fù)雜過程。1995年,在加拿大召開的第一屆知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘國際學(xué)術(shù)會(huì)議上,數(shù)據(jù)挖掘一詞開始流傳開來。1997年,亞太地區(qū)數(shù)據(jù)挖掘會(huì)議(PAKDD)順利召開,標(biāo)志著亞太地區(qū)數(shù)據(jù)挖掘研究進(jìn)入了發(fā)展時(shí)期,此后PAKDD每年召開一次。1998年,數(shù)據(jù)挖掘界成立了知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘國際學(xué)術(shù)會(huì)議組織,即美國計(jì)算機(jī)學(xué)會(huì)下的數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)專業(yè)組。同年,有三十多家軟件公司展示了他們的數(shù)據(jù)挖掘軟件產(chǎn)品。
數(shù)據(jù)挖掘就是利用一種或多種計(jì)算機(jī)學(xué)習(xí)技術(shù),自動(dòng)分析數(shù)據(jù)庫中的數(shù)據(jù)并提取知識(shí)的處理過程,或它是一個(gè)利用各種分析方法和工具在海量數(shù)據(jù)中建立模型和發(fā)現(xiàn)數(shù)據(jù)間關(guān)系的過程,這些模型和關(guān)系可以用來做出決策或預(yù)測(cè)。
過程
數(shù)據(jù)挖掘有問題定義、數(shù)據(jù)提取、數(shù)據(jù)預(yù)處理、知識(shí)提取和評(píng)估五個(gè)處理過程。可以總結(jié)為三個(gè)階段:數(shù)據(jù)預(yù)處理階段、數(shù)據(jù)挖掘階段、結(jié)果的評(píng)估與表示階段。
數(shù)據(jù)預(yù)處理階段
數(shù)據(jù)預(yù)處理階段主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇和數(shù)據(jù)變換等步驟。數(shù)據(jù)處理就是對(duì)不完整、不明確、大量的并且具有很大隨機(jī)性的實(shí)際應(yīng)用數(shù)據(jù)進(jìn)行清洗,包括清除噪聲、推導(dǎo)計(jì)算填補(bǔ)缺省和不完整數(shù)據(jù)、修正異常數(shù)據(jù)和清除重復(fù)數(shù)據(jù)。數(shù)據(jù)集成就是把來源不同、格式不同、特點(diǎn)和性質(zhì)也不相同的數(shù)據(jù)進(jìn)行物理上或邏輯上的有機(jī)集中。數(shù)據(jù)選擇是根據(jù)任務(wù)目標(biāo),從集成好的、包含大量數(shù)據(jù)的數(shù)據(jù)集合中確定關(guān)注的目標(biāo)數(shù)據(jù),將其抽取出來,得到具體挖掘任務(wù)的相應(yīng)操作對(duì)象。數(shù)據(jù)變換就是根據(jù)知識(shí)發(fā)現(xiàn)的要求將數(shù)據(jù)進(jìn)行再處理,將數(shù)據(jù)轉(zhuǎn)換成合適被挖掘的數(shù)據(jù)形式,進(jìn)行數(shù)據(jù)降維,找出真正有用的特征或變量表示數(shù)據(jù)。
數(shù)據(jù)挖掘階段
數(shù)據(jù)挖掘階段需要完成三項(xiàng)任務(wù),分別是:確定數(shù)據(jù)挖掘的目標(biāo),根據(jù)用戶需求發(fā)現(xiàn)的知識(shí)類型,為選擇合適數(shù)據(jù)挖掘算法提供依據(jù);選擇算法,根據(jù)數(shù)據(jù)本身的特點(diǎn)和預(yù)期實(shí)現(xiàn)的功能,選擇對(duì)應(yīng)的算法和模型,從數(shù)據(jù)中提取隱含的模型,可選方法包括回歸分析、分類、聚類、決策樹、神經(jīng)網(wǎng)絡(luò)和Web挖掘等,它們各自側(cè)重于以不同的角度對(duì)數(shù)進(jìn)行分析和挖掘;數(shù)據(jù)挖掘,使用選擇的算法,從數(shù)據(jù)中提取用戶感興趣的知識(shí)。
結(jié)果的評(píng)估與表示階段
該階段對(duì)數(shù)據(jù)挖掘的產(chǎn)生的知識(shí)進(jìn)行評(píng)估,去除冗余的和無用的知識(shí)。對(duì)挖掘出的知識(shí)進(jìn)行解釋,將其轉(zhuǎn)換成能夠最終被用戶理解的知識(shí),發(fā)現(xiàn)的知識(shí)應(yīng)當(dāng)用高級(jí)語言、可視化表示形式或其他表示形式表示,使知識(shí)易于理解,能夠直接被人使用,這要求系統(tǒng)采用有表達(dá)能力的知識(shí)表示技術(shù),如樹、圖、圖標(biāo)、交叉表、矩陣或曲線。
方法和功能
挖掘方法
數(shù)據(jù)挖掘可以針對(duì)任何類型的數(shù)據(jù)庫進(jìn)行,既包括傳統(tǒng)的關(guān)系數(shù)據(jù)庫,也包括非數(shù)據(jù)庫組織的文本數(shù)據(jù)庫、Web數(shù)據(jù)庫以及復(fù)雜的多媒體數(shù)據(jù)庫等。根據(jù)關(guān)聯(lián)規(guī)則,又能實(shí)現(xiàn)時(shí)序數(shù)據(jù)挖掘、空間序列數(shù)據(jù)挖掘和不確定數(shù)據(jù)挖掘等。
空間數(shù)據(jù)挖掘
空間數(shù)據(jù)是指從地理信息系統(tǒng)、遙感系統(tǒng)、多媒體系統(tǒng)、醫(yī)學(xué)及衛(wèi)星圖像等各種應(yīng)用系統(tǒng)中收集的、遠(yuǎn)超過人類大腦分析能力的數(shù)據(jù)。空間數(shù)據(jù)挖掘分為描述性、解釋型和預(yù)測(cè)型,能夠?qū)崿F(xiàn)將空間現(xiàn)象分布特征化、處理空間關(guān)系、預(yù)測(cè)另外的屬性等。
時(shí)序數(shù)據(jù)挖掘
時(shí)序數(shù)據(jù)是與時(shí)間有關(guān)的一系列數(shù)據(jù),可以進(jìn)一步分為時(shí)間相關(guān)數(shù)據(jù)和序列相關(guān)數(shù)據(jù),時(shí)間相關(guān)數(shù)據(jù)與數(shù)據(jù)產(chǎn)生的絕對(duì)時(shí)間有關(guān),如銀行賬務(wù)、股票價(jià)格、設(shè)備運(yùn)行日志等。序列相關(guān)數(shù)據(jù)與數(shù)據(jù)產(chǎn)生的絕對(duì)時(shí)間相關(guān)不大,注重?cái)?shù)據(jù)間的先后次序,典型的序列相關(guān)數(shù)據(jù)有生物信息中的蛋白質(zhì)、傳感器輸出數(shù)據(jù)和DNA序列數(shù)據(jù)等。
不確定數(shù)據(jù)挖掘
實(shí)際應(yīng)用領(lǐng)域中,由于測(cè)量儀器的局限性,測(cè)量數(shù)據(jù)不準(zhǔn)確以及不確定是不可避免的,數(shù)據(jù)的不確定性包括存在的不確定性和值的不確定性兩種情況。一些算法的擴(kuò)展和技術(shù)方面的突破使得不確定數(shù)據(jù)挖掘得以應(yīng)用。
數(shù)據(jù)挖掘所能發(fā)現(xiàn)的知識(shí)有:反映同類事物共同性質(zhì)的廣義型知識(shí)、反映事物各方面特征的特征型知識(shí)、反映不同事物之間屬性差別的差異性知識(shí)、反映事物之間依賴或關(guān)聯(lián)的關(guān)聯(lián)性知識(shí)、根據(jù)歷史和當(dāng)前的數(shù)據(jù)推測(cè)未來數(shù)據(jù)的預(yù)測(cè)性知識(shí)、揭示事物偏離常規(guī)的異常現(xiàn)象的偏離型知識(shí)等。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)字的、非數(shù)字的,也可以是歸納的。最終被發(fā)現(xiàn)的知識(shí)可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護(hù)等。
分類技術(shù)
傳統(tǒng)數(shù)據(jù)分類方法
基于關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是在事務(wù)數(shù)據(jù)庫中,挖掘出不同項(xiàng)集的關(guān)聯(lián)關(guān)系。如在事務(wù)數(shù)據(jù)庫D中尋找那些不同項(xiàng)集(如A和B兩個(gè)商品)同時(shí)出現(xiàn)的概率(P(AUB))大于最小支持度,且在包含一個(gè)項(xiàng)集(如A)的所在事務(wù)中,同時(shí)也包含一個(gè)項(xiàng)集(如B)的條件概率(P(B|A))大于最小置信度時(shí),則存在關(guān)聯(lián)規(guī)則(即A大于等于B)。
K近鄰(KNN)分類
KNN方法基于類比學(xué)習(xí),是一種非參數(shù)的分類技術(shù),它在基于統(tǒng)計(jì)的模式識(shí)別中非常有效,并對(duì)未知和非正態(tài)分布可取得較高的分類準(zhǔn)確率,具有魯棒性、概念清晰等優(yōu)點(diǎn)。基本原理為:KNN分類算法搜索樣本空間,計(jì)算未知類別向量與樣本集中每個(gè)向量的相似度值,在樣本集中找出K個(gè)最相似的文本向量,分類結(jié)果為相似樣本中最多的一類。
決策樹分類算法
決策樹是由一系列判斷(包括條件和結(jié)論)組成的一種樹形結(jié)構(gòu),是實(shí)例屬性值約束的合取式。在樹形結(jié)構(gòu)中,每個(gè)節(jié)點(diǎn)表示對(duì)一個(gè)屬性值的測(cè)試,分支表示測(cè)試的結(jié)果,而樹的葉節(jié)點(diǎn)表示類別,從決策樹的根節(jié)點(diǎn)到葉節(jié)點(diǎn)的一條路徑對(duì)應(yīng)著一條合取規(guī)則,整個(gè)決策樹的產(chǎn)生是一個(gè)自頂向下的方式。首先通過對(duì)一批訓(xùn)練實(shí)例集的訓(xùn)練生成決策樹,然后利用決策樹,根據(jù)屬性的取值對(duì)一個(gè)未知實(shí)例集進(jìn)行分類。
貝葉斯分類算法
貝葉斯分類算法是統(tǒng)計(jì)學(xué)分類方法,利用概率統(tǒng)計(jì)進(jìn)行分類的算法,利用Bayes定理來預(yù)測(cè)一個(gè)未知類別的樣本的可能屬性,可選擇其可能性最大的類別作為樣本的類別。但貝葉斯定理假設(shè)一個(gè)屬性對(duì)給定類的影響?yīng)毩⒂谄渌麑傩裕虼藭?huì)影響其分類的準(zhǔn)確性。其改進(jìn)算法TAN算法通過發(fā)現(xiàn)屬性對(duì)之間的依賴關(guān)系來降低貝葉斯算法中任意屬性之間獨(dú)立的假設(shè),其方法是:用結(jié)點(diǎn)表示屬性,用有向邊表示屬性之間的依賴關(guān)系,把類別屬性作為根節(jié)點(diǎn),其余所有屬性都作為它的子節(jié)點(diǎn)。
基于軟計(jì)算的分類??
粗糙集
粗糙集理論是一種刻畫不完整性和不確定性的數(shù)學(xué)工具,能有效分析和處理不精確、不一致和不完整等各種不完備信息,并從中發(fā)現(xiàn)隱含的知識(shí),揭示潛在的規(guī)律。它的基本思想是基于等價(jià)關(guān)系的粒化與近似的數(shù)據(jù)分析方法,將數(shù)據(jù)庫這樣的元祖數(shù)據(jù)根據(jù)屬性不同的屬性值分成相應(yīng)的子集,然后進(jìn)行集合的上、下近似運(yùn)算,即上近似映射和下近似算子,以生成各子類的判定規(guī)則。
遺傳算法在解決多峰值、非線性、全局優(yōu)化等高復(fù)雜度問題時(shí)具備獨(dú)特優(yōu)勢(shì),它是以基于進(jìn)化論原理發(fā)展起來的高效隨機(jī)搜索與優(yōu)化方式。它以適應(yīng)值函數(shù)為依據(jù),通過對(duì)群體、個(gè)體施加遺傳操作來實(shí)現(xiàn)群體內(nèi)個(gè)體結(jié)構(gòu)的優(yōu)化重組,在全局范圍內(nèi)逼近最優(yōu)解。它的基本思想是把數(shù)據(jù)分類問題看成在搜索問題,數(shù)據(jù)庫看做是搜索空間,分類算法看做是搜索策略,在數(shù)據(jù)庫中進(jìn)行搜索時(shí),對(duì)隨機(jī)產(chǎn)生的一組分類規(guī)則進(jìn)行進(jìn)化,知道數(shù)據(jù)庫能被該組分類規(guī)則覆蓋,從而挖掘出隱含在數(shù)據(jù)庫中的分類規(guī)則。
神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是通過對(duì)人腦的基本單元——神經(jīng)元的建模和連接,探索模擬人腦神經(jīng)系統(tǒng)功能的模型。在神經(jīng)網(wǎng)絡(luò)中,知識(shí)與信息的存儲(chǔ)表現(xiàn)為神經(jīng)元之間分布式的物理聯(lián)系,它分散地表示和存儲(chǔ)于整個(gè)網(wǎng)絡(luò)內(nèi)的各神經(jīng)元及其連線上。每個(gè)神經(jīng)元及其連線只表示一部分信息,而不是一個(gè)完整具體概念。神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的不確定性信息處理能力,即使輸入的信息不完全、不準(zhǔn)確或模糊不清,神經(jīng)網(wǎng)絡(luò)仍然能夠通過聯(lián)想思維,展示存在于記憶中數(shù)據(jù)的完整圖像。
聚類技術(shù)
聚類技術(shù)就是按照某個(gè)特定標(biāo)準(zhǔn)(如距離準(zhǔn)則)把一個(gè)數(shù)據(jù)集分割成不同的類或簇,使得同一個(gè)簇內(nèi)數(shù)據(jù)對(duì)象的相似性盡可能大,同時(shí)不在一個(gè)簇中的數(shù)據(jù)對(duì)象的差異性也盡可能大,即聚類后同一類的數(shù)據(jù)盡可能聚集到一起,不同類的數(shù)據(jù)盡量分離。
異常值檢測(cè)
異常值檢測(cè)的目的是發(fā)現(xiàn)與大部分對(duì)象不同的對(duì)象、通常將異常對(duì)象稱作離群點(diǎn),異常值檢測(cè)稱為偏差檢測(cè),異常對(duì)象的屬性值往往模擬關(guān)系偏離期望或常見的屬性值。異常值檢測(cè)可以看作兩個(gè)子問題:在給定的數(shù)據(jù)集合中定義什么樣的數(shù)據(jù)可以被認(rèn)為是不一致的;找到一個(gè)有效的方法來挖掘這樣的異常點(diǎn)。
標(biāo)準(zhǔn)
標(biāo)準(zhǔn)分類
數(shù)據(jù)挖掘標(biāo)準(zhǔn)可分為四大類,分別是:過程標(biāo)準(zhǔn),定義數(shù)據(jù)挖掘模型產(chǎn)生、使用和部署的過程標(biāo)準(zhǔn);接口標(biāo)準(zhǔn),為方便客戶應(yīng)用程序調(diào)用,針對(duì)具體編程語言和系統(tǒng)提供的數(shù)據(jù)挖掘API接口;語言標(biāo)準(zhǔn),針對(duì)數(shù)據(jù)挖掘問題定義,用于問題描述、知識(shí)發(fā)現(xiàn)和表達(dá)的數(shù)據(jù)挖掘語言標(biāo)準(zhǔn);網(wǎng)絡(luò)標(biāo)準(zhǔn),用于解決網(wǎng)絡(luò)上分布式和遠(yuǎn)程數(shù)據(jù)挖掘問題的數(shù)據(jù)挖掘Web標(biāo)準(zhǔn)。
通用標(biāo)準(zhǔn)
跨行業(yè)數(shù)據(jù)挖掘
CRISP-DM(即跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)是一種業(yè)界認(rèn)可的用于指導(dǎo)數(shù)據(jù)挖掘工作的方法,作為一種方法,它包含項(xiàng)目中各個(gè)典型階段的說明、每個(gè)階段所包含的任務(wù)以及這些任務(wù)之間的關(guān)系的說明;作為一種流程模型,它概述了數(shù)據(jù)挖掘的生命周期,生命周期模型由六個(gè)階段組成,階段之間并不一定要嚴(yán)格遵守順序。
Java數(shù)據(jù)挖掘標(biāo)準(zhǔn)
Oracle、Hyperion、IBM和SUN Microsystems等組織聯(lián)合提出Java數(shù)據(jù)庫挖掘標(biāo)準(zhǔn)JSR-073(Java Specification Requests),又稱JDM,主要概念領(lǐng)域是:設(shè)置、模型、轉(zhuǎn)換和結(jié)果。JDM是為支持?jǐn)?shù)據(jù)挖掘應(yīng)用而開發(fā)的Java接口,支持?jǐn)?shù)據(jù)和元數(shù)據(jù)的創(chuàng)建、存儲(chǔ)、訪問和維護(hù)以及數(shù)據(jù)挖掘模型的創(chuàng)建和使用。JDM主要有應(yīng)用程序編程接口、數(shù)據(jù)挖掘引擎、元數(shù)據(jù)倉庫三個(gè)結(jié)構(gòu)組件,可以與ISO的SQL/MM,以及DMG的PML等標(biāo)準(zhǔn)配合使用。利用JDM,數(shù)據(jù)挖掘服務(wù)的實(shí)現(xiàn)者能夠?qū)我弧?biāo)準(zhǔn)的AIP接口顯露于前端的應(yīng)用程序開發(fā)者或者是Java2平臺(tái)組件的開發(fā)者。
JSR-247更新了JDM規(guī)范,即JDM 2.0。JDM 2.0 擴(kuò)展了 JDM,為新的挖掘函數(shù)、挖掘算法和相應(yīng)的Web服務(wù)規(guī)范提供了所需的功能。JDM 2.0的功能如下:
應(yīng)用領(lǐng)域
數(shù)據(jù)挖掘技術(shù)能夠?qū)崿F(xiàn)數(shù)據(jù)信息收集、系統(tǒng)屬性劃分和層次管理分析等,在醫(yī)學(xué)領(lǐng)域、商業(yè)領(lǐng)域、科學(xué)領(lǐng)域以及農(nóng)業(yè)領(lǐng)域都被廣泛應(yīng)用。
在醫(yī)學(xué)領(lǐng)域的應(yīng)用
數(shù)據(jù)挖掘技術(shù)可以抽取大量臨床數(shù)據(jù)中的趨勢(shì)及規(guī)律性,輔助醫(yī)務(wù)人員快速準(zhǔn)確地診斷、確定最優(yōu)的治療方案。在生物醫(yī)學(xué)中,它可以在脫氧核糖核酸序列間進(jìn)行相似搜索和比較、關(guān)聯(lián)分析識(shí)別同時(shí)出現(xiàn)的基因序列、陸行分析發(fā)現(xiàn)不同的治病基因。在一般醫(yī)學(xué)中,數(shù)據(jù)挖掘技術(shù)大大提高了醫(yī)務(wù)工作者的工作效率,主要應(yīng)用于對(duì)疾病的輔助診斷、相關(guān)因素分析及預(yù)測(cè)等。它還能利用決策樹和網(wǎng)絡(luò)對(duì)醫(yī)學(xué)圖像進(jìn)行特征分析,找到能夠?qū)D像分類的圖像特征臨界值。數(shù)據(jù)挖掘還可以用來開發(fā)藥物,確定藥效基因,縮短新藥的研究開發(fā)周期,降低開發(fā)費(fèi)用。
在商業(yè)領(lǐng)域的應(yīng)用
商業(yè)應(yīng)用數(shù)據(jù)挖掘最廣闊的應(yīng)用,具體應(yīng)用在商品零售業(yè)、商業(yè)保險(xiǎn)業(yè)、商業(yè)金融業(yè)以及通信業(yè)等等。通過分析聚類算法挖掘模型所發(fā)現(xiàn)的模式得出對(duì)顧客分類的結(jié)果,為零售業(yè)銷售公司管理層的營銷策略提供了依據(jù)。應(yīng)用數(shù)據(jù)挖掘技術(shù),基于用戶行為分析的精準(zhǔn)化營銷在推銷 通信增值業(yè)務(wù)的商業(yè)活動(dòng)中可以幫助通信行業(yè)運(yùn)營商把運(yùn)營成本逐漸地降低、增強(qiáng)在通信市場(chǎng)上的競(jìng)爭力。數(shù)據(jù)挖掘技術(shù)基于模型,能夠有效分析金融市場(chǎng)波動(dòng)的主要因素,據(jù)此建立相應(yīng)的預(yù)測(cè)模型,避免市場(chǎng)波動(dòng)帶來的不利影響,為后續(xù)投資及相關(guān)決策提供合理科學(xué)的基礎(chǔ)。
在科學(xué)領(lǐng)域的應(yīng)用
科研機(jī)構(gòu)進(jìn)行科學(xué)研究時(shí),需要分析大量復(fù)雜的實(shí)驗(yàn)調(diào)查數(shù)據(jù),數(shù)據(jù)挖掘技術(shù)作為一種具有高層次的智能化的自動(dòng)分析工具,與科學(xué)研究領(lǐng)域的數(shù)據(jù)分析工具需求相一致,促進(jìn)了科學(xué)研究領(lǐng)域的應(yīng)用和發(fā)展。
在農(nóng)業(yè)領(lǐng)域的應(yīng)用
數(shù)據(jù)挖掘通過各種參數(shù)數(shù)據(jù)進(jìn)行處理監(jiān)測(cè)參數(shù)值是否正確,為農(nóng)業(yè)提供氣象信息服務(wù)和可靠的科學(xué)依據(jù)。在農(nóng)業(yè)市場(chǎng)信息中,數(shù)據(jù)挖掘技術(shù)以市場(chǎng)監(jiān)控信息為數(shù)據(jù)庫,以國際貿(mào)易倉庫數(shù)據(jù)為數(shù)據(jù)源,從而提供可信信息。通過關(guān)聯(lián)分析和統(tǒng)計(jì)技術(shù)可用來預(yù)測(cè)產(chǎn)品的價(jià)格走勢(shì);聚類分析可簡化問題,使得數(shù)據(jù)更簡單;孤立點(diǎn)分析可以找出罕見事件、災(zāi)情、金融事件及進(jìn)出口方面存在的問題,對(duì)農(nóng)業(yè)市場(chǎng)有很強(qiáng)的指導(dǎo)性。
發(fā)展趨勢(shì)
多媒體數(shù)據(jù)發(fā)展
多媒體數(shù)據(jù)是指文字、圖片以及音視頻等數(shù)據(jù),其在計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域有著非常廣泛的應(yīng)用。相對(duì)于傳統(tǒng)的數(shù)據(jù)信息,多媒體數(shù)據(jù)具有更高的復(fù)雜性和數(shù)據(jù)類型,在實(shí)際處理過程中有更高的難度。對(duì)多媒體數(shù)據(jù)進(jìn)行有效的挖掘能夠進(jìn)一步擴(kuò)大數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍,獲取更多的價(jià)值數(shù)據(jù)。
算法的進(jìn)一步優(yōu)化
算法是數(shù)據(jù)挖掘技術(shù)中的關(guān)鍵,算法的科學(xué)性與合理性直接關(guān)系到數(shù)據(jù)挖掘技術(shù)的應(yīng)用水平。對(duì)算法進(jìn)行優(yōu)化和完善,加強(qiáng)算法的創(chuàng)新,能夠提升數(shù)據(jù)挖掘技術(shù)的效率和準(zhǔn)確性,擴(kuò)大數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍。
與其他系統(tǒng)的集成
人們對(duì)數(shù)據(jù)處理需求的不斷提升,僅僅依靠數(shù)據(jù)挖掘技術(shù)難以實(shí)現(xiàn)預(yù)期的數(shù)據(jù)處理結(jié)果,實(shí)現(xiàn)數(shù)據(jù)挖掘技術(shù)與其它計(jì)算機(jī)系統(tǒng)的集成和配合,能夠更好的滿足對(duì)數(shù)據(jù)處理的需求。同時(shí),要盡可能的保障數(shù)據(jù)挖掘技術(shù)應(yīng)用的靈活性,才能夠?qū)?shù)據(jù)挖掘技術(shù)的作用充分發(fā)揮。
成功案例
改善客戶信用評(píng)分
數(shù)據(jù)挖掘幫助Credilogros Cía Financiera S.A.公司改善客戶信用評(píng)分。Credilogros Cía Financiera S.A.公司是阿根廷的一家信貸公司,該公司于2006年被gST Group收購,gST公司想要尋找一種新系統(tǒng)來使該公司能更好地管理客戶相關(guān)的潛在風(fēng)險(xiǎn),以便將承擔(dān)的風(fēng)險(xiǎn)最小化。經(jīng)過評(píng)估多個(gè)產(chǎn)品后,Gredilogros公司選擇了SPSS Inc.的數(shù)據(jù)挖掘軟件PASW Modeler來整合核心信息系統(tǒng)。開發(fā)出了用于具有信貸歷史的客戶和用于新客戶的兩個(gè)評(píng)分模型。
通過實(shí)現(xiàn)PASW Modeler,Gredilogors將用于處理信用數(shù)據(jù)和提供最終信用評(píng)分的時(shí)間縮短到了8秒以內(nèi),使得該組織能夠迅速批準(zhǔn)或拒絕信貸請(qǐng)求。該決策引擎還使得Gredilogros能夠最小化每個(gè)客戶必須提供的身份證明文檔。
實(shí)時(shí)跟蹤貨箱溫度
數(shù)據(jù)挖掘幫助DHL實(shí)時(shí)跟蹤貨箱溫度。DHL是國際快遞和物流行業(yè)的全球市場(chǎng)領(lǐng)先者,一開始它提供快遞、水陸空三路運(yùn)輸?shù)龋呛髞砻绹鳩DA要求運(yùn)輸過程中藥品裝運(yùn)的溫度要達(dá)標(biāo),自此DHL的醫(yī)藥客戶強(qiáng)烈要求公司能夠給出一個(gè)更加可靠實(shí)惠的方案。這就要求DHL在遞送的各個(gè)階段都要實(shí)時(shí)跟蹤集裝箱的溫度。
因此,DHL的母公司德國郵政世界網(wǎng)(DPWN)通過技術(shù)與創(chuàng)新管理(TIM)集團(tuán)明確擬定了一個(gè)計(jì)劃,準(zhǔn)備采用RFID技術(shù)在不同時(shí)間點(diǎn)全程跟蹤裝運(yùn)的溫度。通過IBM全球企業(yè)咨詢服務(wù)部繪制決定服務(wù)的關(guān)鍵功能參數(shù)的流程框架。這個(gè)方案使醫(yī)藥客戶對(duì)運(yùn)送過程中出現(xiàn)的裝運(yùn)問題提前做出相應(yīng),并增強(qiáng)了運(yùn)送可靠性。
幫助理解氣候變化
佐治亞理工學(xué)院地球與大氣科學(xué)學(xué)院教授Annalisa Bracco說,隨著全球數(shù)以百萬計(jì)的數(shù)據(jù)分布在全球范圍內(nèi),目前的模型過于依賴人類的專業(yè)知識(shí)來理解產(chǎn)出。于是,佐治亞技術(shù)團(tuán)隊(duì)開發(fā)了一種新的方法,這種方法打破了其他模式評(píng)估和分析算法的典型瓶頸。從比傳統(tǒng)工具更獨(dú)立的氣候數(shù)據(jù)集中數(shù)據(jù)挖掘,將數(shù)據(jù)集的共性與用戶的專用知識(shí)相結(jié)合,從而使科學(xué)家能夠信任數(shù)據(jù),并獲得更可靠、更透明的結(jié)果。
相關(guān)爭議
隱私問題
雖然使用數(shù)據(jù)挖掘工具直接暴露準(zhǔn)確的機(jī)密數(shù)據(jù)的可能性很小,但探索性的數(shù)據(jù)挖掘工具可能會(huì)關(guān)聯(lián)或者泄露機(jī)密的、敏感的個(gè)人信息。數(shù)據(jù)挖掘者可能會(huì)侵犯公民的個(gè)人數(shù)據(jù)隱私權(quán),數(shù)據(jù)挖掘在數(shù)據(jù)收集階段沒有取得數(shù)據(jù)主體的同意并說明數(shù)據(jù)的用途、使用范圍的前提下獲取了公民的個(gè)人數(shù)據(jù),例如:目前的網(wǎng)站大都配有監(jiān)視用戶上網(wǎng)習(xí)慣的 軟件,甚至在未經(jīng)授權(quán)的情況下就制作了用戶的檔案,記錄用戶的電子郵件地址和網(wǎng)上購物習(xí)慣。挖掘者非法公開個(gè)人數(shù)據(jù)、不當(dāng)或錯(cuò)誤分析個(gè)人數(shù)據(jù)和超常使用個(gè)人數(shù)據(jù)等都侵犯了個(gè)人的隱私。
倫理問題
隨著大數(shù)據(jù)時(shí)代的來臨,數(shù)據(jù)成了一種獨(dú)立的客觀存在,成為物質(zhì)世界、精神世界之外的一種新的信息世界。數(shù)據(jù)還成為了一種土地、資本、能源等傳統(tǒng)資源之外的一種新資源,也成為了煤炭、石油之后的新寶藏。因此,數(shù)據(jù)的所有權(quán)、知情權(quán)、采集權(quán)、使用權(quán)等,成為了公民在大數(shù)據(jù)時(shí)代的新權(quán)益,這些權(quán)益的濫用會(huì)引發(fā)新的倫理危機(jī)。從事數(shù)據(jù)挖掘活動(dòng)的工作人員需要具備良好的職業(yè)道德觀。把工作中用戶的個(gè)人隱私信息當(dāng)做金錢交易的籌碼或窺探他人隱私的從業(yè)人員不符合職業(yè)道德。
相關(guān)法律
數(shù)據(jù)挖掘方式以間接挖掘與科技方式挖掘?yàn)橹鳎袊?a href="/hebeideji/8849488992933859122.html">中華人民共和國網(wǎng)絡(luò)安全法》《中華人民共和國消費(fèi)者權(quán)益保護(hù)法》《電信和互聯(lián)網(wǎng)用戶個(gè)人信息保護(hù)規(guī)定》《網(wǎng)絡(luò)交易管理辦法》等腹部法律與規(guī)章都規(guī)定網(wǎng)絡(luò)主體在收集用戶信息時(shí)相用戶明示、經(jīng)用戶同意、不得濫用用戶個(gè)人信息等相關(guān)規(guī)定。此外,多國將挖掘文本與數(shù)據(jù)行為納入著作權(quán)合理適用范圍:英國修改《版權(quán)法》,專門制定了文本與數(shù)據(jù)挖掘例外條例,明確了文本與數(shù)據(jù)挖掘的合法性;法國修訂《法國知識(shí)產(chǎn)權(quán)法典》,對(duì)著作權(quán)作品專門設(shè)置了挖掘,還對(duì)數(shù)據(jù)庫權(quán)進(jìn)行了限制;德國修訂了《著作權(quán)及鄰接權(quán)法》,規(guī)定了自動(dòng)分析大量作品用于科研,允許使用者復(fù)制原材料并創(chuàng)建規(guī)范化和結(jié)構(gòu)化的資料庫,僅限為非商業(yè)目的。
相關(guān)軟件
參考資料 >
DataMining:Whatitisandwhyitmatters.sas.2023-11-29
IBM Documentation.IBM.2023-12-05
What is CRISP DM?.datascience-pm.2023-12-05
TheJavaCommunityProcess(SM)Program.JSR 247: Data Mining 2.0.2023-12-20
通過 SPSS Inc. 的數(shù)據(jù)挖掘工作臺(tái)改善客戶信用評(píng)分.IBM.2023-11-29
學(xué)生學(xué)習(xí)筆記分享及解析——客戶關(guān)系管理(18).微信公眾平臺(tái).2023-11-29
科學(xué)家利用數(shù)據(jù)挖掘幫助理解氣候變化.中國氣象局.2023-11-29
大數(shù)據(jù)時(shí)代的倫理隱憂.大眾網(wǎng).2023-12-04
多國獎(jiǎng)挖掘文本與數(shù)據(jù)行為納入著作權(quán)合理使用范圍.人民法院報(bào).2023-12-04
針對(duì)數(shù)據(jù)分析人員的 Oracle Data Mining.Oracle.2023-12-04
IBM SPSS Modeler.IBM.2023-12-04
Data Mining Software, Model Development and Deployment, SAS Enterprise Miner | SAS.SAS.2023-12-04
RapidMiner Platform.rapidminer.2023-12-04