betway88官网,电竞竞猜官网,乐发VIIIwelcome

來源：互聯(lián)網(wǎng)

數(shù)據(jù)挖掘(英文：Data mining)又稱數(shù)據(jù)勘測(cè)、數(shù)據(jù)采礦，是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的原始數(shù)據(jù)中，提取隱含的、事先未知的、但又潛在有用的信息和知識(shí)的過程。它利用一種或多種計(jì)算機(jī)學(xué)習(xí)技術(shù)，能夠自動(dòng)分析數(shù)據(jù)庫中的數(shù)據(jù)并提取知識(shí)。

數(shù)據(jù)挖掘一詞起源于數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)。1989年8月，在美國底特律召開的第11屆國際人工智能聯(lián)合會(huì)議上首次提出了知識(shí)發(fā)現(xiàn)KDD（Knowledge Discovery in Database）的概念。1995年，在加拿大召開的第一屆知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘國際學(xué)術(shù)會(huì)議上，數(shù)據(jù)挖掘一詞開始流傳開來。1997年，亞太地區(qū)召開一年一度的數(shù)據(jù)挖掘會(huì)議，標(biāo)志著數(shù)據(jù)挖掘進(jìn)入了發(fā)展階段。1998年成立數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)專業(yè)組。

數(shù)據(jù)挖掘可以針對(duì)任何類型的數(shù)據(jù)庫進(jìn)行，包括傳統(tǒng)的關(guān)系數(shù)據(jù)庫、文本數(shù)據(jù)庫、Web數(shù)據(jù)庫、數(shù)據(jù)倉庫、多媒體數(shù)據(jù)、空間數(shù)據(jù)、時(shí)序數(shù)據(jù)等，發(fā)現(xiàn)的知識(shí)可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護(hù)等。基于以上特點(diǎn)，數(shù)據(jù)挖掘在商業(yè)領(lǐng)域、科學(xué)研究以及教育領(lǐng)域等都被廣泛應(yīng)用。

產(chǎn)生背景

全球信息技術(shù)的迅速發(fā)展和互聯(lián)網(wǎng)的快速普及造成了數(shù)據(jù)過量和信息爆炸，僅以數(shù)據(jù)庫系統(tǒng)的錄入、查詢、統(tǒng)計(jì)等功能，無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則，無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì)，更缺乏挖掘數(shù)據(jù)背后隱藏知識(shí)的手段。要從海量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息，需要功能強(qiáng)大和通用的工具，把這些數(shù)據(jù)轉(zhuǎn)換成有組織的知識(shí)，數(shù)據(jù)挖掘正是實(shí)現(xiàn)這一功能的有效手段。數(shù)據(jù)挖掘又譯為資料勘測(cè)、數(shù)據(jù)采礦，是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、事先不知道的但又潛在有用的信息和知識(shí)的過程。

數(shù)據(jù)挖掘一詞起源于數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)KDD（Knowledge Discovery in Database）。1989年8月，在美國底特律召開的第11屆國際人工智能聯(lián)合會(huì)議上首次提出了KDD的概念，指的是從數(shù)據(jù)庫中挖掘有效的、新穎的、潛在有用的并最終能被人們所理解的信息和知識(shí)的復(fù)雜過程。1995年，在加拿大召開的第一屆知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘國際學(xué)術(shù)會(huì)議上，數(shù)據(jù)挖掘一詞開始流傳開來。1997年，亞太地區(qū)數(shù)據(jù)挖掘會(huì)議（PAKDD）順利召開，標(biāo)志著亞太地區(qū)數(shù)據(jù)挖掘研究進(jìn)入了發(fā)展時(shí)期，此后PAKDD每年召開一次。1998年，數(shù)據(jù)挖掘界成立了知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘國際學(xué)術(shù)會(huì)議組織，即美國計(jì)算機(jī)學(xué)會(huì)下的數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)專業(yè)組。同年，有三十多家軟件公司展示了他們的數(shù)據(jù)挖掘軟件產(chǎn)品。

數(shù)據(jù)挖掘就是利用一種或多種計(jì)算機(jī)學(xué)習(xí)技術(shù)，自動(dòng)分析數(shù)據(jù)庫中的數(shù)據(jù)并提取知識(shí)的處理過程，或它是一個(gè)利用各種分析方法和工具在海量數(shù)據(jù)中建立模型和發(fā)現(xiàn)數(shù)據(jù)間關(guān)系的過程，這些模型和關(guān)系可以用來做出決策或預(yù)測(cè)。

過程

數(shù)據(jù)挖掘有問題定義、數(shù)據(jù)提取、數(shù)據(jù)預(yù)處理、知識(shí)提取和評(píng)估五個(gè)處理過程。可以總結(jié)為三個(gè)階段：數(shù)據(jù)預(yù)處理階段、數(shù)據(jù)挖掘階段、結(jié)果的評(píng)估與表示階段。

數(shù)據(jù)預(yù)處理階段

數(shù)據(jù)預(yù)處理階段主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇和數(shù)據(jù)變換等步驟。數(shù)據(jù)處理就是對(duì)不完整、不明確、大量的并且具有很大隨機(jī)性的實(shí)際應(yīng)用數(shù)據(jù)進(jìn)行清洗，包括清除噪聲、推導(dǎo)計(jì)算填補(bǔ)缺省和不完整數(shù)據(jù)、修正異常數(shù)據(jù)和清除重復(fù)數(shù)據(jù)。數(shù)據(jù)集成就是把來源不同、格式不同、特點(diǎn)和性質(zhì)也不相同的數(shù)據(jù)進(jìn)行物理上或邏輯上的有機(jī)集中。數(shù)據(jù)選擇是根據(jù)任務(wù)目標(biāo)，從集成好的、包含大量數(shù)據(jù)的數(shù)據(jù)集合中確定關(guān)注的目標(biāo)數(shù)據(jù)，將其抽取出來，得到具體挖掘任務(wù)的相應(yīng)操作對(duì)象。數(shù)據(jù)變換就是根據(jù)知識(shí)發(fā)現(xiàn)的要求將數(shù)據(jù)進(jìn)行再處理，將數(shù)據(jù)轉(zhuǎn)換成合適被挖掘的數(shù)據(jù)形式，進(jìn)行數(shù)據(jù)降維，找出真正有用的特征或變量表示數(shù)據(jù)。

數(shù)據(jù)挖掘階段

數(shù)據(jù)挖掘階段需要完成三項(xiàng)任務(wù)，分別是：確定數(shù)據(jù)挖掘的目標(biāo)，根據(jù)用戶需求發(fā)現(xiàn)的知識(shí)類型，為選擇合適數(shù)據(jù)挖掘算法提供依據(jù)；選擇算法，根據(jù)數(shù)據(jù)本身的特點(diǎn)和預(yù)期實(shí)現(xiàn)的功能，選擇對(duì)應(yīng)的算法和模型，從數(shù)據(jù)中提取隱含的模型，可選方法包括回歸分析、分類、聚類、決策樹、神經(jīng)網(wǎng)絡(luò)和Web挖掘等，它們各自側(cè)重于以不同的角度對(duì)數(shù)進(jìn)行分析和挖掘；數(shù)據(jù)挖掘，使用選擇的算法，從數(shù)據(jù)中提取用戶感興趣的知識(shí)。

結(jié)果的評(píng)估與表示階段

該階段對(duì)數(shù)據(jù)挖掘的產(chǎn)生的知識(shí)進(jìn)行評(píng)估，去除冗余的和無用的知識(shí)。對(duì)挖掘出的知識(shí)進(jìn)行解釋，將其轉(zhuǎn)換成能夠最終被用戶理解的知識(shí)，發(fā)現(xiàn)的知識(shí)應(yīng)當(dāng)用高級(jí)語言、可視化表示形式或其他表示形式表示，使知識(shí)易于理解，能夠直接被人使用，這要求系統(tǒng)采用有表達(dá)能力的知識(shí)表示技術(shù)，如樹、圖、圖標(biāo)、交叉表、矩陣或曲線。

方法和功能

挖掘方法

數(shù)據(jù)挖掘可以針對(duì)任何類型的數(shù)據(jù)庫進(jìn)行，既包括傳統(tǒng)的關(guān)系數(shù)據(jù)庫，也包括非數(shù)據(jù)庫組織的文本數(shù)據(jù)庫、Web數(shù)據(jù)庫以及復(fù)雜的多媒體數(shù)據(jù)庫等。根據(jù)關(guān)聯(lián)規(guī)則，又能實(shí)現(xiàn)時(shí)序數(shù)據(jù)挖掘、空間序列數(shù)據(jù)挖掘和不確定數(shù)據(jù)挖掘等。

空間數(shù)據(jù)挖掘

空間數(shù)據(jù)是指從地理信息系統(tǒng)、遙感系統(tǒng)、多媒體系統(tǒng)、醫(yī)學(xué)及衛(wèi)星圖像等各種應(yīng)用系統(tǒng)中收集的、遠(yuǎn)超過人類大腦分析能力的數(shù)據(jù)。空間數(shù)據(jù)挖掘分為描述性、解釋型和預(yù)測(cè)型，能夠?qū)崿F(xiàn)將空間現(xiàn)象分布特征化、處理空間關(guān)系、預(yù)測(cè)另外的屬性等。

時(shí)序數(shù)據(jù)挖掘

時(shí)序數(shù)據(jù)是與時(shí)間有關(guān)的一系列數(shù)據(jù)，可以進(jìn)一步分為時(shí)間相關(guān)數(shù)據(jù)和序列相關(guān)數(shù)據(jù)，時(shí)間相關(guān)數(shù)據(jù)與數(shù)據(jù)產(chǎn)生的絕對(duì)時(shí)間有關(guān)，如銀行賬務(wù)、股票價(jià)格、設(shè)備運(yùn)行日志等。序列相關(guān)數(shù)據(jù)與數(shù)據(jù)產(chǎn)生的絕對(duì)時(shí)間相關(guān)不大，注重?cái)?shù)據(jù)間的先后次序，典型的序列相關(guān)數(shù)據(jù)有生物信息中的蛋白質(zhì)、傳感器輸出數(shù)據(jù)和DNA序列數(shù)據(jù)等。

不確定數(shù)據(jù)挖掘

實(shí)際應(yīng)用領(lǐng)域中，由于測(cè)量儀器的局限性，測(cè)量數(shù)據(jù)不準(zhǔn)確以及不確定是不可避免的，數(shù)據(jù)的不確定性包括存在的不確定性和值的不確定性兩種情況。一些算法的擴(kuò)展和技術(shù)方面的突破使得不確定數(shù)據(jù)挖掘得以應(yīng)用。

數(shù)據(jù)挖掘所能發(fā)現(xiàn)的知識(shí)有：反映同類事物共同性質(zhì)的廣義型知識(shí)、反映事物各方面特征的特征型知識(shí)、反映不同事物之間屬性差別的差異性知識(shí)、反映事物之間依賴或關(guān)聯(lián)的關(guān)聯(lián)性知識(shí)、根據(jù)歷史和當(dāng)前的數(shù)據(jù)推測(cè)未來數(shù)據(jù)的預(yù)測(cè)性知識(shí)、揭示事物偏離常規(guī)的異常現(xiàn)象的偏離型知識(shí)等。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)字的、非數(shù)字的，也可以是歸納的。最終被發(fā)現(xiàn)的知識(shí)可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護(hù)等。

分類技術(shù)

傳統(tǒng)數(shù)據(jù)分類方法

基于關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則是在事務(wù)數(shù)據(jù)庫中，挖掘出不同項(xiàng)集的關(guān)聯(lián)關(guān)系。如在事務(wù)數(shù)據(jù)庫D中尋找那些不同項(xiàng)集（如A和B兩個(gè)商品）同時(shí)出現(xiàn)的概率（P（AUB））大于最小支持度，且在包含一個(gè)項(xiàng)集（如A）的所在事務(wù)中，同時(shí)也包含一個(gè)項(xiàng)集（如B）的條件概率（P(B|A））大于最小置信度時(shí)，則存在關(guān)聯(lián)規(guī)則（即A大于等于B）。

K近鄰（KNN）分類

KNN方法基于類比學(xué)習(xí)，是一種非參數(shù)的分類技術(shù)，它在基于統(tǒng)計(jì)的模式識(shí)別中非常有效，并對(duì)未知和非正態(tài)分布可取得較高的分類準(zhǔn)確率，具有魯棒性、概念清晰等優(yōu)點(diǎn)。基本原理為：KNN分類算法搜索樣本空間，計(jì)算未知類別向量與樣本集中每個(gè)向量的相似度值，在樣本集中找出K個(gè)最相似的文本向量，分類結(jié)果為相似樣本中最多的一類。

決策樹分類算法

決策樹是由一系列判斷（包括條件和結(jié)論）組成的一種樹形結(jié)構(gòu)，是實(shí)例屬性值約束的合取式。在樹形結(jié)構(gòu)中，每個(gè)節(jié)點(diǎn)表示對(duì)一個(gè)屬性值的測(cè)試，分支表示測(cè)試的結(jié)果，而樹的葉節(jié)點(diǎn)表示類別，從決策樹的根節(jié)點(diǎn)到葉節(jié)點(diǎn)的一條路徑對(duì)應(yīng)著一條合取規(guī)則，整個(gè)決策樹的產(chǎn)生是一個(gè)自頂向下的方式。首先通過對(duì)一批訓(xùn)練實(shí)例集的訓(xùn)練生成決策樹，然后利用決策樹，根據(jù)屬性的取值對(duì)一個(gè)未知實(shí)例集進(jìn)行分類。

貝葉斯分類算法

貝葉斯分類算法是統(tǒng)計(jì)學(xué)分類方法，利用概率統(tǒng)計(jì)進(jìn)行分類的算法，利用Bayes定理來預(yù)測(cè)一個(gè)未知類別的樣本的可能屬性，可選擇其可能性最大的類別作為樣本的類別。但貝葉斯定理假設(shè)一個(gè)屬性對(duì)給定類的影響?yīng)毩⒂谄渌麑傩裕虼藭?huì)影響其分類的準(zhǔn)確性。其改進(jìn)算法TAN算法通過發(fā)現(xiàn)屬性對(duì)之間的依賴關(guān)系來降低貝葉斯算法中任意屬性之間獨(dú)立的假設(shè)，其方法是：用結(jié)點(diǎn)表示屬性，用有向邊表示屬性之間的依賴關(guān)系，把類別屬性作為根節(jié)點(diǎn)，其余所有屬性都作為它的子節(jié)點(diǎn)。

基于軟計(jì)算的分類??

粗糙集

粗糙集理論是一種刻畫不完整性和不確定性的數(shù)學(xué)工具，能有效分析和處理不精確、不一致和不完整等各種不完備信息，并從中發(fā)現(xiàn)隱含的知識(shí)，揭示潛在的規(guī)律。它的基本思想是基于等價(jià)關(guān)系的粒化與近似的數(shù)據(jù)分析方法，將數(shù)據(jù)庫這樣的元祖數(shù)據(jù)根據(jù)屬性不同的屬性值分成相應(yīng)的子集，然后進(jìn)行集合的上、下近似運(yùn)算，即上近似映射和下近似算子，以生成各子類的判定規(guī)則。

遺傳算法

遺傳算法在解決多峰值、非線性、全局優(yōu)化等高復(fù)雜度問題時(shí)具備獨(dú)特優(yōu)勢(shì)，它是以基于進(jìn)化論原理發(fā)展起來的高效隨機(jī)搜索與優(yōu)化方式。它以適應(yīng)值函數(shù)為依據(jù)，通過對(duì)群體、個(gè)體施加遺傳操作來實(shí)現(xiàn)群體內(nèi)個(gè)體結(jié)構(gòu)的優(yōu)化重組，在全局范圍內(nèi)逼近最優(yōu)解。它的基本思想是把數(shù)據(jù)分類問題看成在搜索問題，數(shù)據(jù)庫看做是搜索空間，分類算法看做是搜索策略，在數(shù)據(jù)庫中進(jìn)行搜索時(shí)，對(duì)隨機(jī)產(chǎn)生的一組分類規(guī)則進(jìn)行進(jìn)化，知道數(shù)據(jù)庫能被該組分類規(guī)則覆蓋，從而挖掘出隱含在數(shù)據(jù)庫中的分類規(guī)則。

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是通過對(duì)人腦的基本單元——神經(jīng)元的建模和連接，探索模擬人腦神經(jīng)系統(tǒng)功能的模型。在神經(jīng)網(wǎng)絡(luò)中，知識(shí)與信息的存儲(chǔ)表現(xiàn)為神經(jīng)元之間分布式的物理聯(lián)系，它分散地表示和存儲(chǔ)于整個(gè)網(wǎng)絡(luò)內(nèi)的各神經(jīng)元及其連線上。每個(gè)神經(jīng)元及其連線只表示一部分信息，而不是一個(gè)完整具體概念。神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的不確定性信息處理能力，即使輸入的信息不完全、不準(zhǔn)確或模糊不清，神經(jīng)網(wǎng)絡(luò)仍然能夠通過聯(lián)想思維，展示存在于記憶中數(shù)據(jù)的完整圖像。

聚類技術(shù)

聚類技術(shù)就是按照某個(gè)特定標(biāo)準(zhǔn)（如距離準(zhǔn)則）把一個(gè)數(shù)據(jù)集分割成不同的類或簇，使得同一個(gè)簇內(nèi)數(shù)據(jù)對(duì)象的相似性盡可能大，同時(shí)不在一個(gè)簇中的數(shù)據(jù)對(duì)象的差異性也盡可能大，即聚類后同一類的數(shù)據(jù)盡可能聚集到一起，不同類的數(shù)據(jù)盡量分離。

異常值檢測(cè)

異常值檢測(cè)的目的是發(fā)現(xiàn)與大部分對(duì)象不同的對(duì)象、通常將異常對(duì)象稱作離群點(diǎn)，異常值檢測(cè)稱為偏差檢測(cè)，異常對(duì)象的屬性值往往模擬關(guān)系偏離期望或常見的屬性值。異常值檢測(cè)可以看作兩個(gè)子問題：在給定的數(shù)據(jù)集合中定義什么樣的數(shù)據(jù)可以被認(rèn)為是不一致的；找到一個(gè)有效的方法來挖掘這樣的異常點(diǎn)。

標(biāo)準(zhǔn)

標(biāo)準(zhǔn)分類

數(shù)據(jù)挖掘標(biāo)準(zhǔn)可分為四大類，分別是：過程標(biāo)準(zhǔn)，定義數(shù)據(jù)挖掘模型產(chǎn)生、使用和部署的過程標(biāo)準(zhǔn)；接口標(biāo)準(zhǔn)，為方便客戶應(yīng)用程序調(diào)用，針對(duì)具體編程語言和系統(tǒng)提供的數(shù)據(jù)挖掘API接口；語言標(biāo)準(zhǔn)，針對(duì)數(shù)據(jù)挖掘問題定義，用于問題描述、知識(shí)發(fā)現(xiàn)和表達(dá)的數(shù)據(jù)挖掘語言標(biāo)準(zhǔn)；網(wǎng)絡(luò)標(biāo)準(zhǔn)，用于解決網(wǎng)絡(luò)上分布式和遠(yuǎn)程數(shù)據(jù)挖掘問題的數(shù)據(jù)挖掘Web標(biāo)準(zhǔn)。

通用標(biāo)準(zhǔn)

跨行業(yè)數(shù)據(jù)挖掘

CRISP-DM（即跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程）是一種業(yè)界認(rèn)可的用于指導(dǎo)數(shù)據(jù)挖掘工作的方法，作為一種方法，它包含項(xiàng)目中各個(gè)典型階段的說明、每個(gè)階段所包含的任務(wù)以及這些任務(wù)之間的關(guān)系的說明；作為一種流程模型，它概述了數(shù)據(jù)挖掘的生命周期，生命周期模型由六個(gè)階段組成，階段之間并不一定要嚴(yán)格遵守順序。

Java數(shù)據(jù)挖掘標(biāo)準(zhǔn)

Oracle、Hyperion、IBM和SUN Microsystems等組織聯(lián)合提出Java數(shù)據(jù)庫挖掘標(biāo)準(zhǔn)JSR-073（Java Specification Requests），又稱JDM，主要概念領(lǐng)域是：設(shè)置、模型、轉(zhuǎn)換和結(jié)果。JDM是為支持?jǐn)?shù)據(jù)挖掘應(yīng)用而開發(fā)的Java接口，支持?jǐn)?shù)據(jù)和元數(shù)據(jù)的創(chuàng)建、存儲(chǔ)、訪問和維護(hù)以及數(shù)據(jù)挖掘模型的創(chuàng)建和使用。JDM主要有應(yīng)用程序編程接口、數(shù)據(jù)挖掘引擎、元數(shù)據(jù)倉庫三個(gè)結(jié)構(gòu)組件，可以與ISO的SQL/MM，以及DMG的PML等標(biāo)準(zhǔn)配合使用。利用JDM，數(shù)據(jù)挖掘服務(wù)的實(shí)現(xiàn)者能夠?qū)我弧?biāo)準(zhǔn)的AIP接口顯露于前端的應(yīng)用程序開發(fā)者或者是Java2平臺(tái)組件的開發(fā)者。

JSR-247更新了JDM規(guī)范，即JDM 2.0。JDM 2.0 擴(kuò)展了 JDM，為新的挖掘函數(shù)、挖掘算法和相應(yīng)的Web服務(wù)規(guī)范提供了所需的功能。JDM 2.0的功能如下：

應(yīng)用領(lǐng)域

數(shù)據(jù)挖掘技術(shù)能夠?qū)崿F(xiàn)數(shù)據(jù)信息收集、系統(tǒng)屬性劃分和層次管理分析等，在醫(yī)學(xué)領(lǐng)域、商業(yè)領(lǐng)域、科學(xué)領(lǐng)域以及農(nóng)業(yè)領(lǐng)域都被廣泛應(yīng)用。

在醫(yī)學(xué)領(lǐng)域的應(yīng)用

數(shù)據(jù)挖掘技術(shù)可以抽取大量臨床數(shù)據(jù)中的趨勢(shì)及規(guī)律性，輔助醫(yī)務(wù)人員快速準(zhǔn)確地診斷、確定最優(yōu)的治療方案。在生物醫(yī)學(xué)中，它可以在脫氧核糖核酸序列間進(jìn)行相似搜索和比較、關(guān)聯(lián)分析識(shí)別同時(shí)出現(xiàn)的基因序列、陸行分析發(fā)現(xiàn)不同的治病基因。在一般醫(yī)學(xué)中，數(shù)據(jù)挖掘技術(shù)大大提高了醫(yī)務(wù)工作者的工作效率，主要應(yīng)用于對(duì)疾病的輔助診斷、相關(guān)因素分析及預(yù)測(cè)等。它還能利用決策樹和網(wǎng)絡(luò)對(duì)醫(yī)學(xué)圖像進(jìn)行特征分析，找到能夠?qū)D像分類的圖像特征臨界值。數(shù)據(jù)挖掘還可以用來開發(fā)藥物，確定藥效基因，縮短新藥的研究開發(fā)周期，降低開發(fā)費(fèi)用。

在商業(yè)領(lǐng)域的應(yīng)用

商業(yè)應(yīng)用數(shù)據(jù)挖掘最廣闊的應(yīng)用，具體應(yīng)用在商品零售業(yè)、商業(yè)保險(xiǎn)業(yè)、商業(yè)金融業(yè)以及通信業(yè)等等。通過分析聚類算法挖掘模型所發(fā)現(xiàn)的模式得出對(duì)顧客分類的結(jié)果，為零售業(yè)銷售公司管理層的營銷策略提供了依據(jù)。應(yīng)用數(shù)據(jù)挖掘技術(shù)，基于用戶行為分析的精準(zhǔn)化營銷在推銷通信增值業(yè)務(wù)的商業(yè)活動(dòng)中可以幫助通信行業(yè)運(yùn)營商把運(yùn)營成本逐漸地降低、增強(qiáng)在通信市場(chǎng)上的競(jìng)爭力。數(shù)據(jù)挖掘技術(shù)基于模型，能夠有效分析金融市場(chǎng)波動(dòng)的主要因素，據(jù)此建立相應(yīng)的預(yù)測(cè)模型，避免市場(chǎng)波動(dòng)帶來的不利影響，為后續(xù)投資及相關(guān)決策提供合理科學(xué)的基礎(chǔ)。

在科學(xué)領(lǐng)域的應(yīng)用

科研機(jī)構(gòu)進(jìn)行科學(xué)研究時(shí)，需要分析大量復(fù)雜的實(shí)驗(yàn)調(diào)查數(shù)據(jù)，數(shù)據(jù)挖掘技術(shù)作為一種具有高層次的智能化的自動(dòng)分析工具，與科學(xué)研究領(lǐng)域的數(shù)據(jù)分析工具需求相一致，促進(jìn)了科學(xué)研究領(lǐng)域的應(yīng)用和發(fā)展。

在農(nóng)業(yè)領(lǐng)域的應(yīng)用

數(shù)據(jù)挖掘通過各種參數(shù)數(shù)據(jù)進(jìn)行處理監(jiān)測(cè)參數(shù)值是否正確，為農(nóng)業(yè)提供氣象信息服務(wù)和可靠的科學(xué)依據(jù)。在農(nóng)業(yè)市場(chǎng)信息中，數(shù)據(jù)挖掘技術(shù)以市場(chǎng)監(jiān)控信息為數(shù)據(jù)庫，以國際貿(mào)易倉庫數(shù)據(jù)為數(shù)據(jù)源，從而提供可信信息。通過關(guān)聯(lián)分析和統(tǒng)計(jì)技術(shù)可用來預(yù)測(cè)產(chǎn)品的價(jià)格走勢(shì)；聚類分析可簡化問題，使得數(shù)據(jù)更簡單；孤立點(diǎn)分析可以找出罕見事件、災(zāi)情、金融事件及進(jìn)出口方面存在的問題，對(duì)農(nóng)業(yè)市場(chǎng)有很強(qiáng)的指導(dǎo)性。

發(fā)展趨勢(shì)

多媒體數(shù)據(jù)發(fā)展

多媒體數(shù)據(jù)是指文字、圖片以及音視頻等數(shù)據(jù)，其在計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域有著非常廣泛的應(yīng)用。相對(duì)于傳統(tǒng)的數(shù)據(jù)信息，多媒體數(shù)據(jù)具有更高的復(fù)雜性和數(shù)據(jù)類型，在實(shí)際處理過程中有更高的難度。對(duì)多媒體數(shù)據(jù)進(jìn)行有效的挖掘能夠進(jìn)一步擴(kuò)大數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍，獲取更多的價(jià)值數(shù)據(jù)。

算法的進(jìn)一步優(yōu)化

算法是數(shù)據(jù)挖掘技術(shù)中的關(guān)鍵，算法的科學(xué)性與合理性直接關(guān)系到數(shù)據(jù)挖掘技術(shù)的應(yīng)用水平。對(duì)算法進(jìn)行優(yōu)化和完善，加強(qiáng)算法的創(chuàng)新，能夠提升數(shù)據(jù)挖掘技術(shù)的效率和準(zhǔn)確性，擴(kuò)大數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍。

與其他系統(tǒng)的集成

人們對(duì)數(shù)據(jù)處理需求的不斷提升，僅僅依靠數(shù)據(jù)挖掘技術(shù)難以實(shí)現(xiàn)預(yù)期的數(shù)據(jù)處理結(jié)果，實(shí)現(xiàn)數(shù)據(jù)挖掘技術(shù)與其它計(jì)算機(jī)系統(tǒng)的集成和配合，能夠更好的滿足對(duì)數(shù)據(jù)處理的需求。同時(shí)，要盡可能的保障數(shù)據(jù)挖掘技術(shù)應(yīng)用的靈活性，才能夠?qū)?shù)據(jù)挖掘技術(shù)的作用充分發(fā)揮。

成功案例

改善客戶信用評(píng)分

數(shù)據(jù)挖掘幫助Credilogros Cía Financiera S.A.公司改善客戶信用評(píng)分。Credilogros Cía Financiera S.A.公司是阿根廷的一家信貸公司，該公司于2006年被gST Group收購，gST公司想要尋找一種新系統(tǒng)來使該公司能更好地管理客戶相關(guān)的潛在風(fēng)險(xiǎn)，以便將承擔(dān)的風(fēng)險(xiǎn)最小化。經(jīng)過評(píng)估多個(gè)產(chǎn)品后，Gredilogros公司選擇了SPSS Inc.的數(shù)據(jù)挖掘軟件PASW Modeler來整合核心信息系統(tǒng)。開發(fā)出了用于具有信貸歷史的客戶和用于新客戶的兩個(gè)評(píng)分模型。

通過實(shí)現(xiàn)PASW Modeler，Gredilogors將用于處理信用數(shù)據(jù)和提供最終信用評(píng)分的時(shí)間縮短到了8秒以內(nèi)，使得該組織能夠迅速批準(zhǔn)或拒絕信貸請(qǐng)求。該決策引擎還使得Gredilogros能夠最小化每個(gè)客戶必須提供的身份證明文檔。

實(shí)時(shí)跟蹤貨箱溫度

數(shù)據(jù)挖掘幫助DHL實(shí)時(shí)跟蹤貨箱溫度。DHL是國際快遞和物流行業(yè)的全球市場(chǎng)領(lǐng)先者，一開始它提供快遞、水陸空三路運(yùn)輸?shù)龋呛髞砻绹鳩DA要求運(yùn)輸過程中藥品裝運(yùn)的溫度要達(dá)標(biāo)，自此DHL的醫(yī)藥客戶強(qiáng)烈要求公司能夠給出一個(gè)更加可靠實(shí)惠的方案。這就要求DHL在遞送的各個(gè)階段都要實(shí)時(shí)跟蹤集裝箱的溫度。

因此，DHL的母公司德國郵政世界網(wǎng)（DPWN）通過技術(shù)與創(chuàng)新管理（TIM）集團(tuán)明確擬定了一個(gè)計(jì)劃，準(zhǔn)備采用RFID技術(shù)在不同時(shí)間點(diǎn)全程跟蹤裝運(yùn)的溫度。通過IBM全球企業(yè)咨詢服務(wù)部繪制決定服務(wù)的關(guān)鍵功能參數(shù)的流程框架。這個(gè)方案使醫(yī)藥客戶對(duì)運(yùn)送過程中出現(xiàn)的裝運(yùn)問題提前做出相應(yīng)，并增強(qiáng)了運(yùn)送可靠性。

幫助理解氣候變化

佐治亞理工學(xué)院地球與大氣科學(xué)學(xué)院教授Annalisa Bracco說，隨著全球數(shù)以百萬計(jì)的數(shù)據(jù)分布在全球范圍內(nèi)，目前的模型過于依賴人類的專業(yè)知識(shí)來理解產(chǎn)出。于是，佐治亞技術(shù)團(tuán)隊(duì)開發(fā)了一種新的方法，這種方法打破了其他模式評(píng)估和分析算法的典型瓶頸。從比傳統(tǒng)工具更獨(dú)立的氣候數(shù)據(jù)集中數(shù)據(jù)挖掘，將數(shù)據(jù)集的共性與用戶的專用知識(shí)相結(jié)合，從而使科學(xué)家能夠信任數(shù)據(jù)，并獲得更可靠、更透明的結(jié)果。

必威电竞|足球世界杯竞猜平台