機器學習(英文名:Machine Learning,簡稱:ML)是一門多領域的交叉學科,涉及概率論、統計學、微積分、代數、算法復雜度理論等學科門類。機器學習是用來實現人工智慧的主要方法,通過讓機器通過學習數據中的內在規律性信息,獲得新的經驗和知識,以提高改善系統自身的性能,使計算機能夠像人那樣去決策。
機器學習的本質在于利用合適的特征和正確的方法來構建特定模型,以完成特定任務。根據預期的輸出和輸入類型,機器學習算法可以分為多個學習風格,例如有監督學習、無監督學習、半監督學習、強化學習、元學習等。而根據構建原理的不同,機器學習模型可以分為幾何模型、概率模型和邏輯模型三個基本類別。幾何模型是通過數學和幾何方法來理解和描述機器學習算法中數據的特征、模式和關系。支持向量機、K均值聚類等算法就屬于幾何模型。概率模型是一種用于建模和預測數據的方法,它基于概率理論和統計學原理。典型的概率模型包括樸素貝葉斯模型、隱馬爾可夫模型等。邏輯模型是機器學習中基于特定推理方法的模型,例如決策樹、關聯規則挖掘和人工神經網絡,它們是最常見的邏輯模型。機器學習致力于通過選擇合適的學習方法和構建適當的模型來解決具體問題,以實現預測、分類、聚類等特定任務。
隨著互聯網的迅速發展,機器學習已經廣泛應用于各個行業,包括制造業、醫療保健和生命科學、金融服務、零售及媒體與娛樂等領域。
定義
機器學習是人工智能的核心方法,通過分析數據中的隱藏規律,從中獲取新的經驗和知識,并以此來不斷提升和改善系統的性能。這使得計算機能夠像人一樣根據所學到的知識來做出決策。湯姆·米切爾(Tom M. Mitchell )在其1997年出版的著作機器學習(Machine Learning)中給出了一個更為形式化的定義:“假設用P來評估一個計算機程序在某個特定任務T上的表現。如果一個程序通過利用經驗E來提升在任務T上的性能,那么就可以說這個程序正在對經驗E進行學習。”
歷史沿革
一些人認為機器學習的起源可以追溯到早期數學領域的研究,比如貝葉斯定理和最小二乘法;同時也有人認為艾倫·麥席森·圖靈(Alan Mathison Turing)的《Computing Machinery and Intelligence》論文對機器學習的發展產生了重要影響。
貝葉斯定理,亦稱貝葉斯公式或貝葉斯規則,是由英國數學家托馬斯·貝葉斯(Thomas Bayes)在18世紀提出的概率統計方法。該定理用于修正先驗概率,并基于觀察到的現象進行概率分布的推斷。在機器學習的分類問題中,貝葉斯定理主要用于預測樣本的類別標簽選擇,利用訓練樣本集中已知的先驗概率和條件概率進行計算,選取最大概率的類別標簽作為預測結果。貝葉斯定理在分類任務中表現良好且廣泛應用。在實際應用中,先驗概率并非總是已知的,因此需要使用各種方法計算先驗概率。例如,樸素貝葉斯方法中常常假設所有類別的先驗概率相等。另一方面,最小二乘法最初被稱為回歸分析法,由英國統計學家約翰·道爾頓(John Dalton)在1806年創立。最小二乘法是一種在誤差估計、不確定度、系統辨識、預測和預報等數據處理領域廣泛應用的數學工具。由于其回歸模型的特性,它后來被應用于機器學習的邏輯模型中。因此,有人認為機器學習源于早期對數學問題的研究。
在1950年,艾倫·麥席森·圖靈(Alan Mathison Turing)提出了圖靈測試來判斷計算機是否具有智能。這個測試為人工智能和機器學習的發展提供了重要的理論基礎。隨后的一年,馬文·明斯基(Marvin Minsky)發明了第一臺神經網絡機SNARC,這標志著神經網絡的進一步發展。1957年,康奈爾大學的教授羅森布拉特(Rosenblatt)提出了一種簡單的前向人工神經網絡——感知器。感知器開創了有監督學習的先河,其最大特點是能夠通過迭代試錯來解決二元線性分類問題。這一特性彌補了無監督學習在處理大量有標簽分類問題時的局限性。同時,感知器的提出也引發了相關的求解算法的研究,包括感知器學習法、梯度下降法和最小二乘法(Delta學習規則)等。
1967年Cover和 Hart提出了KNN算法,該算法是數據挖掘中最常用和最簡單的算法之一。KNN代表k-Nearest Neighbor,即k近鄰算法。k近鄰的意思是每個樣本可以用其k個最近鄰居來代表。KNN算法通過測量不同樣本特征之間的距離,并進行迭代,根據測試數據的特征與訓練集中相應特征的比較,找到訓練集中與之最為相似的前k個數據。然后,通過統計這k個數據中出現次數最多的分類,將其作為測試數據的類別。KNN算法可以用于回歸和分類任務。在分類任務中,KNN算法將測試集分配給最近的k個鄰居中出現最頻繁的類別。而在回歸模型中,KNN算法采用最近k個鄰居的平均值作為預測結果。
1969年,馬文·明斯基(Marvin Minsky)和西摩·帕特(Seymour Papert)開始研究線性不可分問題,并出版了《Perceptron》一書。盡管XOR問題對感知器研究帶來了困難,但他們的研究對解決問題的算法能力和計算復雜性提出了重要觀點。此外,Minsky還結合了人工智能和機器人技術,開發了名為RobotC的機器人,從而推動了機器人技術的發展。
1982年,薩拉塔·薩塔西瓦姆(Saratha Sathasivam)首次提出了Hopfield網絡,這可看作循環神經網絡(Recurrent Neural Network,RNN)的起源。RNN是一種特殊的神經網絡結構,用于處理序列數據,其節點(循環單元)以鏈式連接的方式進行遞歸。該網絡的設計概念基于“人類的認知依賴于過去的經驗與記憶”的觀點。相較于只考慮當前輸入的神經網絡,RNN考慮到了前一時刻的輸入,并賦予網絡一種“記憶”的能力,使得當前輸出與之前輸出密切相關。RNN具備記憶性、參數共享和圖靈完備(Turing Completeness)的特點,在學習序列的非線性特征時有一定優勢。該網絡在自然語言處理(Natural Language Processing, NLP)領域,如語音識別、語言建模和機器翻譯等方面廣泛應用,同時也被用于各種時間序列預測任務。將卷積神經網絡結構引入循環神經網絡可以解決包含序列輸入的計算機視覺問題。
1984年,日本學者福島邦彥(Kunihiko Fukushima)首次提出了神經認知機(neocognitron)的概念,這可以被視為卷積神經網絡的首個實際應用,并且也是感受野概念在人工神經網絡領域的首次運用。神經認知機將視覺模式分解為多個子模式(特征),并通過多層連接的特征平面進行處理。其目標是模擬視覺系統,以便在物體出現位移或輕微變形的情況下仍能進行準確識別。
1986年,米切爾(Mitchell)、凱勒(Keller)和凱達卡貝利(Kedarcabelli)提出了基于解釋的概括化(Explanation-Based Generalization)的統一框架。這一方法將基于解釋的學習過程分為兩步:首先,通過解決一個具體問題來生成解釋結構;其次,對該解釋結構進行概括化,以獲取普遍的控制規則。該方法通過利用單個問題的解決案例,根據領域知識構建問題求解過程的因果解釋結構,并獲取控制知識,以便指導未來解決類似問題。基于解釋的學習本質上屬于演繹學習,它根據給定的領域知識進行準確的演繹推理,存儲有用的結論,并經過知識的精煉和編輯,產生適用于以后解決類似問題的控制知識。
在1987年,羅森伯格(Sejnowski)與羅森堡(Rosenberg)合作開發了一款名為NETtalk的基于神經網絡的程序。這個程序具備字母識別和語音合成的功能,可以將輸入的字母轉換為相應的音素并進行朗讀。NETtalk由數百個神經元和數千個連接組成,通過加權連接輸入和輸出神經元的隱藏神經元來實現字母到音素的轉換。經過多次試驗,這個程序的朗讀效果非常理想,并且字母發音的準確率接近92%。
1989年,美國貝爾實驗室的學者楊立昆(Yann LeCun)教授提出了廣受歡迎的卷積神經網絡(CNN)計算模型。他推導出了一種基于反向傳播(BP)算法的高效訓練方法,并成功地將其應用于英文手寫體的識別。CNN被證明是第一個成功訓練的人工神經網絡,也是后來深度學習領域最成功且應用最廣泛的模型之一。
1995年,弗洛伊德(Freund)和夏皮雷(Schapire)共同開發了AdaBoost算法。該算法無需先驗知識,并且與Boosting算法具有相同的效果。與此同時,Vapnik和Cortes提出了支持向量機,將機器學習分為神經網絡和支持向量機兩個主要領域。支持向量機在解決多個任務方面表現出出色的效果,并利用先驗知識進行凸優化選擇。
1996年,利奧·布雷曼(Leo Breiman)提出了一種名為Bagging的集成學習算法,該算法基于聚合和自助采樣的概念。其核心思想是通過重復抽樣來構建多個模型。隨后,于2001年,Breiman進一步提出了集成決策樹模型,該模型能夠組合多個決策樹。每棵決策樹都是由實例的隨機子集構建而成,且每個節點都來源于一個隨機子集的參數。因此,該模型被稱為隨機森林(random forests,RF)。研究理論和實證都證明了RF對于過度擬合具有較強的抵抗力。當面臨過度擬合和數據中的異常實例時,傳統的AdaBoost算法面臨一定挑戰,而RF則能夠更有效地應對這類問題。
LSTM是一種深度學習模型,于1997年被提出。其核心思想在于長時間之前的信息對于當前任務可能具有重要意義,因此需要被保留下來。然而,傳統神經網絡的記憶是有限的,就像杯子裝滿了水會溢出一樣。為了記住過去的重要信息,LSTM會進一步判斷新信息的重要性。對于重要的信息,LSTM會將其存入長期記憶中,持久地保留下來;而對于不重要的信息,則屬于短期記憶,很快就會被丟棄。
2006年,計算機硬件技術的突飛猛進引發了學術界和產業界對于更高級的學習模型的迫切需求。此背景下,杰弗里·辛頓(Geoffrey Hinton)和魯斯蘭·薩拉胡迪諾夫(Ruslan Salakhutdinov)提出了一種新的模型,名為深度學習,重新引領了“連接主義學習”的發展潮流。他們的主要觀點是,通過多個隱藏層的人工神經網絡,可以顯著提高特征學習的能力。另外,通過逐層初始化來簡化訓練過程,從而實現整個網絡的優化。這一模型的誕生標志著深度神經網絡機器學習的新紀元的到來。Hinton的學生Yann LeCun發展了LeNets深度學習網絡,并廣泛應用于全球的ATM機和銀行系統中。同時,除了LeCun之外,吳恩達等學者還認為卷積神經網絡之所以可以高效訓練人工神經網絡,是因為其內存占用較小,不需要為每個圖像位置單獨存儲濾鏡,因此非常適合構建可擴展的深度學習網絡,特別適用于模式識別任務。
2012年,杰弗里·辛頓(Geoffrey Hinton)的研究團隊在ImageNet比賽中獲得冠軍,標志著深度學習進入應用階段。近年來,深度學習在多個領域取得了顯著進展,如谷歌翻譯、蘋果公司的Siri、微軟的Cortana以及螞蟻集團的SmiletoPay掃臉技術。貝葉斯定理和深度學習都是機器學習領域的重要組成部分,它們的發展為人工智能的進步奠定了基礎。
類型
監督學習
監督學習(supervised learning)是一種機器學習方法,通過已有的訓練樣本來訓練一個最優模型,該模型能將所有的輸入映射為相應的輸出。訓練樣本包括有限個特征值和輸出標簽。當模型結果為連續值時,屬于回歸問題;當模型結果是離散值時,則屬于分類問題。監督學習的本質是學習已知樣本數據中的規律,并利用這些規律來預測新樣本的輸出結果。監督學習的優點在于設計簡單易行,特別適用于預測可能的有限結果集、將數據劃分為類別,或者組合其他機器學習算法的結果。在監督學習中,預測結果可以是連續值或離散值,根據這些屬性將監督學習問題分為回歸(regression)問題和分類(classification)問題。樸素貝葉斯、決策樹等都是監督學習的應用算法。
回歸問題
回歸問題的目標是根據輸入的樣本特征值預測輸出結果。例如,在房價預測問題中,根據給定房屋的面積等特征來預測該房屋的價格。在這個問題中,房屋的面積、地理位置等特征是輸入值,而房屋的價格是輸出結果。為了完成房價預測,就需要收集大量的房產數據,每條數據都包含房屋的特征值(如面積)以及對應的價格。通過這些訓練數據,就可以依照房屋的特征值來預測房屋的價格,這是一個典型的監督學習問題。
分類問題
分類問題的訓練目標是對樣本進行分類。例如醫療機構收集了乳腺癌相關的醫學數據,包括腫瘤大小和腫瘤的良性或惡性類別。這個問題的訓練目標是根據腫瘤的大小來預測其分類,其中良性腫瘤被標記為0,惡性腫瘤標記為1。由于預測結果是離散值,因此這是一個分類問題。在其他分類問題中,離散值可能會有多個類別選項,例如在這個例子中可以設定{0,1,2,3}四種輸出,分別表示{良性,第一類腫瘤,第二類腫瘤,第三類腫瘤}。
半監督學習
半監督學習方法介于監督學習和無監督學習之間,既利用大量未標記數據進行無監督學習,又使用少量預先標記的數據進行有監督學習。這些方法包括生成方法、基于圖的方法和基于啟發式的方法。一種簡單的方法是使用有限的標記數據建立監督模型,然后將相同方法應用于大量未標記數據,以獲得更多標記樣本,并在這些樣本上訓練模型,反復迭代這個過程。另一種方法是使用無監督算法對相似的數據樣本進行聚類,手動對這些群組進行注釋或標記,然后將這些信息組合在未來使用。這種方法在許多圖像標記系統中廣泛應用。具體應用算法包括生成模型算法、協同訓練(Co-Training)算法等。
生成式模型算法
這種類型的算法是基于聚類假設的,它利用生成式模型作為分類器。該算法通過對樣本的標簽和輸入特征之間的條件概率進行建模,使用期望最大化(EM)算法來進行標簽和模型參數的估計。與建模和求解邊緣概率或聯合概率不同,半監督學習的思路是直接關注于條件概率問題,從而回避了這一復雜性。這類算法可以被視為在少量標簽樣本周圍進行聚類的方法,類似于O.Chapelle等人提出的基于核的半監督學習方法。
協同訓練(Co-Training)算法
通過在不同視角下的數據集上進行學習,利用兩個或多個學習器之間的交互來提升分類器的準確性。在這個過程中,未標記的樣本會逐步被標記,然后選取置信度最高的樣本添加到訓練集中,并反復進行該步驟,直到所有未標記的樣本都被標記完畢,從而使得模型得以更新。
無監督學習
無監督特征學習(unsupervised feature learning),也稱為無監督學習,是通過分析無標簽訓練數據來發現有用的特征或表示。這種技術經常被用于降低數據維度、數據可視化以及在監督學習之前對數據進行預處理等任務。當監督學習任務的標注數據較少時,可以利用大規模的無標注數據學習到有效的數據表示,從而有效地提高監督學習性能。主要的無監督學習方法包括主成分分析和稀疏編碼等。Apriori算法和FP-Growth算法等是無監督學習在實際應用中的算法示例。
主成分分析
主成分分析(Principal Component Analysis, PCA)是一種常用的數據降維方法。它通過優化投影后數據的方差,將數據映射到一個新的空間中。當我們將數據投影到一維空間時,選擇投影方向使得數據方差最大化,可以最大程度地保留原始數據的差異性,并且保留更多的原始數據信息。
稀疏編碼
稀疏編碼(sparse coding)是一種模型,受到動物視覺系統中簡單細胞感受野的啟發而建立。在哺乳動物的初級視覺皮層中,每個神經元僅對特定刺激信號做出響應,例如特定方向的邊緣、條紋等特征,這可以被描述為具有空間局部性、方向性和帶通性的局部感受野(即對不同尺度下空間結構的敏感性)。因此,稀疏編碼通過僅激活一小部分神經元,對外界信息進行編碼,使得視覺神經系統在表示外界刺激時具有高度的稀疏性。這種編碼方式符合生物學的低能耗特性。
密度估計
密度估計是基于一組訓練樣本來估計樣本空間的概率密度函數。根據實現方式的不同,可以將密度估計分為參數密度估計和非參數密度估計兩種方法。參數密度估計假設數據服從已知概率密度函數(例如正態分布),然后根據訓練樣本來估計概率密度函數的參數。相比之下,非參數密度估計不對數據的分布做任何先驗假設,而是僅利用訓練樣本來估計密度函數,并且可以適用于任意形狀的密度函數。常用的非參數密度估計方法包括直方圖和核密度估計等。
聚類
聚類是一種無監督學習方法,它通過一定的規則將一組樣本劃分到不同的群組(也稱為簇)。一個常用的規則是確保同一簇內的樣本之間的相似性高于不同簇之間的相似性。常見的聚類算法包括K-Means算法、譜聚類等。與監督學習相似,無監督學習也有三個基本要素:模型、學習準則和優化算法。無監督學習的準則有很多,例如最大似然估計、最小化重構錯誤等。在無監督特征學習中,常用的準則是最小化重構錯誤,并且通常會對特征施加一些約束,比如獨立性、非負性或稀疏性等。在密度估計中,常常使用最大似然估計進行學習。
Apriori 算法
Apriori算法是由Agrawal等學者在1993年提出的一種數據挖掘算法。該算法通過采用逐層搜索的策略,提高了尋找頻繁項集的效率。該算法的第一步是尋找頻繁項集,其基本思路是利用迭代的層次搜索算法,逐個判斷k-項集是否為頻繁k-項集。第二步是根據頻繁項集生成強關聯規則。
FP-Growth算法
Apriori算法在挖掘頻繁項集時需要多次掃描數據庫,導致算法效率較低。為了解決這個問題,JiaweiHan于2000年提出了FP-Growth算法。FP-Growth算法是在Apriori算法的基礎上引入了高級的數據結構,在尋找頻繁項集的過程中只需要對數據庫進行兩次掃描,極大地減少了掃描次數,有效提高了算法的效率。不過需要注意的是,FP-Growth算法只適用于挖掘單維的布爾關聯規則。
強化學習
強化學習(Reinforcement Learning,RL)是一種機器學習的方法,通過智能體與環境的交互,學習如何制定策略以最大化回報或達到特定目標。在強化學習中,智能體通過獎賞機制進行自我學習。系統根據智能體與環境的互動表現,給予獎勵或懲罰。通過這個學習過程,智能體努力獲取更多的獎勵并避免受到懲罰。強化學習能夠使訓練模型通過完全自主學習的方式掌握某種技能,使其能夠在特定場景下做出最優的決策。強化學習類似于培養孩子掌握某種技能的過程,根據模型的決策結果給予獎勵或懲罰,直到完全掌握該技能,這在算法層面意味著算法已經收斂。強化學習模型由智能體(Agent)、動作(Action)、狀態(State)、獎勵(Reward)和環境(Environment)組成。在完成某個任務時,智能體首先與環境進行交互,產生新的狀態,并且環境會給予獎勵,在此過程中,智能體和環境不斷交互生成更多的數據。強化學習算法通過一系列動作策略與環境的交互,生成新的數據,并利用這些新數據來修改自身的動作策略。經過多次迭代,智能體將學習到完成任務所需的最優動作策略。
智能體:智能體的結構可以是簡單的算法,或者是神經網絡算法。智能體的輸入通常是狀態,輸出通常是策略。
動作:也稱動作空間。例如游戲手柄,上、下、左、右四個方向可移動,那么Actions 就是上、下、左、右。
狀態:指強化學習模型的當前局面狀態。
獎勵:進入某個狀態時,能帶來正獎勵或者負獎勵。
環境:接收Action,返回State 和 Reward。
元學習
元學習(Meta-Learning)是一種機器學習的方法,旨在使機器學習算法能夠自動學習學習的策略。換句話說,元學習的關注點是學習算法本身的學習過程,而不僅限于特定任務或數據集。通過從已有任務中學習學習方法或元知識,元學習的目標是加速新任務的學習過程。從這個角度來看,元學習與歸納遷移學習有一定的相似之處,但元學習更加側重于從多個不同(甚至是不相關)的任務中歸納出一種學習方法。
遷移學習
遷移學習是一種將已有知識從一個問題領域遷移到另一個問題領域的學習方法。它通過分析數據、任務和模型之間的相似性,將在一個領域中獲取的知識應用到另一個領域的問題中。遷移學習是機器學習中重要的模型之一,它專注于挖掘已有數據中的相關知識,并將其應用于新的問題上。以網頁文檔分類為例,該任務旨在將給定的網頁文檔分類到事先定義的幾個類別中。在網頁文檔中,標記的樣本可能是通過手動標注與各類別相關的大學網頁獲得的。對于新的網站分類任務,數據特征或數據分布可能不同,導致缺乏標記的訓練樣本。因此,直接將之前學習到的大學網頁分類器應用于新的網站可能會遇到問題。在這種情況下,如果能夠將已有的分類知識遷移到新的領域問題中,將會對解決新問題提供很大幫助。
特征學習
特征學習是指機器學習模型通過自動學習數據中最關鍵的特征或屬性。它是一種自動化的特征提取方法,幫助機器學習模型更好地理解數據并做出準確的預測。
集成學習
在面對具體問題時,需要因地制宜地調整傳統方法,并依據特定的規律,融合各類常見的機器學習算法,以提升研究結果的精確度。當需要將多類或多種學習器結合,這種技術被稱為集成學習。
集成學習最初廣泛應用于分類問題,后來擴展到求解回歸和聚類問題。這種學習方式采用群體學習器來補償誤差、增強泛化能力,具有魯棒性。然而,不同子學習器的設計復雜性和解的可靠性存在矛盾,通常通過改變子學習器參數和融合權數來解決。進化方法如遺傳算法、粒子群和差分進化算法也具有廣泛適用性、高魯棒性和全局優化特性。
機器學習基本模型
按照構建原理的不同,機器學習模型可分為幾何模型、概率模型和邏輯模型三個基本的大類。
幾何模型
機器學習的幾何模型是指通過數學和幾何的方法來理解和描述機器學習算法中數據的特征、模式和關系。在機器學習的特定任務中,首先需要抽取樣本實例的特征。每個樣本可以被視為特征空間中的一個向量,其每個特征分量都有特定的取值。以二維平面上的點為例,橫坐標x1和縱坐標x2可以表示一個具體的樣本。在這個例子中,每個點可以用一個向量(x1,x2)T表示,稱為特征向量。為了在研究樣本的特征時進行度量和運算,如加法定律、數乘定律、點積操作、距離計算等,就需要將樣本集的特征集合拓展到定義在數域上的特征空間。在笛卡爾坐標系中,通過以點集展示具有幾何特征的分布。舉個例子,圓周上的點以圓心為中心呈環形分布。除了這些平面上的點集,還應考慮到,無論是哪個空間,其特征通常都具有一定的幾何結構。如果只考慮數值型的特征,那么每一個樣本都可以被視作是笛卡爾坐標系中的一個點。比如在研究腫瘤患者的數據時,發現腫瘤的惡性概率與患者的年齡和腫瘤尺寸有著密切的關系。這時便可以用一個以年齡和腫瘤尺寸為坐標軸的平面上的點來表示一個樣本。幾何特征,如直線、曲線、平面、距離等,有助于區分樣本的分布特征。利用幾何特征構建的機器學習模型,被稱為幾何模型。幾何模型主要包括支持向量機、K均值聚類等。
支持向量機
支持向量機算法是監督學習模型中的一種,它以統計學習理論為基礎,并基于VC(Vapnik-Cher-vonenkis)維理論和結構風險最小原理。該算法利用有限的數據信息,在模型復雜度和能力范圍內進行,以實現最佳的決策過程。
支持向量機(SVM)可用于解決受約束的二次型規劃問題,這些問題可采用標準方法進行解決。訓練算法包括塊算法、分解算法和增量算法。新型的支持向量機有粒度支持向量機、模糊支持向量機、孿生支持向量機和排序支持向量機。SVM可有效地解決線性可分問題,通過優化計算實現分類間隔。當處理非線性問題時,它會引用相應的核函數,將輸入空間映射到高維空間結構,從而使原來的不確定性問題變為線性可分問題,達到有效區分樣本的目的。SVM的核心內容包括兩個方面:一方面是研究線性可分解的情況;另一方面是利用非線性變換的算法完成采樣之間的轉換,從一個低維的輸入空間轉換到高的維度,從而達到一個線性的可分解。然后,基于最優結構的風險最少原理,在屬性空間內建立最優的劃分面,從而達到整體的最優。SVM方法具有較好的基礎支持,能夠確保所發現的所有確界值都為全局最優預測解而不是在部分最低位上。這也就確定了SVM方法對未知數據具有很強的泛化功能。正是由于上述特性,SVM能夠良好地應用于模式識別、概率密度函數預測、時間序列預測、回歸估計等方面,并被廣泛應用于模式識別領域的諸多應用領域,如手寫數據辨識、文字分析、圖形分類和辨識等。
K-Means算法
K-Means算法是一種聚類分析技術,它可以有效地提取數據集中的特征,并具有無監督學習的特點。該算法能夠將相似的數據歸為一類,不相似的數據歸為另一類,以方便后續的分析和處理。K均值算法使用歐式距離來衡量數據之間的相似性和差異性,相似度越高,距離越短;反之,差異度越大。該算法在運行時需要預先設定聚類的數量k和k個初始聚類中心。通過不斷更新數據對象與聚類中心之間的相似度,該算法會不斷調整聚類中心的位置,以降低類簇中數據對象的平方誤差和。直到算法達到穩定狀態或目標函數收斂時,最終得到的結果即為聚類結果。
概率模型
機器學習的概率模型是用于建模和預測數據的一種方法,它基于概率理論和統計學原理。概率模型(probabilistic model)是通過計算變量的概率分布來簡化學習任務。這些變量可能包括觀察變量(observable variable)和隱藏變量(latentvariable)。在這個框架中,分類問題通常被分為兩個階段:推斷(inference)和決策(decision)。推斷是指通過觀察變量來推測未知變量的條件分布,而決策則是在給定概率的情況下,根據類別的可能取值進行判斷。
概率模型可以分為生成式概率模型和判別式概率模型。通過建立后驗概率模型來預測分類結果的方法稱為判別式概率模型。一些典型的判別式概率模型包括感知器、決策樹、K近鄰法、邏輯回歸模型、最大模型、支持向量機、提升法和條件隨機場等。這些方法從訓練數據中直接學習決策函數或后驗概率作為預測模型,即所謂的判別模型。在決策階段,貝葉斯決策理論被用來對新的輸入進行分類。另一方面,對聯合概率分布進行建模以得到后驗概率的方法稱為生成式概率模型。一些典型的生成式概率模型包括樸素模型和隱馬爾可夫模型。在這些模型中,可以直接對聯合概率分布進行建模并歸一化得到后驗概率。在決策階段,可以利用后驗概率來確定每個新輸入的類別。
樸素貝葉斯分類器
樸素貝葉斯分類器(Naive Bayes Classifier)是一種基于貝葉斯定理的監督學習算法。它被稱為“樸素”,是因為它假設各個特征之間相互獨立,不會互相影響。樸素貝葉斯分類器的模型構建簡單,不需要復雜的迭代運算進行參數估計,因此特別適用于處理大規模的數據集。利用貝葉斯公式計算樣本的后驗概率,即屬于某一個類別的概率,然后選擇具有最大后驗概率的類別作為樣本的類別。若已知P(C)、P(A)和P(AIC),求后驗概率P(CIA)的貝葉斯公式為P(CIA)=。
隱馬爾可夫模型
在深度神經網絡之前,隱馬爾可夫模型(Hidden Markov Model,HMM)是常用的方法。自然語言是序列數據,與圖像、向量和矩陣有著重要的區別。我們不能假設語句具有固定的長度,因此自然語言模型必須能夠處理長度不確定的序列。隱馬爾可夫模型能夠描述任意長度的狀態轉移序列,因此我們可以使用它來處理語言。隱馬爾可夫模型是一種馬爾可夫鏈,其狀態無法直接觀察,但可以通過觀測向量序列來觀察到。每個觀測向量都是由某些概率密度分布表示的不同狀態產生的,每個觀測向量都是由相應概率密度分布的狀態序列生成的。因此,隱馬爾可夫模型是一個雙重隨機過程。簡而言之,隱馬爾可夫模型由一組有限的狀態組成,其中除了終止狀態外,每個狀態都可以以一定的概率轉移到其他狀態,并在轉移時產生輸出。可以產生的輸出也是有限的,并且輸出的產生也是以一定的概率發生的。
邏輯模型
邏輯模型是機器學習中基于特定推理方法的模型,如決策樹和關聯規則挖掘、人工神經網絡等。與人工神經網絡等難以解釋的模型相比,邏輯模型使用的推理規則更容易對應到人們可以理解的規則。
決策樹
決策樹(decision tree)是一種重要的分類和回歸方法。在分類問題中,決策樹表示基于特征對實例進行分類的過程,可以被視為一系列的if-then規則的集合,也可以被視為定義在特征空間和類別空間上的條件概率分布。這種規則能夠輕易地用樹形結構來表示,如圖決策樹所示。在部分文獻中,決策樹中的特征也被稱為屬性。
決策樹是一種以葉子結點被標記為類別的特征樹,其非葉子結點表示對一個特征分量的測試,該結點的分支代表可能的測試結果。每個非葉子結點可以有兩個分支(二叉樹)或多分支。葉子結點則代表一個分類。當樣本按照決策樹的規則被分配到葉子結點時,樣本的分類就確定為該葉子結點對應的分類。
在決策過程中,小明會考慮兩個天氣特征:“是否晴天”和“是否刮風”。根據這些特征的取值,他從決策樹的根結點開始,經過一系列的測試結點,最終到達一個葉子結點,從而確定當天是外出游玩還是宅在家中。
決策樹算法通常包括訓練和測試兩個階段。在訓練階段,算法會使用一定的規則將訓練樣本集分割為幾個子集,然后再使用相同的規則對每個子集進行分割。這個過程會一直遞歸下去,直到每個子集中只包含屬于同一類別的樣本為止。在測試階段,算法會將測試樣本從根結點開始進行判別,根據樣本的特征值將其分配到相應的葉子結點。如果樣本無法被分配到葉子結點,則算法會遞歸地執行判別過程,直到樣本被正確分配為止。
關聯規則挖掘
關聯規則挖掘是一種強大的數據分析工具,可以幫助使用者發現數據之間的隱藏關系和規則。通過對大量數據的挖掘和分析,可以揭示出一些看似無關的數據之間的關聯性,從而為使用者提供新的視角和洞察力。“尿布和啤酒”是一個廣為人知的關聯規則挖掘的經典案例。在這個案例中,數據來自于一個大型超市的交易記錄。通過分析這些交易記錄,研究人員發現了一個有趣的現象:很多顧客在購買尿布的同時也會購買啤酒。進一步的分析表明,這種現象并非偶然,而是有一定規律可循。比如,年輕的父親在購買尿布時,往往也會購買啤酒。這個發現揭示了尿布和啤酒之間的關聯性,也為銷售商提供了一種新的營銷策略:將尿布和啤酒放在一起銷售,方便顧客購買。
人工神經網絡
神經網絡,模擬人腦構造設計的算法,能識別模式;認知技術解析信息,完成對原始信息的識別或聚類;一切所能確定的信息都是數據形式,可將圖、聲、形、時序,乃至全真實世界的信息轉成數據形式;神經網絡是復雜的計算模式,由許多神經元組成,神經元間相互聯系;每個神經元代表一種特定的信息,能解決復雜問題;每個節點代表一種特定的輸出函數,稱為激勵函數;節點之間的連接給出一個權重值,代表相互間的關系;權重值、連接和激勵參數影響網絡系統的輸入輸出模式,從而影響最終結果。
機器學習算法的主要方式
數據并行算法
由于數據處理算法無法滿足的需求,其原因在于機器學習算法難以處理數據,單臺數據處理設備難以獨立完成大數據處理。為滿足大數據處理需求,需要聯合各數據處理機構,實施平行化運行,方可實現大數據的整體處理。這是因為任何機器學習算法都無法實現平行運算。單臺數據處理設備無法單獨處理海量數據,必須將不同的數據處理器連接起來,使之能夠實施平行運行,以實現全面分析海量數據。其核心理念是將海量資料“碎片化”,分解為各種不同數據,交由進行簡單分析,從而獲得完整信息。例如,在圖像分析系統中,采用基于平行計算的算法,可以極大減輕各種數據的工作負擔,提高計算效率。將聚類算法和分治算法結合起來,可以使的運算更加簡潔、簡單,同時提高機器學習的精度。
聚類算法
聚類算法是數據挖掘與處理的得力助手,尤其適用于大規模數據。首先,利用聚類算法對大量數據進行分類,并形成多個子節點。此時,通過機器學習,能更有效地處理各節點數據。聚類算法在機器學習中的應用可分為三類:1. 使用不重復資料進行擴展,采用FCM的平均聚類算法,對不同樣本進行聚類,實現數據的快速、精確分治;2. 系列子集技術;3. 平均采樣估算算法。這三種算法都能有效處理。
分治算法
在大數據的深度解析中,分治算法的優秀性能得以展現,可應用于并行和分布式計算。通過大數據進行機器學習,由于各樣本間的數據存在差異,計算量因此增加,限制了機器學習的速度,提升了數據的精準度。利用參考分治法,預處理原始數據,剔除冗余和無效信息,提升原始數據的質量。此算法下,機器學習的對象清晰可見,降低了學習難度,幫助電腦做出正確判斷。在挑選數據集時,通常采用縮減和縮小的鄰近算法,以最少的數據實現優化。此時,電腦檢索的數據可代表整體數據,科學性較高,為決策提供參考。在引入分治算法前,必須有足夠的可信度,在一定范圍內進行數據篩選和剔除,減少樣本誤差,提高數據的準確性。
機器學習的軟硬件
硬件方面
CPU在機器學習中的主要作用是處理序列化任務,即逐個處理一連串的任務,這包括數據準備、模型訓練和驗證等。CPU擁有較強的通用計算能力,能夠處理各種任務和操作系統。早期的機器學習通常運行在單個節點上,其主要流程是不斷迭代兩種類型的操作,一種是梯度計算操作,另外一種是誤差的聚合操作。以分布式機器學習為例,在初期時,主要采用CPU 集群來進行,針對一批訓練數據,計算框架把數據分成很多個片段,然后根據集群節點上 CPU 的數量,將每一個片段作為一個單獨的任務分配到計算節點的不同CPU上,進行局部梯度計算。當所有的任務完成計算后,參數服務器收集各個任務的梯度誤差進行匯總,然后發送新的參數用于下一次迭代。GPU在機器學習中的作用是加速并行計算。GPU代表圖形處理單元,其最初目的是用于游戲中每秒顯示更多幀以獲得更好的游戲分辨率,這也使得GPU能夠同時處理大規模數據和復雜的計算。深度學習網絡對前向傳遞和反向傳播過程使用大量矩陣乘法,尤其是卷積。CPU擅長矩陣到矩陣的乘法;因此,利用數千個GPU核心來并行處理數據。這加速了深度學習的訓練。例如2012年,來自多倫多大學的Krizhevsky,Sutskever和Hinton就地結合了幾個現有概念,即卷積神經網絡(Convolutional Neural Networks,CNN)和最大池化(Max Pooling),并添加了修正線性單元(Rectified Linear Units,ReLUs),在GPU快速運算力的支持下,構造了具有多“層”結構的神經網絡。這些額外添加的網絡層也導致了“深度學習”這一術語形成。在機器學習過程中,CPU和GPU派上了不同用場。GPU用于訓練大型深度學習模型,而CPU則有利于數據準備、特征爬取和小型模型訓練。兩者相輔相成,共同支持機器學習的運行和發展。
軟件方面
在軟件領域,機器學習的應用非常廣泛。它可以用于數據分析、預測建模、自然語言處理、圖像識別、推薦系統等各個方面。許多軟件套件都集成了機器學習算法,使開發人員能夠快速構建和部署機器學習模型。此外,開源軟件如Scikit-learn、TensorFlow等提供了豐富的機器學習工具。商業化的軟件套件如IBM Watson、Microsoft Azure Machine Learning、谷歌 Cloud AI Platform等則提供了更加全面的機器學習解決方案,包括自動化建模、模型監控與管理、部署與推理等功能,幫助企業更好地應用機器學習技術。
機器學習的局限性
傳統的機器學習算法往往是淺層結構算法,它們在處理復雜函數問題時在樣本較少的情況下能力較弱,并且在對復雜分類問題的泛化能力上有一定的局限性。盡管這些淺層學習算法在簡單計算過程中非常有效,并在廣泛的應用中被廣泛使用,但對于復雜的函數處理卻無法達到人腦信息處理的能力。相反,深度學習算法通過學習深層非線性網絡結構,模擬人腦機制,在解決復雜函數問題時能夠近似表示,并且能夠在少樣本的情況下獲取數據集的本質特征(即特征值)。
許多傳統機器學習算法得到的學習器通常是局部估計算子。盡管我們可以根據問題進行合理假設,但一旦目標函數變得復雜,使用參數描述區域數量的增加導致算法模型的泛化能力變差。與此相反,數據的分布式表示不僅可以準確描述數據間的相似程度,而且在少樣本情況下具有更好的泛化性能。
相關法律與倫理
《新一代人工智能倫理規范》
中國新一代人工智能治理專業委員會于2021年9月25日發布了《新一代人工智能倫理規范》(以下簡稱《倫理規范》),意在將倫理道德原則貫穿于人工智能的整個生命周期,為涉及人工智能活動的自然人、法人和其他相關機構提供倫理指引。該《倫理規范》著重強調人工智能系統應尊重每個個體的尊嚴和人權,遵守相關法律和道德準則。同時,也應尊重個人隱私,采取必要措施保護個人數據的安全,防止未經授權的訪問或濫用。此外,人工智能系統的設計和運行應在安全可靠的環境中進行,以減少誤導、濫用和潛在的損害。
《人工智能法案》
歐盟的《人工智能法案》是一項綜合性法律,將成為人工智能監管的核心框架。在修訂和修改之后,該法案將正在進入歐盟委員會、議會和成員國之間的三方談判,以確定最終版本。這是歐盟首個涉及人工智能的綜合法律,以人工智能的概念為基礎,以風險分級管理為基礎,以不同責任主體為規范對象,并通過合格評估和問責機制來管理人工智能的開發和使用。該法案全面規定了人工智能市場參與者的義務,包括監管人工智能的開發和使用方面的人工智能、隱私、透明度、安全、非歧視和環境友好。
在倫理治理方面,該法案強調人工智能應該以人為中心,而不應取代人類的自主性或剝奪個人的自由。它應主要服務社會需求和共同利益,并提供保護措施,以確保開發和使用的人工智能尊重歐盟價值觀和《歐洲聯盟基本權利憲章》的倫理內嵌。在AI系統的風險分級標準方面,《人工智能法案》將倫理風險視為考量因素,并將某些類型的AI系統確定為“存在不可接受風險的AI系統“,在歐盟成員國內將完全禁止這些AI系統上市或使用。
《2022年算法問責法案》
《2022年算法問責法案》(Algorithmic Accountability Act of 2022)于2022年2月在美國眾議院獲得通過,要求企業在使用自動化決策系統做出關鍵決策時進行研究并向眾議院報告這些系統對消費者的影響。該法案要求評估這些系統是否對消費者產生偏見或歧視,比如基于種族、性別、年齡等因素做出不公平的自動決策。法案確定了一套信息披露機制,包括評估報告、評估簡報和公開信息。此外,聯邦貿易委員會還計劃建立一個可公開訪問的信息存儲庫,發布有關自動化決策系統的有限信息。
《美國數據隱私和保護法案》
在2022年6月,美國參眾兩院公布了《美國數據隱私和保護法案》(Artificial Intelligence 數據 Privacy and Protection Act),該法案規定,如果人工智能所使用的數據集包含個人信息、數據和隱私,則被視為“覆蓋算法”。若持有大數據的機構使用“覆蓋算法”,可能導致對個人或群體造成風險,且使用該算法來收集、處理或傳輸覆蓋數據的,應遵循ADPPA所規定的隱私影響評估標準。此外,《美國數據隱私和保護法案》還明確了關于隱私政策告知和退出機制、反對偏見等方面的規定。依據ADPPA,企業或代表企業的xSP需要向個人告知其擁有“選擇退出”的權利,即拒絕企業對其個人數據的收集、處理或傳輸。
《自動決策系統的倫理、透明度與責任框架》
在2021年5月,英國中央數字與數據辦公室、人工智能辦公室與內閣辦公室合作發布了《自動化決策系統的倫理、透明度與責任框架》(Ethics, Transparency and Accountability Framework for Automated Decision-Making,“ETAF”),旨在規定人工智能涉及的算法和自動化決策的倫理治理要求。ETAF強調,在算法和自動化決策上線之前必須經過嚴格、受控和分階段的測試。在整個原型和測試過程中,需要人類的專業知識和監督來確保技術上的彈性和安全,以及確保系統的準確和可靠。在測試過程中,必須考慮自動決策系統的準確性、安全性、可靠性、公平性和可解釋性。ETAF規定,企業必須對算法或自動決策系統進行一個平等影響評估,使用高質量和多樣化的數據集,以發現和抵制所使用數據中的明顯偏見和歧視。ETAF指出,算法或計算機系統應該被設計為完全可以負責和可審計的,算法和自動化的責任和問責制度應該明確規定。
研究現狀
機器學習是人工智能和模式識別領域的共同研究熱點,其理論和方法已被廣泛應用于解決復雜問題,包括工程應用和科學領域。在21世紀,機器學習領域的研究工作迅速發展,它已成為人工智能的重要課題之一。全球最大的專業技術組織IEEE(電氣電子工程師學會)發布的《IEEE全球調研:科技在2022年及未來的影響》顯示,人工智能和機器學習、云計算和5G技術將成為2022年最重要的技術影響之一。在互聯網快速發展的背景下,數智化技術正在重塑人們的生活和工作方式。據調研結果顯示,人工智能和機器學習(21%)、云計算(20%)和5G(17%)三項技術在2021年得到了快速發展和廣泛應用,在2021年以后將繼續對人們的工作和生活產生重要影響。調研結果還顯示,全球95%的受訪者認為在未來5年內,人工智能技術將被廣泛應用于各個領域,推動各行各業的創新進步。機器學習的最新進展主要受到新的學習算法和理論的推動,以及在線數據和低成本計算能力的不斷提升的影響。其中一個主要趨勢是關于機器學習算法運行環境的發展,即計算體系結構。傳統的機器學習系統通常在一臺機器上運行單個程序,而現在的機器學習系統通常部署在包含數千甚至上萬個處理器的體系結構中。并行和分布式技術以及通訊限制成為了當前的重點技術難題。例如,在語言建模方面,2020年,人工智能公司OpenAI發布了第三代語言預測模型GPT-3,該模型是最先進且規模最大的語言模型,包含大約1750億個參數,這些參數是機器用于處理語言的變量和數據點。在自動駕駛交通工具方面,非營利組織ProMare和IBM合作打造的自動駕駛船舶“五月花”號已于2020年正式啟航。IBM表示,該船具備偵測、思考和決策能力,可以掃描地平線以發現潛在的危險,并根據實時數據來調整航線。
大數據環境下機器學習的研究現狀
隨著各行業對數據分析的持續需求,機器學習在大數據時代扮演著重要角色,成為高效獲取知識的主要推動力。在這個時代,機器學習強調學習本身是一種手段,它為各行業提供了支持和服務技術。主要的研究方向是基于機器學習對復雜多樣的數據進行深入分析,以更高效地利用信息。因此,機器學習正朝著智能數據分析的方向不斷發展,并成為智能數據分析技術的重要來源。而在大數據的加持下,量子計算的也得到了快速發展。基于量子計算的機器學習正在逐漸興起。量子計算將為機器學習提供更強大的數據處理能力。充分利用量子計算的優勢,提升機器學習對大數據的處理、分析和挖掘能力已成為機器學習領域的研究熱點。已經存在的量子機器學習算法主要分為三類。第一類是將機器學習中復雜度較高的部分替換為量子計算來提高算法效率。這類算法采用經典機器學習算法的框架,不同之處在于使用量子計算機進行復雜計算,代表算法有量子主成分分析(QPCA)、量子支持向量機(QSVM)、量子最近鄰算法等。第二類算法是尋求量子系統的動力學特性和力學效應與傳統機器學習算法處理步驟的相似之處,將這些物理過程應用于經典機器學習算法上,提出新的量子機器學習算法。與第一類算法不同的是,這些算法的所有過程可以在經典計算機上實現,代表算法有基于量子力學的DBSCAN、量子退火算法、量子蟻群算法、量子遺傳算法等。第三類算法是借助于經典機器學習算法強大的數據分析能力,作為物理學家對量子世界研究的有效輔助。這些算法幫助物理學家更好地研究量子系統,更有效地分析量子效應。該類算法的研究將促進我們對微觀世界的進一步了解,并解釋量子世界的奇特現象。其中,基于量子斷層分析算法是一項重要的研究成果。
應用
制造業
機器學習技術在制造業中具有廣泛應用,包括預測性維護、質量控制和創新研究等方面提供了支持。此外,機器學習還可以幫助企業改善物流解決方案,包括資產、供應鏈和庫存管理等方面。
醫護及生命科學
隨著可穿戴傳感器和設備的增多,大量健康數據被產生。通過機器學習程序對這些信息進行分析,可以為醫生的實時診斷和治療提供支持。研究人員正在開發使用機器學習發現癌癥腫瘤和診斷眼睛疾病的解決方案,這將對人類健康產生重大影響。
金融服務
金融領域的機器學習解決方案已經改進了風險分析和監管流程。通過機器學習技術,投資者能夠更好地分析股市走勢、評估對沖基金或調整金融服務產品組合,從而發現新的投資機會。此外,機器學習還有助于識別高風險貸款客戶,減少欺詐問題的發生。
零售
機器學習在零售業中可以應用于改進客戶服務、庫存管理、追加銷售和跨渠道營銷等方面。
媒體和娛樂
娛樂公司正朝著機器學習的方向轉變,以更好地了解他們的目標受眾,并根據受眾需求提供沉浸式的個性化內容。通過部署機器學習算法,他們可以設計預告片和其他廣告,為消費者提供個性化的內容建議,甚至簡化內容生產過程。
數據分析與挖掘
數據分析挖掘技術是機器學習算法和數據存取技術的完美結合,它利用機器學習提供的統計分析、知識發現等手段深入剖析,同時憑借數據存取機制實現數據的高效讀寫。機器學習在數據分析挖掘領域中占據著無可替代的地位,例如2012年進軍機器學習領域的創舉。2012年,Cloudera收購Myrrix,共同開拓了Big Learning領域,此后,機器學習界迎來了新成員。Hadoop和廉價硬件使得大數據分析變得更加容易。隨著HDD和CPU的價格日益便宜,以及開源數據庫和計算框架的成熟,創業公司甚至個人都可以輕松進行TB級以上的復雜計算。Mydrrix是從Apache Mahout項目演變而來的,它是一個基于機器學習的實時可擴展的集群和推薦系統。Myrrix創始人Owen在其文章中提到:機器學習已經發展成為擁有數十年歷史的領域,如今為何受到大家的熱烈追捧。因為大數據環境下,更多的數據使機器學習算法表現得更好,機器學習算法能從數據海洋中提取更多有用的信息;降低了收集和分析數據的成本,提高了學習的價值。Myrrix與Hadoop的結合是機器學習、分布式計算和數據分析挖掘的完美聯姻。這三大技術的結合讓機器學習應用場景呈爆炸式的增長,開拓了無限可能。
模式識別
模式識別的應用領域廣泛,包括計算機視覺、醫學圖像分析、光學文字識別、自然語言處理語音、識別、手寫識別、生物特征識別、文件分類、搜索引擎等,而這些領域也正是機器學習大展身手的舞臺,因此模式識別與機器學習的關系越來越密切。例如人臉識別技術的發展。隨著互聯網技術的發展,人臉識別已經有了很多發展。人臉檢測技術的提出是研究發展的需要。人機交互方式,經過第一代的單一文本形式到第二代的圖形用戶界面的發展,正在向以人為本的方向發展。人們提出了智能人機接口的概念,希望具有或部分具有人的某些智能,人同計算機的交流變得像人與人之間的交流一樣輕松自如。用戶是中的主體,計算機作為一種“智能體”參與了人類的通信活動。人臉檢測技術已經用于很多領域。在現代社會中,傳統的身份鑒定方式(例如口令、信用卡、身份卡等),存在攜帶不便、容易遺失,或者由于使用過多或不當而損壞、不可讀和密碼易被破解等諸多問題,已不能很好地滿足各種安全需要并顯得越來越不適應現代科技的發展和社會的進步。因此,人們希望有一種更加可靠的辦法來進行身份鑒定。生物特征識別技術給這一切帶來可能。生物特征識別技術(Biometrics)是通過利用個體特有的生理和行為特征來達到身份識別和(或)個體驗證目的的一門科學。盡管人們可能會遺忘或丟失他們的卡片或忘記密碼,但是卻不可能遺忘或者丟失他們的生物特征如人臉、指紋、虹膜、掌紋等的特征或聲音等。在模式識別技術中,近年來以人臉為特征的識別技術發展十分迅速。相對而言,人臉識別是一種更直接、更方便、更友好、更容易被人們接受的非侵犯性識別方法。作為人臉自動識別系統的第一步,人臉檢測技術有著十分重要的作用。
生物信息學
隨著基因組等測序項目的發展,的研究重心正在向解讀數據轉移。未來,的新發現將極度依賴于多個維度和不同尺度下對多樣化數據的組合分析能力,而不僅僅是傳統領域的持續關注。序列數據將與一系列數據相互集成,包括結構與功能數據、基因表達數據、生化反應通路數據、表現型與臨床數據等。如此大量的數據,對的存儲、獲取、處理、瀏覽及可視化等方面,都提出了對理論、算法和軟件發展的迫切需求。另外,基因組數據的復雜性同樣對理論、算法和軟件的發展提出了迫切的需求。而機器學習方法如神經網絡、遺傳算法、決策樹和支持向量機等非常適合處理這種數據量大、含有噪聲并且缺乏統一理論的領域。
機器學習在中的應用已經非常廣泛且成果顯著,涵蓋了諸如序列比對、基因及其功能預測、蛋白質結構預測等。神經網絡在生物序列分析領域中早已得到應用,早在1982年,Stormo等就利用感知器對大腸桿菌核糖體結合位點進行了預測。1988年,Qian等發表了一篇使用神經網絡模型預測蛋白質二級結構的論文,使神經網絡得到了廣泛的重視和實際應用。1993年,Borodovsky等利用馬爾科夫模型構建了基因發現和基因分析程序GeneMark,這是統計學習理論在基因預測領域的一個應用實例。進入21世紀后,機器學習在中的應用依然豐富多樣,例如Cheng等運用雙聚類方法對微陣列數據進行分析,Long等運用方差分析和統計框架方法對大腸桿菌中的基因表達進行分析等。
人工智能領域
2012年,推出了一款具有劃時代意義的人腦模擬軟件,它具有自我學習能力,模擬腦細胞的交流方式,通過觀看視頻來識別貓、人和其他事物。當數據傳入神經網絡時,不同神經元之間的關系會發生變化,使神經網絡能夠獲得對某些特定數據的反應機制。據悉,這個網絡已經掌握了一些知識,Google有望在多個領域應用這一新技術,其中最早受益的可能是語音識別技術。同時,研制的無人駕駛汽車在2012年5月獲得了首個自動駕駛車輛許可證。該汽車依靠人工智慧、視覺計算、雷達、監控裝置和全球定位系統協同合作,讓計算機可以在沒有任何人類主動操作的情況下,自動安全地操作機動車輛。谷歌認為:這將是一種“比人更聰明”的汽車,不僅能預防交通事故,還能節省行駛時間、降低碳排放量。
軍事領域
機器學習在軍事領域的應用日益廣泛,智能無人機、智能無人規艇、智能等相繼問世或投入戰場。此外,機器學習也在其他軍事領域得到應用,例如國防部高級研究計劃局的電子戰專家正在嘗試利用機器學習技術對抗敵方的無線自適應通信威脅,推出“自適應電子戰行為學習”計劃(BLADE),以研發確保美國電子戰系統能夠在戰場上學習自動干擾新式射頻威脅的算法和技術。
參考資料 >
什么是機器學習?.aws.2023-11-24
CPU與GPU:哪個更適合機器學習,為什么?.Data Application Lab.2023-12-01
Amazon Deep Learning AMI.re:invent.2023-12-01
TensorFlow 簡介.TensorFlow.2023-12-01
IBM Watson.IBM.2023-12-07
Azure 機器學習.Azure .2023-12-07
What is Caffe2?.Facebook Open Source.2023-12-07
Cloud.Google for Developers.2023-12-01
scikit-learn.scikit-learn.2023-12-07
RapidMiner .RapidMiner .2023-12-07
KNIME.Open for Innavation KNIME.2023-12-07
DataRobot.DataRobot.2023-12-07
《新一代人工智能倫理規范》發布.中華人民共和國科學技術部.2023-11-24
人工智能(AI):科技倫理治理走起.前沿觀察.2023-11-24
機器學習研究最新進展 2022機器學習行業發展現狀及前景分析.中研網.2023-11-23
2022年人工智能領域發展七大趨勢.新華網.2023-11-23