大語言模型(Large Language Model,簡稱LLM),也稱大語言模型或大型語言模型,是一種由包含數百億以上參數的深度神經網絡構建的語言模型,通常使用自監督學習方法通過大量無標注文本進行訓練,它通過大規模數據集訓練來預測、生成自然語言文本并理解語言文本的含義。
絕大部分大語言模型都是基于Transformer架構。相比于傳統的循環神經網絡(RNN)和長短時記憶網絡(LSTM),Transformer具有獨特的注意力機制,自注意力機制允許模型根據序列中的其他位置調整每個位置的表示,從而提高模型對上下文的理解能力。
自2018年以來,谷歌、OpenAL、Meta、百度集團、華為等公司和研究機構都相繼發布了包括BERT,GPT等在內多種模型,并在幾乎所有自然語言處理任務中都表現出色。2019年大模型呈現爆發式的增長,特別是2022年11月ChatGPT 發布后,更是引起了全世界的廣泛關注。2023年12月26日,大語言模型入選“2023年度十大科技名詞”。2024年3月18日,馬斯克的AI創企xAI正式發布了大模型Grok-1,其參數量達到了3140億,遠超OpenAI GPT-3.5的1750億。這是迄今參數量最大的開源大語言模型,遵照apache 2.0協議開放模型權重和架構。
發展歷史
大語言模型的發展歷程雖然只有短短不到五年,但是發展速度相當驚人,截止2023年6月,國內外有超過百種大模型相繼發布。它的發展歷程可以分為三個階段:基礎模型階段、能力探索階段、突破發展階段。在正式出現之前,還經歷了漫長的萌芽階段。
萌芽階段
大語言模型的基礎最早可以追溯到20世紀50年代進行的神經網絡和神經信息處理系統的實驗,這些實驗允許計算機處理自然語言。國際商業機器公司(IBM)和喬治城大學的研究人員合作創建了一個系統,該系統能夠自動將短語從俄語翻譯成英語,是對于該領域的研究的開始。
大語言模型的想法最早是20世紀60年代在世界上第一個聊天機器人Eliza的創建中提出的,它由麻省理工學院研究員約瑟夫·魏岑鮑姆(Joseph Weizenbaum)設計,它使用模式識別來模擬人類對話,將用戶的輸入轉化為問題,并根據一組預定義的規則生成響應。Eliza的出現標志著自然語言處理(失明)研究的開始,為未來更復雜的大語言模型奠定了基礎。
20世紀70年代,由賈里尼克提出的N-gram語言模型成為最常用的統計語言模型之一,廣泛用于多種自然語言處理系統中。N-gram模型將文本序列劃分為長度為N的連續詞組(N-gram),并利用大量語料庫訓練模型,以預測給定N-gram的后續詞。然而,N-gram模型存在數據稀疏性、計算復雜性和語言模型可擴展性等局限性。
1997年,長短期記憶(LSTM)網絡應運而生。它們的出現導致了更深入、更復雜的神經網絡,可以處理更多的數據。
2010年,斯坦福大學推出的Core NLP套件,該套件提供了一套工具和算法,幫助研究人員處理復雜的NLP任務,允許開發人員執行情感分析和命名實體識別。
2011年,出現了一個較小版本的谷歌 Brain,具有單詞嵌入等高級功能,使自然語言處理(失明)系統能夠更清楚地理解上下文。
2013年,自然語言處理模型Word 2Vec誕生,首次提出將單詞轉換為向量的“詞向量模型”,以便計算機更好地理解和處理文本數據。
2014年,被譽為21世紀最強大算法模型之一的GAN(對抗式生成網絡)誕生,標志著深度學習進入了生成模型研究的新階段。
2017年,Google發布論文《Attention is all you need》,提出Attention機制和基于此機制的Transformer架構。Transformer是一種用于序列到序列(Sequence-to-Sequence)任務的神經網絡模型,如機器翻譯、語音識別和生成對話等。它是第一個完全依賴于自注意力機制來計算其輸入和輸出的表示的轉換模型。序列到序列模型采用的是編碼器-解碼器結構,編碼器-解碼器結構采用堆疊的多頭注意力機制加全連接層。通過查詢-鍵-值的模式使用多頭注意力。由于Transformer模型中既沒有遞歸,也沒有卷積,如果需要獲得輸入序列精準的位置信息,必須插入位置編碼。位置編碼和輸入嵌入有相同的維度,所以二者可以實現相加運算,位置編碼方式可以有多種。
基礎模型階段
基礎模型階段主要集中于2018年至2021年。從2018年開始,研究人員專注于構建越來越大的模型。
2018年,谷歌和Open AI分別提出了BERT-1和GPT-1模型,開啟了預訓練語言模型時代。
2019年,Open AI又發布了GPT-2,其參數量達到了15億。此后,Google也發布了參數規模為110億的T5模型。Google的研究人員還推出了 BERT,是一種雙向、3.4 億參數的模型(同類模型中的第三大模型),可以確定上下文,使其能夠適應各種任務。通過自監督學習對各種非結構化數據進行BERT預訓練,該模型能夠理解單詞之間的關系。很快,BERT就成為自然語言處理任務的首選工具。
2020年,Open AI進一步將語言模型參數量擴展到1750億,發布了GPT-3。
能力探索階段
能力探索階段集中于2019年至2022年。研究人員們開始探索在不針對單一任務進行微調的情況下如何能夠發揮大規模語言模型的能力。
2019年,Radford等人就使用GPT-2模型研究了大規模語言模型在零樣本情況下的任務處理能力。在此基礎上,Brown等人在GPT-3模型上研究了通過語境學習進行少樣本學習的方法。之后推出的指令微調方案將大量各類型任務,統一為生成式自然語言理解框架,并構造訓練語料進行微調。
2022年,Ouyang等人提出了使用“有監督微調+強化學習”的InstructGPT算法。
這些方法在直接利用大語言模型進行零樣本和少樣本學習的基礎上,逐漸擴展到利用生成式框架針對大量任務進行有監督微調的方法,有效提升了模型的性能。
突破發展階段
突破發展階段以2022年11月ChatGPT的發布為起點。ChatGPT通過一個簡單的對話框,利用一個大規模語言模型就可以實現問題回答、文稿撰寫、代碼生成、數學解題等過去自然語言處理系統需要大量小模型訂制開發才能分別實現的能力。
2023年3月GPT-4發布,相較于ChatGPT又有了明顯的進步,并具備了多模態理解能力。GPT-4在多種基準考試測試上的得分高于88%的應試者,包括美國律師考試(Bar)、美國法學院入學考試(LSATs)、SAT的閱讀和數學考試、GRE等。
從2022年開始大模型呈現爆發式的增長,各大公司和研究機構相繼發布了此類系統,包括谷歌推出的Bard、百度集團的文心一言、科大訊飛的星火大模型、智譜ChatGLM、復旦大學MOSS等。
2024年3月,Databricks推出大語言模型DBRX,號稱“現階段最強開源AI”;馬斯克的xAI公司正式發布大模型Grok-1,參數量達到3140億,超OpenAI GPT-3.5的1750億。這是迄今參數量最大的開源大語言模型,遵照apache 2.0協議開放模型權重和架構。2025年4月4日,中國人工智能企業深度求索(DeepSeek)與清華大學研究團隊聯合發布題為《獎勵模型的推理時Scaling方法及其在大規模語言模型中的應用》的論文,提出自我原則點評調優(SPCT)與元獎勵模型(Meta Reward Model)兩項核心技術,為提升大語言模型(LLM)的推理能力提供了全新方法論。這一成果被視為DeepSeek下一代推理模型R2的重要技術鋪墊。
構建流程
預訓練
預訓練是大語言模型訓練的首要步驟,其目標在于使模型掌握語言的統計模式與語義信息。主流的預訓練階段流程大致相同,其中關鍵要素是數據,需收集海量無標注數據,像互聯網上的文本、新聞、博客、論壇等。這些數據可以涵蓋多種語言,且要經過一定的清理和處置,去除噪聲、冗余信息、無關信息、潛在有毒的數據以及涉及個人隱私的內容,最后以tokenizer粒度輸入到前述的語言模型中。經清洗處理后的這些數據用于訓練和優化語言模型(通用語料主要用于增強語言建模和泛化能力)。在預訓練過程中,模型會習得詞匯、句法和語義的規律以及上下文的關系。
在預訓練語料集方面,GPT-3中通過主要包含經過過濾的Common Crawl數據集、WebText2、Books1、Books2以及英文Wikipedia等數據集合。其中Common Crawl的原始數據有45TB,進行過濾后僅保留了570GB的數據。通過子詞方式對上述語料進行切分,大約共包含5000億子詞。為了保證模型使用更多高質量數據進行訓練,在GPT-3訓練時,根據語料來源的不同,設置不同的采樣權重。在完成3000億子詞訓練時,英文Wikipedia的語料平均訓練輪數為3.4次,而Common Crawl和Books2僅有0.44次和0.43次。由于Common Crawl數據集合的過濾過程繁瑣復雜,OPT則采用了混合RoBERTa、Pile和Pushshift.io Redit數據的方法。由于這些數據集合中包含的絕大部分都是英文數據,因此OPT也從Common Crawl數據集中抽取了部分非英文數據加入訓練語料。BLOOM使用Megatron-DeepSpeed框架進行訓練,主要包含兩個部分:Megatron-LM提供張量并行能力和數據加載原語:DeepSpeed提供ZeRO優化器、模型流水線以及常規的分布式訓練組件。通過這種方式可以實現數據、張量和流水線三維并行。
指令微調
在完成預訓練后,就可以通過指令微調去挖掘和增強語言模型本身具備的能力,這步也是很多企業以及科研研究人員利用大語言模型的重要步驟。
指令微調也稱為監督微調,是利用少量高質量數據集合,包含用戶輸入的提示詞和對應的理想輸出結果。用戶輸入包括問題、閑聊對話、任務指令等多種形式和任務。在指令微調階段,首先需要準備一系列的NLP任務,并將每個任務轉化為指令形式,其中指令包括人類對模型應該執行的任務描述和期望的輸出結果。然后,使用這些指令對已經預訓練好的大語言模型進行監督學習,使得模型通過學習和適應指令來提高其在特定任務上的表現。
為了讓模型訓練更加高效和簡單,這個階段還有一種高效的fine-tuning技術。Parameter-Efficient Fine-Tuning (PEFT)旨在通過最小化微調參數的數量和計算復雜度,達到高效的遷移學習的目的,提高預訓練模型在新任務上的性能,從而緩解大型預訓練模型的訓練成本。在訓練過程中,預訓練模型的參數保持不變,只需微調少量的額外參數,就可以達到與全量微調相當的性能。很多研究對PEFT方法進行了探索,例如Adapter Tuning和Prefix Tuning等。其中,Adapter Tuning方法在面對特定的下游任務時,將預訓練模型中的某些層固定,只微調接近下游任務的幾層參數。而Prefix Tuning方法則是在預訓練模型的基礎上,添加一些額外的參數,這些參數在訓練過程中會根據特定的任務進行更新和調整。
工業界現在常用的Adapter Tuning的技術是Low-Rank Adaptation(LoRA) 。它通過最小化微調參數的數量和計算復雜度,實現高效的遷移學習,以提高預訓練模型在新任務上的性能。LoRA 的核心思想是將預訓練模型的權重矩陣分解為兩個低秩矩陣的乘積。通過這種分解,可以顯著減少微調參數的數量,并降低計算復雜度。該方式和機器學習中經典的降維的思想很類似,類似地,LoRA 使用了矩陣分解技術中的奇異值分解或低秩近似方法,將原始權重矩陣分解為兩個低秩矩陣的乘積。在微調過程中,LoRA 只更新這兩個低秩矩陣的參數,而保持其他預訓練參數固定不變。這樣可以顯著減少微調所需的計算資源和時間,并且在很多任務上取得了與全量微調相當的性能。LoRA技術的引入使得在大規模預訓練模型上進行微調更加高效和可行,為實際應用提供了更多可能性。
獎勵建模
獎勵建模階段的目標是構建一個文本質量對比模型,對于同一個提示詞,SFT模型給出的多個不同輸出結果的質量進行排序。獎勵模型 (RM模型)可以通過二分類模型,對輸入的兩個結果之間的優劣進行判斷。RM模型與基礎語言模型和SFT 模型不同,RM 模型本身并不能單獨提供給用戶使用。
獎勵模型的訓練通常和SFT模型一樣,使用數十塊GPU,通過幾天時間完成訓練。由于RM模型的準確率對強化學習階段的效果有至關重要的影響,因此通常需要大規模的訓練數據對該模型進行訓練。
強化學習
強化學習階段根據數十萬用戶給出的提示詞,利用前一階段訓練的RM模型,給出SFT模型對用戶提示詞補全結果的質量評估,并與語言模型建模目標綜合得到更好的效果。使用強化學習,在SFT模型基礎上調整參數,使得最終生成的文本可以獲得更高的獎勵(Reward)。該階段需要的計算量相較預訓練階段也少很多,通常僅需要數+塊GPU,數天即可完成訓練。
經過強化學習方法訓練后的RL模型,就是最終提供給用戶使用、具有理解用戶指令和上下文的類ChatGPT系統。不過,Andrej Karpathy指出,強化學習并不是沒有問題的,它會使基礎模型的熵降低從而減少了模型輸出的多樣性。由于強化學習方法穩定性不高,并且超參數眾多,使得模型收斂難度大,再疊加RM模型的準確率問題,使得在大語言模型上有效應用強化學習非常困難。
相關技術
Transformer
當前流行的大語言模型的網絡架構其實并沒有很多新的技術,還是一直沿用當前NLP領域最熱門最有效的架構——Transformer結構。相比于傳統的循環神經網絡(RNN)和長短時記憶網絡(LSTM),Transformer具有獨特的注意力機制(Attention),這相當于給模型加強理解力,對更重要的詞能給予更多關注,同時該機制具有更好的并行性和擴展性,能夠處理更長的序列,立馬成為NLP領域具有奠基性能力的模型,在各類文本相關的序列任務中取得不錯的效果。
根據這種網絡架構的變形,主流的框架可以分為Encoder-Decoder, Encoder-Only和Decoder-Only,其中:Encoder-Only,僅包含編碼器部分,主要適用于不需要生成序列的任務,只需要對輸入進行編碼和處理的單向任務場景,如文本分類、情感分析等,這類代表是BERT相關的模型。Encoder-Decoder,既包含編碼器也包含解碼器,通常用于序列到序列(Seq2Seq)任務,如機器翻譯、對話生成等,這類代表是以谷歌訓出來T5為代表相關大模型。Decoder-Only,僅包含解碼器部分,通常用于序列生成任務,如文本生成、機器翻譯等。這類結構的模型適用于需要生成序列的任務,可以從輸入的編碼中生成相應的序列。同時還有一個重要特點是可以進行無監督預訓練。在預訓練階段,模型通過大量的無標注數據學習語言的統計模式和語義信息。這種方法可以使得模型具備廣泛的語言知識和理解能力。在預訓練之后,模型可以進行有監督微調,用于特定的下游任務(如機器翻譯、文本生成等)。這類結構的代表也就是我們平時非常熟悉的GPT模型的結構,所有該家族的網絡結構都是基于Decoder-Only的形式來逐步演化。
很多失明任務可以通過多種網絡結果來解決,這也主要是因為NLP領域的任務和數據的多樣性和復雜性,以及現代深度學習模型的靈活性和泛化能力。
基于人類反饋的強化學習
在進行有監督微調后,大語言模型具備了遵循指令和多輪對話,以及初步與用戶進行對話的能力。然而,由于龐大的參數量和訓練語料,大語言模型的復雜性往往難以理解和預測。當這些模型被部署時,可能會產生嚴重的后果,尤其是當模型變得日漸強大、應用更加廣泛,并且頻繁地與用戶進行互動時。研究者追求將人工智能與人類價值觀進行對齊,大語言模型輸出的結果應該滿足幫助性 (Helpfulness) 、真實性 (Honesty) 及無害性 (Harmless)的3H原則。由于上述3H原則體現出了人類偏好,因此基于人類反饋的強化學習很自然地被引入了通用對話模型的訓練流程。
基于人類反饋的強化學習主要分為獎勵模型訓練和近端策略優化兩個步驟獎勵模型通過由人類反饋標注的偏好數據來學習人類的偏好,判斷模型回復的有用性,以及保證內容的無害性。獎勵模型模擬了人類的偏好信息,能夠不斷地為模型的訓練提供獎勵信號。在獲得獎勵模型后,需要借助強化學習對語言模型繼續進行微調。OpenAl在大多數任務中使用的強化學習算法都是近端策略優化 (ProximaPolicy 最優化,PPO)算法。近端策略優化可以根據獎勵模型獲得的反饋優化模型,通過不斷的迭代,讓模型探索和發現更符合人類偏好的回復策略。近端策略優化涉及以下四個模型:(1)策略模型 (Policy Model) ,生成模型回復。(2)獎勵模型(Reward Model) ,輸出獎勵分數來評估回復質量的好壞。(3)評論模型(Critic Model),預測回復的好壞,可以在訓練過程中實時調整選擇對未來累積收益最大的行為。(4)參考模型(Reference Model),提供了一個SFT 模型的備份,使模型不會出現過于極端的變化。近端策略優化算法的實施流程為:(1)環境采樣:策略模型基于給定輸入生成一系列的回復,獎勵模型則對這些回復進行打分獲得獎勵。(2)優勢估計:利用評論模型預測生成回復的未來累積獎勵,并借助廣義優勢估計(Generalized Advantage Estimation,GAE)算法估計優勢函數,有助于更準確地評估每次行動的好處。(3)優化調整:使用優勢函數來優化和調整策略模型,同時利用參考模型確保更新的策略不會有太大的變化,從而維持模型的穩定性。
混合專家系統
混合專家系統(混合物of-Experts, MoE),是目前預訓練萬億參數模型的關鍵技術。該模型是在不過度增加計算成本的前提下,提高神經網絡模型容量的有效手段。MoE的基本思想是由許多專家子網絡構建出一個統一網絡,其中每個輸入由一個合適的專家子集處理。因此,與標準神經網絡相比,MoE只調用了整個模型的一小部分,從而產生了如GLaM等語言模型應用程序所示的高效率。GLaM體系架構中的每個輸入 token 被動態路由到64個專家網絡中的兩個進行預測。與稠密模型相比,MoE中的條件計算可以在相同計算量下大幅提升模型參量。然而在大規模集群中高效且有效地訓練MoE仍然具有挑戰。混合專家系統類思路是目前大模型落地比較優質的路徑。過去十幾年來,人工智能尤其是深度學習技術的發展積累了很多優質的模型,將大模型與混合專家系統等優質模型結合,將是未來大模型由純數字經濟,向數字經濟賦能實體經濟轉變的重要途徑。
提示工程
提示工程(Prompt Engineering)主要應用于提示詞開發和優化,幫助用戶將大語言模型用于各場景和研究領域。 掌握了提示工程相關技能將有助于用戶更好地了解大型語言模型的能力和局限性。研究人員可利用提示工程來提升大語言模型處理復雜任務場景的能力,如問答和算術推理能力。開發人員可通過提示工程設計、研發強大的工程技術,實現和大語言模型或其他生態工具的高效接軌。提示工程不僅僅是關于設計和研發提示詞。它包含了與大語言模型交互和研發的各種技能和技術。提示工程在實現和大語言模型交互、對接,以及理解大語言模型能力方面都起著重要作用。用戶可以通過提示工程來提高大語言模型的安全性,也可以賦能大語言模型,比如借助專業領域知識和外部工具來增強大語言模型能力。
工作原理
大語言模型通過利用深度學習技術和大量文本數據來運行。該模型通?;谵D換器架構,它擅長處理文本輸入等順序數據。在訓練過程中,該模型學習根據句子前面單詞來預測下一個單詞。它通過將概率分數歸因于重復的已標記單詞(分解為較小的字符序列)來實現這一點。然后,這些標記被轉換為嵌入,嵌入是該上下文的數字表示。為了確保準確性,這個過程涉及在大量文本語料庫(數十億頁)上訓練大語言模型,使它能夠通過零樣本和自我監督學習來學習語法、語義和概念關系。經過這些訓練數據的訓練后,它就可以根據收到的信息自動預測下一個單詞,并利用它們獲得的知識來生成文本。從而生成連貫的語言,可用于廣泛的內容生成任務。該模型還可以通過即時工程、即時調優、微調和其他策略來提高模型性能,這是確保企業級 LLM 隨時可用,不會使組織承擔不必要的責任或對組織聲譽造成損害的最重要的方面之一。
典型模型及對比
訓練成本
訓練通用的大語言模型非?!盁X”,通常達到數百萬美元甚至更多。例如,OpenAI的GPT-4模型訓練成本超過1億美元。隨著模型規模的增大,訓練成本急劇上升,2023年發布的模型訓練成本已逼近2億美元。預計到2024年底或2025年初,新一代模型的訓練成本可能已逼近10億美元。以ChatGPT在1月的獨立訪客平均數1300萬計算,其對應芯片需求為3萬多片英偉達A100GPU,初始投入成本約為8億美元,每日電費在5萬美元左右。如果將當前的ChatGPT部署到谷歌進行的每次搜索中,需要512820.51臺A100 HGX服務器和總共4102568個A100 GPU,這些服務器和網絡僅資本支出就超過1000億美元。
應用
大語言模型的應用于社會科學、自然科學以及形式科學領域。截至2023年,大語言模型已經在很多領域開始產品化落地,除了ChatGPT這類產品,主要還有以下一些主流的應用:
辦公Copilot類產品
微軟最早嘗試在自己旗下的Office系列軟件中應用大語言模型。通過使用大語言模型,可以對word文檔進行總結并提出修改編輯的建議,也可以對所給的文章進行總結;Microsoft Excel中的各種復雜操作也可以直接通過描述就處理數據;Microsoft Office PowerPoint中通過對提出要求識別就能自動生成一份展示內容;Outlook中直接使用自然語言來生成郵件內容等功能,實現真正的AI秘書。
Github Copilot類產品
將大語言模型應用于Github Copilot類產品后,能夠直接通過對話方式進行各種功能代碼的生成,包括幫忙寫測試用例、解釋代碼片段和debug程序問題。這個功能對解放程序員生產力取得了革命性的進步,能讓開發人員更多的關注到業務理解,系統設計,架構設計等更高級需求的事情上。
教育知識類產品
得益于大語言模型強大的理解以及知識儲備,很多公司將該模型嵌入了知識類產品進行應用當中。chatPDF中嵌入大語言模型后,可以幫助經常看論文的科研人員快速地通過問答的方式進行文章的信息提取,理解以及總結重要內容,大大提升了閱讀新論文的效率。對于學習語言的人來說,一款叫嵌入大語言模型后的Call Annie的軟件基本能取代口語老師的角色,并且可以無限時間,隨時隨地進行口語對話練習。
搜索引擎和推薦系統
大語言模型可以應用于企業的搜索引擎和推薦系統,通過深度學習算法,對用戶的搜索意圖進行準確理解,提供更精準的搜索結果和個性化的推薦內容。這有助于提升用戶體驗,增加用戶黏性,提高企業的轉化率和銷售額。
客戶聯絡類產品
觀察客戶聯絡領域所處現狀,大部分是把簡單、重復、流程性的問題,交給機器人處理;復雜的、需要情感關懷的問題,交由人工客服處理。而傳統的智能客服在意圖理解方面的能力,仍然相對薄弱。借助大模型,智能客服能夠有效結合用戶的歷史對話、當前溝通內容等上下文語境,更精準地識別出用戶的需求和意圖。
計算相關上下游相關產業
為了跟上大語言模型的訓練和推理速度,很多公司正在積極探索基于GPU、FPGA和ASIC等硬件的加速制造技術。此外,云計算技術的發展也為大語言模型的訓練提供了更多的計算資源支持。
除了應用于上述這些領域外,大語言模型還在算法優化、隱私和數據安全以及模型可解釋性等方面有應用,有很多大語言模型的應用正在不斷涌現,國內的優秀大語言模型代表例如百度文心也正在搭建全系統產業化的大模型全景。
局限性
安全性不高
安全性是大型語言模型面臨的重要問題之一。大語言模型能夠應用于各個學科領域的任務,但同時這也就意味著該類模型面臨廣泛的內容安全問題。盡管大語言模型已經通過基于人類反饋的強化學習等多種方法,嘗試將模型輸出對齊至人類價值觀,但語言模型在應用至各個領域時仍容易被惡意使用,從而生成偏見言論、煽動性言論、隱私侵犯言論等不安全的文本。與此同時,大模型還面臨數據投毒攻擊、對抗樣本攻擊、模型竊取攻擊及后門攻擊等安全風險,這些漏洞可能被攻擊者利用,威脅整個應用生態的穩定性。最后,大模型在隱私保護方面也存在隱患。
成本高昂
大語言模型的訓練和部署需要大量的計算資源和人力資源,成本非常高昂。對于一些中小型企業而言,難以承擔這些成本,也難以獲得足夠的技術支持和資源。企業級應用最好使用百億級基礎模型,根據不同需求訓練不同的垂直模型,只需要負擔垂直訓練成本。但是,企業如何實現高效的垂直訓練,如何控制成本,仍是大模型面臨的問題之一。
無法保障內容可信:
可信度是目前大型語言模型的重要局限之一。 盡管以大語言模型可用于解決各類真實場景中的問題,但其仍會生成不可信的文本。當前使用者只能根據自己需求去驗證生成的內容是否真實可信,很難具有權威說服力。同時,模型在解決涉及推理的問題時,可能因推理過程錯誤而得到不可信的結果。這對其研究發展和應用落地均有負面影響。
參考資料 >
硅谷這場AI大戰中,Meta徹底掉隊了.華爾街見聞官方賬號.2023-12-18
大語言模型綜述文章.中國人民大學高瓴人工智能學院.2023-12-17
觀點 | 大語言模型的技術發展及金融領域應用展望.金融電子化雜志社官方賬號.2023-12-18
黃榮懷:準確把握新一輪科技革命賦能教育變革的核心價值.中國教育新聞網官方賬號.2023-12-18
原創 | 大模型掃盲系列——初識大模型.清華大學大數據研究中心官方賬號.2023-12-18
高手論技 | 大模型的基石——Transformer框架.《中國信息技術教育》雜志旗下賬號.2023-12-18
馬斯克Grok開源.財聯社-今日頭條.2024-03-18
The history, timeline, and future of LLMs.Toloka.2024-01-01
What is a Large Language Model?.scribble Data.2024-01-06
一文讀懂AI大模型發展歷程.《中國信息化周報》官方賬號.2023-12-18
全面改進Transformer類預訓練模型,自然語言任務超越BERT.清華大學大數據研究中心官方賬號.2023-12-18
吊打ChatGPT!GPT-4在多項考試中超過人類平均水平.科學網官方賬號.2024-01-06
DeepSeek R2來了?聯合清華大學發布推理時Scaling突破性論文.新浪財經.2025-04-05
解密 | ChatGPT為何能“打敗”眾多大模型,除了千億級參數,還有什么?.每日經濟新聞官方賬號.2023-12-18
吸引機器學習圈眼球的MoE,會成為 NLP與CV 的未來嗎?.騰訊網.2024-01-06
如何提升深度學習算法效率,谷歌有這些絕招.澎湃新聞.2024-01-06
央企布局大模型背后.企業觀察報 官方賬號.2024-01-06
提示工程指南.Prompt Engineering Guide.2024-01-06
什么是大型語言模型?.IBM.2024-01-11
大模型訓練一次200-1200萬美元?ChatGPT有多燒錢?.甘肅省臨夏市融媒體中心官方賬號.2024-01-11
拆解ChatGPT成本,太燒錢!中國科技巨頭面臨一場硬仗.南方都市報官方賬號.2024-01-11
大語言模型綜述全新出爐:51頁論文帶你盤點LLM領域專業化技術.澎湃新聞.2024-01-06
微軟出王炸!“GPT-4版Office軟件”來了.中國證券報官方賬號.2023-12-18
繼續迎戰微軟!谷歌生成式AI Bard可以編程和調試代碼錯誤了.華爾街見聞官方賬號.2023-12-18
AI語言大模型爆發,算力燃料能跟得上嗎?.財經網科技頻道官方賬號.2023-12-18
“人工智能大模型”入選年度10大流行語,這些大模型你知道幾個?.上觀新聞官方賬號.2023-12-18
訓練ChatGPT有多燒錢?國產大模型有機會嗎?.澎湃新聞官方賬號.2023-12-18
周鴻祎:企業級場景落地大模型面臨四個問題 企業級應用應該使用百億級基礎模型.財聯社官方賬號.2023-12-18