大模型祛魅,AI 應用時代腳步臨近.....
* 大模型祛魅,AI 應用時代腳步臨近 *
大模型的未來會怎樣?大幕已徐徐拉開。但個中不僅是喧嘩,也有疑慮。
從産業界而言,無疑是熱鬧的。大模型火爆幾近兩年,技術以前所未有的速度叠代。頭部芯片廠商和雲廠商吃到紅利的背後,各大科技企業紛紛推出各自的大模型産品。與此同時,AI創企成爲風投競相追逐的目標。在這個過程中,無論是大公司、創業者或是投資方,都擠破腦袋寄希望于尋找到“超級應用”,無遠弗屆。
然而兩年過去,衆所期待的超級應用,並未出現。這也爲過去這24個月的全球大模型狂熱畫上了一個問號:這一切,究竟是新的技術革命?還是又一場非理性的AI泡沫?
目前業界未有定論,但百度集團董事長兼CEO李彥宏心中,自有標尺。“今年5月,也就是6個月前,我在和高管們討論大模型怎麽就叫成了的時候,我當時說,如果我們(文心大模型)日均調用量一年內漲10倍,我認爲就成了。”11月12日,在2024年百度世界大會上,李彥宏回憶道。
彼時,百度文心大模型的日均調用量爲2億次,而據李彥宏會上最新披露的數據,如今文心大模型的日均調用量超過15億次,半年內增長了7.5倍。相較于一年前首次披露的5000萬次的數據而言,更是增長約30倍。
陡峭的增長曲線,暗示著過去兩年內中國大模型應用的爆發。但百度在做的事,還有更多。
消除大模型幻覺
“過去24個月,AI行業發生的最大變化是什麽?是大模型基本消除了幻覺。”李彥宏指出。
背後所依賴的,是檢索增強生成(Retrieval-augmented Generation,RAG)。由于大模型是概率模型,生成的內容具有不確定性,但采用RAG技術後,大模型會利用檢索信息來指導生成文本,從而極大提升內容的質量與准確性。這也讓AI從“一本正經的胡說八道”變得可依賴。
搜索出身的百度,RAG原本是自身特色,但在過去兩年的時間內,RAG逐漸從百度特色轉爲行業共識。不過與此同時,盡管文字層面的RAG已經相當出色,基本消除了大模型的幻覺,但在圖像等多模態方面仍結合度不夠,文生圖的過程中大模型依然難免張冠李戴,鬧出笑話。
“今年年初,我們決定要解決圖像生成的幻覺問題。”李彥宏表示。就此,百度開發了檢索增強的文生圖技術iRAG(image based RAG),將百度搜索的億級圖片資源跟強大的基礎模型能力相結合,可以生成各種超真實的圖片。
李彥宏現場展示了一幅由文心大模型生成的大衆攬巡汽車飛躍長城的圖片。通過文心iRAG技術,無論是這款特定型號汽車的車型車標、還是作爲背景的長城,均未出現錯誤或變形的幻覺問題。同時展示的“愛因斯坦環遊世界”圖片中,愛因斯坦和各個背景景點的結合也與真實世界高度相似,質感接近照片。
李彥宏指出,iRAG技術能夠極大提高AI生成圖片的可用性。比如在品牌宣傳上,以前拍一組海報動辄大幾十萬,但現在的創作成本接近于0。簡單而言,文心iRAG的商業價值體現在:無幻覺、超真實、沒成本,立等可取。此外,在影視作品、漫畫作品、連續畫本、海報制作等應用場景中,iRAG都可以大幅降低創作成本。
需要注意的是,大模型幻覺的消除,也成爲AI應用爆發的基礎。“今天,基礎模型能力就緒,我們即將迎來AI應用的群星閃耀時刻。”李彥宏表示。
智能體迎接爆發點
技術准備就緒,應用的方向是什麽?李彥宏給出的答案之一,是智能體。
“我們認爲,智能體是AI應用的最主流形態,即將迎來它的爆發點。”李彥宏指出,“做智能體很像在PC時代做網站,或者是移動時代做自媒體賬號。不同之處是智能體更像人,更智能,更像你的銷售,像你的客服,像你的助理。智能體可能會變成AI原生時代,內容、信息和服務的新載體。”
在他看來,一方面,智能體的門檻極低,甚至在百度智能體平台上,有11歲的小學生在創造智能體。另一方面,智能體的天花板足夠高,能做出非常強大的應用。多個智能體協作,還能解決更爲複雜的問題。
以公司智能體爲例。在傳統的PC官網模式下,企業只能靜態地展示公司介紹、産品參數,但缺失主動推薦、及時響應和一對一服務能力;而公司智能體則可以根據顧客的需求推薦相應産品,在服務方面,也能更直接、快速地響應需求,能大幅地提升互動營銷的效率。
根據大會現場披露的數據,比亞迪的官方智能體上線後,銷售轉化率提升119%,聯想AIPC智能體的9月互動率提升89%。
除了公司官網場景外,智能體還可以發揮角色、工具等功能,並在不同行業擁有不同的使用場景。
例如,百度文庫和百度網盤聯合打造的工具類智能體“自由畫布”,可以讓用戶在一塊類似“畫布”的界面上自由拖拽文檔、音視頻等富媒體素材,迅速生成多模態內容。而法律智能體“法行寶”,已回答用戶1660萬個法律問題,不僅能如律師般專業解答,並能計算賠償金額、撰寫法律文書並推薦適配律師。據介紹,目前文心智能體平台已吸引了15萬家企業和80萬名開發者。
此外,李彥宏還發布了無代碼工具“秒哒”。該工具涵蓋無代碼編程、多智能體協作以及多工具調用等特點。李彥宏表示,這是“迄今爲止人類曆史上最複雜的多智能體協作工具”。
而對于用戶而言,使用門檻極低。用戶只需說說話,就能構建出各種應用。通過自然語言交互,就可以完成一套系統的搭建。這也意味著,每個人自己就能指揮多個智能體來協同完成任務。
“只要有想法,你就可以心想事成,我們將迎來一個前所未有的,只靠想法就能賺錢的時代。”李彥宏表示。
提速産業應用
大模型的應用方向不僅停留于C端用戶,自然還有廣闊的B端産業市場。
“大模型正在從技術變革走向産業變革。無數的AI原生應用,正在重新定義我們與數字世界乃至物理世界的交互方式。”百度集團執行副總裁、百度智能雲事業群總裁沈抖指出。
甚至,大模型在B端的落地,比想象中的還要顯著。據介紹,目前百度智能雲擁有中國最大的大模型産業落地規模。超過六成的央企和大量的民營企業,正在聯合百度智能雲進行AI創新。百度智能雲千帆大模型平台已經幫助客戶精調了3.3萬個模型、開發了77萬個企業應用、文心大模型日均調用量超過15億次。
沈抖表示,AI應用正率先在B端爆發。由企業級大模型工程平台、異構算力平台組成的新型AI基礎設施,將替代傳統雲計算,爲大模型應用在企業生産力場景中的規模落地提供關鍵支撐。
而在本次大會上,百度智能雲千帆大模型平台正式發布“工作流Agent”功能,旨在幫助企業快速開發出面向複雜對話場景的AI應用,快速擁有專業水平的“數字員工”。通過學習各種企業流程與規範,工作流Agent能夠適應不同崗位職責,快速規模化複制,大幅提升企業運轉效率。
沈抖指出,無數的AI應用,正在重新定義人與數字世界、物理世界之間的交互方式。現在,這些應用已經深入到企業“研産供銷服”的各個環節,並成爲企業提升競爭力的關鍵要素。
“圍繞著由大模型平台和算力平台組成的新型AI基礎設施,我們打造了‘人工智能’全棧技術服務體系。”沈抖表示,“我們相信,AI原生應用一定會在B端大爆發,而且這個時刻已經到來。”---[21世紀經濟報導記者 : 楊清清 *北京報導/來源 : 21世紀經濟報導]
* 深度揭秘CoT!普林斯頓耶魯發布最新報告:大模型既有記憶推理、也有概率推理 *
【新智元導讀】研究人員通過案例研究,利用大型語言模型(LLMs)如GPT-4、Claude 3和Llama 3.1,探索了思維鏈(CoT)提示在解碼移位密碼任務中的表現;CoT提示雖然提升了模型的推理能力,但這種能力並非純粹的符號推理,而是結合了記憶和概率推理的複雜過程。
「推理」是非常能展現「人類智能」的一項能力,需要結合現有證據和過去的經驗,以邏輯和系統的方式思考某件事情,進而做出決策。
大型語言模型(LLMs)以其通用性,在多項任務上都取得了出色的性能,雖然思維鏈(CoT)提示已經證明了大模型具備多步推理能力,但這種能力到底來自于「抽象泛化」(abstract generalization)還是「淺層啓發式」(shallow heuristics),仍然沒有定論。
爲了深入理解影響 CoT 推理的因素,普林斯頓大學、耶魯大學的研究人員最近發布了一項案例研究,使用三個大模型(GPT-4、Claude 3 和 Llama 3.1)利用CoT提示來執行解碼移位密碼(decoding shift ciphers)的符號推理任務。
論文地址:https://arxiv.org/abs/2407.01687
文中只關注這一個簡單的任務,能夠系統地分析出影響 CoT 性能的三個因素:任務的預期輸出(概率)、模型在預訓練期間隱式學習的內容(記憶),以及數量推理中涉及的中間操作(噪聲推理)。
實驗結果顯示,這些因素可以極大地影響模型的准確率,並且可以得出結論,CoT提示帶來的性能提升,既反映了模型在推理過程中有記憶的因素,也有真實推理的概率因素。
研究方法
以往的方法在研究模型推理能力時,往往在一系列複雜的推理任務上進行評估,其中任務的多樣性和複雜性可能會掩蓋CoT推理背後的影響因素,所以這篇論文只關注一個相對簡單的任務:使用移位密碼編碼的文本進行破譯(deciphering text encoded with a shift cipher)。
使用移位密碼(shift cipher)來編碼消息的過程爲,將每個字母替換爲在字母表中向前移動一定數量位置(shift_level)的另一個字母;解碼則爲相反的操作,即向後移動。
這種密碼也可以稱爲旋轉密碼(rotation ciphers),過程等價于將字母表向前旋轉一定數量的步rot-k,其中k對應于shift_level
例如,給定測試詞「FDW」並使用rot-3加密(shift_level = 3),解碼需要將每個字母向後移動3步,即F → C,D → A,W → T,最後獲得解碼輸出「CAT」。
在實驗設計時,研究人員給大模型輸入一個使用移位密碼編碼的單詞,並要求模型對文本進行解碼以恢複原始單詞。
任務動機
研究人員使用移位密碼任務的主要出發點在于「任務複雜性」和「任務頻率」之間存在明顯的分離。
解密任務的複雜性也可以動態變化,移位級別(shift level)更高的密碼,需要更多中間步驟,也更複雜;不同的移位級別在互聯網文本中的頻率也不同,在大型語言模型的訓練數據中也是如此。
比如rot-13在互聯網論壇中廣泛用于隱藏文本,如謎題解答和劇透,而rot-3和rot-1通常用在解密教程中(rot-3也被稱爲凱撒密碼)。
此外,移位密碼有助于研究概率的影響,因爲正確答案可以是任意字符串,可以很容易地調節字符串的概率,並且生成樣本和正確性驗證也很容易。
最重要的是,解碼信息時,每個字母都是一個獨立的步驟,更容易分析。
CoT在移位密碼上的影響
數據
研究人員構建了一個數據集,每個單詞包含7個字母(從詞表中組合3個字母和4個字母的單詞),用GPT-4分詞器後爲2個token,以控制與分詞器無關的因素。
使用GPT-2計算對數概率,用句子「The word is "WORD"」的對數概率減去「The word is」的對數概率,然後把單詞按其對數概率評分,並按降序排列。
通過選擇等距的對數概率值作爲中心,形成了五個區間,其中區間1具有最高的概率,區間5具有最低的概率,再手動檢查了數據集中的單詞,並進行了篩選,以確保沒有使用不恰當的單詞,其中每個區間包含150個單詞。
數據集中總共包含150個樣本,劃分爲兩個子集:1)包含100個單詞以評估GPT-4;2)包含50個單詞,用于評估擬合到GPT-4在100個單詞子集上表現的邏輯回歸模型。
最後在1-25移位級別上生成來自5個概率區間的單詞的移位密碼編碼版本,作爲模型的輸入;評估只運行一次,基于100個樣本報告准確率。
評估提示
研究人員使用多種不同的提示對數據集的性能進行了評估:
1. 標准(standard)提示,只有任務描述和演示但沒有推理步驟的提示;
2. 文本思維鏈(Text-CoT),使模型逐個字母解碼消息。
要想正確得到推理步驟,模型必須在預訓練期間學會字母表。
3. 數學思維鏈(Math-CoT),模型需要將每個字母轉換爲數字,然後通過數字應用算術來執行移位,再將結果轉換回字母;提示中還指定了字母和位置之間的映射。
4. 數字序列思維鏈(Number-CoT),該任務基于數字域(即輸入和輸出是數字序列),與移位密碼同構;推理需要對數字序列中的輸入元素應用算術運算以獲得相應的輸出序列。
實驗結果
研究人員使用了開源和閉源模型進行實驗:GPT-4(gpt-4-0613),Claude 3(claude-3-opus-20240229),以及Llama-3.1-405B-Instruct,其中溫度設置爲0,並將max_new_tokens設置爲200。
在使用標准提示時,GPT-4在大多數移位級別上的准確率爲零,但當使用文本CoT時,其准確率大幅提升(平均准確率達到32%),跟以前的研究結果相同,即CoT對移位密碼很有幫助,但仍然遠非完美;但在使用數字CoT時,GPT-4的表現結果幾乎達到了完美。
上述結果顯示,如果CoT提示中用到的是符號推理,那GPT-4的推理能力就會很完美;而事實上沒有得到完美分數,也表明了CoT推理並非純粹的符號推理。
盡管如此,CoT也很明顯優于標准提示,所以CoT推理不太可能僅僅是簡單的記憶。
如果CoT推理既不是簡單的記憶也不是純粹的符號推理,那會是什麽?
推理過程分解
研究人員考慮了大型語言模型(LLMs)可能采用的四種推理過程:
1. 符號推理(Symbolic reasoning)是使用離散的、確定性的推理規則。移位密碼可以通過簡單的符號算法完美解碼,因此一個使用完全系統化推理的系統應該達到100%的准確率。
2. 噪聲推理(Noisy reasoning)類似于符號推理,但增加了噪聲,導致推理過程中每個中間操作出錯的可能性。如果系統使用噪聲推理,那應該看到隨著需要執行的操作數量的增加,准確率會下降;移位密碼可以測試出這種可能性:通過改變移位級別,可以調節每個推理步驟中需要執行的操作數量,並觀察准確率是否相應變化。
3. 記憶(Memorization)策略,模型可以記住在預訓練中遇到的任務,但無法泛化到新任務。如果LLMs所做的只是記憶,應該看到在預訓練中經常遇到的情況比那些不經常遇到的任務表現更好。
之前有研究表明,13是自然語料庫中最常見的移位級別,在一些網絡社區中很常見。
4. 概率推理(Probabilistic reasoning)將任務框架爲選擇給定輸入下最可能的輸出,推理會受到輸出的先驗概率的影響,概率推理器應該隨著正確答案的先驗概率增加,准確率也會有所提升。
對比假設准確率,研究人員發現,隨著移位級別的增加,准確率通常會下降,代表LLM在執行噪聲推理,並且是雙向噪聲推理,模型可以對字母進行向前或向後的移位來解碼消息,例如,向後移動25個字母和向前移動1個字母相同,但後者的中間步驟更少;雙向性質的具體表現爲,當移位級別從20變爲25時,准確率會增加。
其次,模型進行概率推理的證據是,准確率在最高概率區間(區間1)遠高于最低概率區間(區間5),其中「高概率」大多爲常見的單詞,如{'mariner', 'shrines', 'paywall', ...},而「低概率」的情況大多是無意義的字母序列,如{'xcbrouw', 'jsxrouw', 'levjspx', ...}。
最後,雖然移位級別13比其他移位級別需要更多的推理步驟,但移位級別13上的准確率存在一個峰值,代表模型執行了記憶(13是自然語料庫中最常見的移位級別)。---[新智元報導*編輯 :LRS/來源 : 新智元 ]
參考資料 :https://arxiv.org/abs/2407.01687