01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

研究實錘 :別讓大模型「想」太多,OpenAI o1 準確率竟下降36.3%

2024110619:23



思維鏈(CoT)已被證明可以在許多任務(如多步驟推理)上顯著提升大模型的性能。然而,在哪些情況下,CoT 會系統性地降低大模型的性能,這仍然是一個有待進一步討論的問題。

如今,來自普林斯頓大學和紐約大學的研究團隊,參照思考對“人類性能”的影響,提出了新的見解。

他們認爲,雖然模型的認知過程與人類的認知過程並不完全相同,但可以參照思考對人類“性能”産生負面影響的情況,假定思考會對模型産生負面影響的環境。

他們從心理學中選擇了 6 項已被充分研究的任務類型來探討 CoT 對 LLM 性能的影響,並驗證了 CoT 在一些任務中甚至可能導致模型准確率下降。

這一發現不僅爲未來優化 LLM 的提示策略提供了新思路,還爲理解人類與模型在推理過程中的相似性與差異性帶來了新見解。



論文鏈接 :https://arxiv.org/abs/2410.21333

研究表明,CoT 並非在所有任務中都能提高模型性能,在隱性統計學習、面部識別、含例外模式的數據分類三種情況下,各種SOTA模型的性能都會明顯下降。此外,研究本身進一步揭示了通過人類心理學研究大模型的可行性。

研究方法

爲分析 CoT 對大語言模型(LLM)與多模態大模型(LMM)性能的影響,該研究的方法框架基于以下兩個關鍵條件:

(1)言語思考或深思熟慮會損害人類“性能”的情況。

(2)將制約人類“性能”的因素推廣到語言模型的情況。

之後,爲驗證“CoT 在一些任務中會導致模型表現下降”的假設,研究團隊在上述兩個條件的指導下基于人類心理學設計了以下 6 種任務場景:

   *  隱性統計學習(Implicit Statistical Learning):考察模型在隱含語法結構的分類任務中使用 CoT 是否會降低表現。基于心理學中的實驗結果,該研究假設人類在進行語言推理時往往表現較差,因此 CoT 在該場景下應有類似的效果。

    * 面部識別(Facial Recognition):在該任務中,模型需要識別圖像中的人臉。基于人類在口頭描述面部特征後識別率下降的現象,研究假設 CoT 會影響模型的面部識別准確性。

    * 含例外模式的數據分類(Classifying Data with Patterns that Contain Exceptions):該任務模擬模型在含有異常標簽的數據中學習的表現。研究假設 CoT 會導致模型在遇到例外情況時增加學習輪次,因爲人類通常會傾向于建立簡單規則,從而忽視個別特例。

    * 解釋邏輯不一致(Explaining a logical inconsistency):在邏輯一致性判斷任務中,模型需要識別出兩句話之間的邏輯沖突,該任務通常會引發人類的語言推理困難。

   *  空間直覺(Spatial Intuitions):模型需要推斷液體在傾斜容器中的位置。該任務依賴空間和運動直覺,心理學研究表明人類在使用語言推理時效果不佳,該研究假設模型也會遇到類似問題。

    * 特征聚合決策(Aggregating Features for a Decision):模型在多維度決策情境中聚合信息並做出決策。由于信息過載通常會導致人類在 CoT 模式下表現不佳,因此研究假設在該任務中,CoT 將不會提高模型性能。



圖|對 6 項任務進行評估,以確定 CoT 提示是否會降低任務的績效。(來源:該論文)

針對每個任務場景,研究團隊分別構建了零樣本(zero-shot)和 CoT 提示條件,並在多個主流 LLM 和 LMM 上進行測試,包括 GPT-4o、Claude 3.5、Llama 等,通過對比不同條件下模型的准確率,量化 CoT 提示的效果,從而驗證他們的假設。

實驗結果

研究團隊首先對滿足上述兩個關鍵條件的 3 類任務場景進行實驗驗證。

隱性統計學習

針對該情境,該研究考察了模型在分類基于特定語法結構的序列時的表現。任務包含 4400 個分類問題,基于 100 種有限狀態語法(FSG)結構,每個測試提供 15 個樣例,再要求模型對新序列進行分類。

實驗結果顯示,使用 CoT 提示的模型表現顯著下降,尤其是 OpenAI o1-preview 模型的准確率下降了 36.3%。這表明當模型過度依賴逐步推理時,CoT 可能會抑制其對隱性統計模式的學習能力。



圖 | 人工語法學習中 zero-shot 和 CoT 對比結果。(來源:該論文)

面部識別

在該任務情境中,該研究測試了 CoT 是否會影響模型的面部識別能力,這是基于心理學中“語詞遮蔽”現象進行的任務情境設計。模型需要在 500 項任務中從 5 個候選中匹配初始人臉。

結果表明,當被要求執行 CoT 時,每個被測試的 LMM 都顯示出性能下降,與假設一致。



圖|面部識別中 zero-shot 和 CoT 提示的對比。(來源:該論文)

含例外模式的數據分類

該任務通過包含多個主次特征的分類任務來測試模型在處理含例外情況時的表現,任務要求模型在多次分類中逐步學習,目標是盡可能減少叠代次數。

實驗在 GPT-4o、Claude 3.5 Sonnet 和 Claude 3 Opus 上進行,結果表明,CoT 顯著增加了學習輪次。平均來看,GPT-4o 在 CoT 條件下完成正確分類所需的輪次爲直接提示的四倍,而 Claude 3.5 Sonnet 和 Claude 3 Opus 的輪次需求也分別增加至直接提示的兩倍多。



圖|使用直接或 CoT 提示,模型學習標簽的平均輪數。(來源:該論文)

在 GPT-4o 的進一步分析中發現,直接提示使模型在第二或第三輪就能達到完美分類,而使用 CoT 時模型在第四到第五輪僅能正確分類 8/10 的對象。這表明 CoT 提示會引導模型偏向基于規則的推理方式,而忽視了已知的正確答案,導致分類效率大幅下降。

之後,研究團隊又對滿足條件(1)但不滿足條件(2)的三類任務情境開展實驗。

解釋邏輯不一致

在該任務中,模型需要識別句子對中的邏輯矛盾性。該任務基于 SNLI 和 MNLI 數據集以及合成數據集。

研究發現,CoT 增加了模型忽視矛盾的可能性,模型在逐步推理時更傾向于關注複雜的邏輯結構,從而忽視了直接矛盾判定。這表明在需要精確邏輯驗證的任務中,CoT 提示存在局限性。



圖|邏輯不一致任務中比較 zero-shot 和 CoT 的結果。(來源:該論文)

空間直覺

在該情境中,模型需要通過“傾斜杯子”的問題來推斷水面的位置。這類任務依賴于人類的空間或運動直覺,而人類通常在非言語思維下表現更好。

模型接收了視覺提示和多項選擇答案,實驗結果顯示,使用 CoT 提示對模型表現無明顯影響。這說明在依賴空間或運動直覺的任務中,模型的推理方式與人類的直覺差異較大,因而 CoT 提示的負面影響較小。



圖|空間直覺任務中 zero-shot 和 CoT 的比較結果。(來源:該論文)

特征聚合決策

此任務模擬了基于多項特征的決策過程(如選房),用于測試信息超載對決策的影響。人類在類似任務中由于記憶限制,往往在 CoT 模式下表現較差。相對地,模型保留了所有上下文信息,能夠無損地聚合和評估每項特征。

結果顯示,CoT 提示在高上下文記憶任務中提高了模型表現,說明在信息保留至關重要的場景下,CoT 提示能夠發揮正向作用。



圖|四種模型和三種範圍內的公寓選擇任務結果。(來源:該論文)

不足與展望

當然,該研究也存在一些局限性,如下:

inference-time 推理的類型。自從 CoT 提示被提出以來,研究人員開發了多種特定于應用領域的提示方法,以及更複雜的多次前向傳遞的通用提示方法,如思維樹(tree-of thought)和自一致性(self-consistency)。

他們在 GPT-4o 模型上測試了思維樹方法在隱式統計學習任務中的有效性,發現其確實提高了分類准確率(64.55% vs. 62.52%),但仍遠低于零樣本推理的 94.00% 准確率。

未來的研究仍需探索此方法是否可以適用于其他任務領域和模型中激發語言思維的方法。

應用範圍。盡管這一研究基于心理學的啓發式方法提供了一種識別 CoT 失敗案例的策略,但這無法涵蓋所有可能導致 CoT 表現下降的情況。

現有的心理學研究基于多種理論和實際考量來研究人類,並不能提供涵蓋所有任務的詳盡或代表性樣本,且會遺漏一些僅在模型中具有研究價值的特殊案例。

關于 CoT 未能複制人類結果的替代解釋。

對于 CoT 在後面三個任務中沒有觀察到表現下降,存在一種替代解釋——在 LLM 中實現這些任務的方式消除了表現下降的效果。雖然研究對後三個任務情境進行了多種變體的探索,但由于提示的變化幾乎是無窮無盡的,這些探索並不詳盡。

研究團隊表示,雖然該研究聚焦于 CoT 推理,但所提出的框架爲利用人類心理學研究評估和改進模型表現提供了一種通用策略。

他們認爲,未來還需要更多的跨學科合作,通過將自然語言處理方法、心理學見解與人類和模型表現比較的相關研究相結合,可以形成更全面的 AI 評估和改進策略。---來源 :  學術頭條 -