小紅書怎麽用大模型?頂會作者在線等你來聊
大模型正引領新一輪的研究熱潮,業界和學術界都湧現出了眾多的創新成果。
小紅書技術團隊也在這一浪潮中不斷探索,多篇論文研究成果在ICLR、ACL、CVPR、AAAI、SIGIR、WWW等國際頂會上頻頻亮相。
在大模型與自然語言處理的交匯處,小紅書發現了哪些新機遇和挑戰?
對於大模型,有哪些有效的評測方法?它又如何更好地融入到應用場景中的呢?
6月27日19:00-21:30,【REDtech來了】第十一期《小紅書2024大模型前沿論文分享》線上開播!
REDtech特別邀請了小紅書社區搜索團隊來到直播間,他們將分享6篇小紅書在2024年發表的大模型研究論文。
小紅書精排LTR負責人馮少雄,攜手多位頂會論文作者李易為、王星霖、袁沛文、張超等人,共同探討最新的大模型解碼與蒸餾技術、大模型評測方法,以及大模型在小紅書平臺上的實際應用。
預約直播,多篇論文一作作者在線與你交流!你將獲得關於大模型技術的最新見解,探討未來的發展趨勢,並交流如何利用這些前沿技術提升用戶體驗,推動平臺智能化發展。
01, Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning / 入選 ICLR 2024
針對大模型多步推理中高成本問題的早停自洽性方法 ---講者:李易為
自洽性方法(Self-Consistency,SC)一直是思維鏈推理中廣泛使用的解碼策略,通過生成多個思維鏈並取多數答案作為最終答案,來提高模型的性能。但它是一種高成本的方法,需要進行預設大小的多次采樣。
在ICLR 2024上,小紅書提出一種簡單且可擴展的采樣過程——早停自洽性方法(Early-Stopping Self-Consistency,ESC),它能在不犧牲性能的情況下,大幅度降低SC的成本。在此基礎上,團隊進一步推導出一種ESC控製方案,以動態選擇不同任務和模型的性能-成本平衡。三種主流推理任務(數學,常識和符號推理)的實驗結果顯示,ESC在六個基準測試中顯著降低了平均采樣次數,同時幾乎保持原有性能。
論文地址:https://arxiv.org/abs/2401.10480
02, Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Language Generation / 入選 ACL 2024
去粗取精:面向自由格式生成任務的細粒度自洽性方法 ---講者:王星霖
小紅書在ACL 2024中提出了Fine-Grained Self-Consistency (FSC) 方法,能夠顯著提升自洽性方法在自由格式生成任務上的表現。
團隊首先通過實驗分析了現有面向自由格式生成任務的自洽性方法的不足來自於粗粒度的共性樣本選擇,其無法有效利用不同樣本細粒度片段之間的共性知識。
在此基礎上團隊提出了基於大模型自融合的FSC方法,實驗證實其在代碼生成、摘要生成以及數學推理任務上都取得了顯著更優的表現,同時保持了相當的消耗。
論文地址:https://github.com/WangXinglin/FSC
03, BatchEval: Towards Human-like Text Evaluation / 入選 ACL 2024,領域主席給出滿分評分,並推薦最佳論文
邁向人類水平的文本評測 ---講者:袁沛文
小紅書在ACL 2024中提出了BatchEval方法,能夠以更低的開銷達到類人水平的文本評測效果。
團隊首先從理論層面分析了現有文本評測方法在評測魯棒性方面的不足來自於評測打分分布不均勻、在得分集成方面的次優表現源自於評測視角多樣性的缺失。
在此基礎上,受人類評測過程中通過樣本間比較來建立更加立體全面、視角多樣的評測基準啟發,類比提出了BatchEval。與當前最先進的若幹方法相比,BatchEval在評測開銷與評測效果兩方面都取得了顯著更優的表現。
論文地址:https://arxiv.org/abs/2401.00437
04, Poor-Supervised Evaluation for SuperLLM via Mutual Consistency / 入選 ACL 2024
通過互一致性實現準確監督信號匱乏下的超人水平大語言模型評測 ---講者:袁沛文
小紅書在ACL 2024中提出了PEEM方法,其能夠通過模型間的互一致性實現對於超越人類水平的大語言模型的準確評測。
團隊首先分析了當前大語言模型迅猛發展的趨勢會加速其在多個方面逐漸達到甚至超越人類水平,在此情況下,人類將難以再提供準確的評測信號。
為實現該場景下的能力評測,團隊提出了以模型間的互一致性為評測信號的設想,並推導出了在評測樣本無窮時,如果存在參考模型與待評測模型間預測分布獨立,則與該參考模型間的一致性可以作為模型能力的準確度量。
在此基礎上,團隊提出了基於EM算法的PEEM方法,實驗證實其能夠有效緩解現實中上述條件的不充足,從而實現對超越人類水平的大語言模型的準確評測。
論文地址:https://github.com/ypw0102/PEEM
05, Turning Dust into Gold:Distilling Complex Reasoning Capabilities from LLMs by Leveraging Negative Data / 入選 AAAI 2024 Oral
利用負樣本促進大模型推理能力的蒸餾 ---講者:李易為
大語言模型(LLMs)在各種推理任務上表現優異,但其黑盒屬性和龐大參數量阻礙了它在實踐中的廣泛應用。特別是在處理復雜的數學問題時,LLMs有時會產生錯誤的推理鏈。
傳統研究方法僅從正樣本中遷移知識,而忽略了那些帶有錯誤答案的合成數據。在AAAI 2024上,小紅書搜索算法團隊提出了一個創新框架,首次提出並驗證了負樣本在模型蒸餾過程中的價值,構建一個模型專業化框架,除了使用正樣本外,還充分利用負樣本來提煉LLM的知識。
該框架包括三個序列化步驟,包括負向協助訓練(NAT)、負向校準增強(NCE)和動態自洽性(ASC),涵蓋從訓練到推理的全階段過程。一系列廣泛的實驗,展示了負向數據在LLM知識蒸餾中的關鍵作用。
論文地址:https://arxiv.org/abs/2312.12832
06, NoteLLM: A Retrievable Large Language Model for Note Recommendation / 入選 WWW 2024
基於大語言模型的筆記內容表征推薦系統 ---講者:張超
小紅書APP每天都有大量新筆記產生,如何有效地將這些新內容推薦給感興趣的用戶呢?基於筆記內容的推薦表征是緩解筆記冷啟動問題的一種方法,也是眾多下遊應用的基礎。
近年來,大語言模型因其強大的泛化性和文本理解能力而備受關註。因此,小紅書希望利用大語言模型構建筆記內容表征推薦系統,以增強筆記內容的理解。技術團隊將從生成增強表征以及多模態內容表征兩個角度介紹近期的工作。
目前該系統已應用於小紅書多個業務場景並取得顯著收益。
---[允中 發自: 凹非寺*量子位: 公眾號 QbitAI/來源: 量子位]
論文地址:https://arxiv.org/abs/2403.01744