新V觀海外：中國國産Kimi與海外GPT-4和Claude-3的體驗差異

2024040116:04

在日常辦公和生活中，我有經常使用Kimi、GPT-4、Claude-3等多個AI助手的習慣。久而久之，就逐步摸出了各個AI助手的特性以及對應的適用場景。

Kimi對長文檔中的數字細節抓的更准

在日常辦公中，使用AI助手快速總結長報告的核心結論和關鍵數字是高頻使用場景。特別是一些機器學習領域的專業論文，關鍵研究成果通常是AI系統在某項測試基准上達成的得分或性能提升的百分比。

這時，能否從長達幾十頁的研究論文中准確、快速找到結論以及對應的具體數字，對于AI助手的使用體驗有著至關重要的作用。

在這方面，GPT-4在總結的結果中，往往會包括原文結論中最明顯的一項數字，再加上其它幾條相對寬泛的描述。這種做法雖然能最大程度上避免生成錯誤內容，但實際的用戶使用體驗相對一般。

Claude-3雖然宣稱輸入上下文窗口的長度很長，但在實際使用中會受制于相對有限的文檔上傳處理能力。即便是人工轉成長文本輸入，但它總結的關鍵數字的准確性並不理想。

而Kimi不僅能直接給出長文檔中的多條核心結論以及准確數字，還能在用戶追問解釋某一項數字的上下文背景時，繼續給出准確的文檔位置和內容解釋。除了這種准確抓住數字細節的能力，Kimi的文檔上傳處理能力也能很好滿足日常使用需求，還能進一步給出基于中文網頁的追問建議。

因此，如果主要使用場景是處理總結各類專業長文檔並輸出中文內容，那麽Kimi在絕大多數情況下都將是最佳選擇。

Claude-3的強化推理能力超出預期

Claude-3一經面世，便由于出色的測試結果而廣受關注。但是由于實際産品不支持互聯網搜索功能，且實際使用中的文檔處理情況並不出色，因此我一開始並沒有持續頻繁使用。

然而，直到最近，我嘗試用海外流行的思維推理題“兩根電線杆之間懸挂80米長電纜”對Claude-3、GPT-4、Kimi進行測試。這個問題需要跳出思維限制，就算普通人類用戶也很難在第一時間就給出正確答案。

在這三個AI助手的測試結果中，只有Claude-3在第一次就直接給出了完全正確的推理結果。

而GPT-4和Kimi都沒能得出正確結果。就算我繼續給出一次提示和一次正確結果建議後，Kimi調整了結果但依然不正確，GPT-4則陷入了錯誤推理方向，調用專業數學插件Wolfram也沒能給出結果。

GPT-4的産品化程度仍處于領先

如今，大語言模型之間的差距在縮小，模型在單一指標和單一測試基准方面的優勢很難帶來決定性的優勢，而産品化程度和商業化方向正成爲實現長久發展的關鍵因素，這種趨勢也能從最近Inflection AI、Stability AI等熱門AI公司出現的動蕩中得到驗證。

在産品化程度方面，GPT-4相對具有先發優勢。GPT-4中的GPTs商店正式上線至今已經初具規模，形成了繪圖、寫作、辦公、研究、編程、教育、生活等衆多類別的定制化應用。

特別是在最近，GPT-4在生成內容中大量增加了需要用戶二選一的比例，通過數據標記加速構建數據飛輪。

相比之下，盡管Kimi和Claude-3分別在追問建議、安全體驗等方面優化了産品體驗，但總體體驗上仍處于起步階段。

總結以上使用體驗，我會選擇繼續付費使用GPT-4，而Claude-3則不會。目前免費使用的Kimi如果後續推出付費版本，我也會進行選擇。---[陳沛 : 文 /來源: 經濟觀察報]

我要留言

新V觀海外：中國國産Kimi與海外GPT-4和Claude-3的體驗差異

機器狗首次陣亡！美國警方披露詳情

人工智能的盡頭還真是發電

機器狗首次陣亡！美國警方披露詳情

人工智能的盡頭還真是發電