新V觀海外:中國國産Kimi與海外GPT-4和Claude-3的體驗差異
在日常辦公和生活中,我有經常使用Kimi、GPT-4、Claude-3等多個AI助手的習慣。久而久之,就逐步摸出了各個AI助手的特性以及對應的適用場景。
Kimi對長文檔中的數字細節抓的更准
在日常辦公中,使用AI助手快速總結長報告的核心結論和關鍵數字是高頻使用場景。特別是一些機器學習領域的專業論文,關鍵研究成果通常是AI系統在某項測試基准上達成的得分或性能提升的百分比。
這時,能否從長達幾十頁的研究論文中准確、快速找到結論以及對應的具體數字,對于AI助手的使用體驗有著至關重要的作用。
在這方面,GPT-4在總結的結果中,往往會包括原文結論中最明顯的一項數字,再加上其它幾條相對寬泛的描述。這種做法雖然能最大程度上避免生成錯誤內容,但實際的用戶使用體驗相對一般。
Claude-3雖然宣稱輸入上下文窗口的長度很長,但在實際使用中會受制于相對有限的文檔上傳處理能力。即便是人工轉成長文本輸入,但它總結的關鍵數字的准確性並不理想。
而Kimi不僅能直接給出長文檔中的多條核心結論以及准確數字,還能在用戶追問解釋某一項數字的上下文背景時,繼續給出准確的文檔位置和內容解釋。除了這種准確抓住數字細節的能力,Kimi的文檔上傳處理能力也能很好滿足日常使用需求,還能進一步給出基于中文網頁的追問建議。
因此,如果主要使用場景是處理總結各類專業長文檔並輸出中文內容,那麽Kimi在絕大多數情況下都將是最佳選擇。
Claude-3的強化推理能力超出預期
Claude-3一經面世,便由于出色的測試結果而廣受關注。但是由于實際産品不支持互聯網搜索功能,且實際使用中的文檔處理情況並不出色,因此我一開始並沒有持續頻繁使用。
然而,直到最近,我嘗試用海外流行的思維推理題“兩根電線杆之間懸挂80米長電纜”對Claude-3、GPT-4、Kimi進行測試。這個問題需要跳出思維限制,就算普通人類用戶也很難在第一時間就給出正確答案。
在這三個AI助手的測試結果中,只有Claude-3在第一次就直接給出了完全正確的推理結果。
而GPT-4和Kimi都沒能得出正確結果。就算我繼續給出一次提示和一次正確結果建議後,Kimi調整了結果但依然不正確,GPT-4則陷入了錯誤推理方向,調用專業數學插件Wolfram也沒能給出結果。
GPT-4的産品化程度仍處于領先
如今,大語言模型之間的差距在縮小,模型在單一指標和單一測試基准方面的優勢很難帶來決定性的優勢,而産品化程度和商業化方向正成爲實現長久發展的關鍵因素,這種趨勢也能從最近Inflection AI、Stability AI等熱門AI公司出現的動蕩中得到驗證。
在産品化程度方面,GPT-4相對具有先發優勢。GPT-4中的GPTs商店正式上線至今已經初具規模,形成了繪圖、寫作、辦公、研究、編程、教育、生活等衆多類別的定制化應用。
特別是在最近,GPT-4在生成內容中大量增加了需要用戶二選一的比例,通過數據標記加速構建數據飛輪。
相比之下,盡管Kimi和Claude-3分別在追問建議、安全體驗等方面優化了産品體驗,但總體體驗上仍處于起步階段。
總結以上使用體驗,我會選擇繼續付費使用GPT-4,而Claude-3則不會。目前免費使用的Kimi如果後續推出付費版本,我也會進行選擇。---[陳沛 : 文 /來源: 經濟觀察報]