OpenAI的哪個對手能掀翻牌桌?
當地時間6月19日,Anthropic發布了Claude 3.5 Sonnet,這是Claude 3.5系列模型的首個版本,Anthropic在官宣博文中提到,新模型在智能、速度和成本效率方面都取得了顯著提升,並且在多個評估中超越了同類模型和 Claude 3 Opus。
在視覺模型方面,Claude 3.5 Sonnet 也有顯著提升,特別是在需要視覺推理的任務上,如解釋圖表和圖形。此外,它能夠從不完美的圖像中轉錄文本,在零售、物流和金融服務等的票據業務中很有應用前景。
目前,Claude 3.5 Sonnet可以在 Claude.ai 和 iOS 應用上免費使用,訂閱了 Claude Pro 和 Team 計劃的用戶,可以獲得更高的使用限額。Claude 3.5 Sonnet 也可以通過 Anthropic API的形式在Amazon Bedrock等雲服務中獲得,價格為每百萬輸入令牌 3 美元,每百萬輸出令牌 15 美元,具有 200K 令牌的上下文窗口。
Anthropic此次發布中,雖然提及了模型能力、速度、成本,以及多模態等方面的升級。然而細看他們公布的評測分數,其實與GPT-4o等模型的差距非常之小。最大的新意,似乎是全新的Artifacts功能。
Artifacts允許用戶在與 Claude 對話的同時,直接在對話旁邊編輯和構建 Claude 生成的內容,這標誌著 Claude 從單純的對話式 AI 向協作工作環境的轉變。
雖然Anthropic沒有放出大量Artifacts功能的演示,但是公布新模型之後,Claude.ai第一時間上線了全新模型和功能的試用,目前網上已經出現了大量真實用戶的評測體驗。相比於GPT-4o的實時對話等功能,Artifacts未必更加驚艷,但卻觸手可及。
作為一款模型內的應用功能,Artifacts的上線,似乎也意味著Anthropic正準備從「卷模型」的牌桌站起來,在模型產品、模型功能的維度上,跟OpenAI掀桌子。
Artifacts是什麽?
Anthropic的官方博文中對Artifacts的介紹並不多,不過從目前的測試來看,這項功能很可能是Claude 3.5,以及未來一段時間中最重要的功能之一。
Artifacts生成的內容塊,如代碼、文檔或可視化,會直接出現在用戶對話旁邊的專用窗口中。
以分析英偉達股票為例,首先打開Artifact這個實驗性選項。
打開Artifact這個實驗性選項
輸入prompt:我要分析英偉達這支股票,你先幫我想一下如何分析,而且應該變化要有對比,比如蘋果和微軟;
你應該刪除一些重要性沒那麽強的指標,而應該關註核心的反應關鍵變化的指標,特別是有先行指標特征的;
很好,現在用數據可視化形式;
需要真實的數據,時間應該是2010年開始到現在,而且數據可視化應該可以翻頁,每個頁面是3家公司的單獨數據看板;
把數值也標上去。
輸出結果
除了股票分析之外,Artifact還可以直接生成小遊戲。
小遊戲生成
「Claude3.5的新功能,類似給人的大腦上了核磁共振能考察運行的內容數據和分析特征了。」大語言模型研究專家祝韜告訴虎嗅,Artifacts功能和之前Anthropic一篇研究論文《Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet》有關。
祝韜分析認為,Artifact功能的開發直接受益於Anthropic團隊對模型內部特征的深入理解,發現某些特征的激活如何影響Claude的輸出偏好。
例如,多模態輸出:對模型處理不同類型信息(文本、代碼、圖像描述等)的特征的理解,可能促進了Artifacts支持多種輸出類型的能力;對模型如何在內部表示和關聯概念的理解,可能提高了Claude在Artifacts中保持上下文一致性的能力。
簡而言之,Artifacts功能可以被視為對Claude內部工作原理深入理解的實際應用。它展示了如何將對AI模型內部機製的研究轉化為實用的、面向用戶的功能。
* 頂級大模型進入應用時代
相比於Gemini 1.5和GPT-4o,Claude的優勢在於長文本輸出,不過關註長文本能力似乎使得Claude在文風跟隨上表現一般,仍需要一些解碼技術的支持。此外,Claude 3.5的數學能力似乎仍不如GPT-4o。
OpenAI的首席技術官Mira Murati最近在她的母校達特茅斯工程學院的一次訪談中透露,下一代 GPT(GPT-5)有望在「一年半內」問世。她還提到,下一代模型在特定任務方面將擁有「博士」級別的智能。
GPT-4o在模型能力上有限的提升,再加上GPT-5一推遲就是一年半,不禁讓人猜想業內頂流們在模型研發上是不是遇到了瓶頸。例如,訓練更大規模的模型需要更強大的計算資源和更復雜的算法設計,而這些都不是短期內能夠輕易解決的。
此外,訓練大型語言模型需要更多的計算資源、電力消耗以及數據獲取和處理的費用。這些成本不僅是經濟上的負擔,也在實際操作中增加了難度。進一步提升模型能力,需要更大規模、更高質量的數據。這類數據的獲取和處理也是一個巨大挑戰。
由此,頂流大模型們都開始將研發重點逐步轉型功能、應用,以及商業化場景。
Anthropic官宣博文中提到,公司還在開發新的功能和模式,以支持更多商業用例,並探索如何使 Claude 能夠根據用戶的偏好和歷史記錄來提供更加個性化和高效的體驗。
從GPT-4o的實時對話,Claude3.5的Artifacts功能,以及Gemini與谷歌生態的深度融合,似乎可以看出,AI大模型在應用和功能方面的研發和升級更加容易。
大模型在技術基礎上已經相對成熟,許多核心算法和架構也經過了廣泛的研究和優化。因此,基於這些現有技術進行應用層面的創新和改進相對更加容易。例如,GPT-4o 的改進可能更多是基於已有的 GPT-3 和 GPT-4 架構進行優化和調整。
應用和功能的研發通常是由具體用戶需求驅動的。用戶和企業在實際使用過程中會反饋出具體的問題和需求,這為研發團隊提供了明確的改進方向。例如,Claude 3.5 的 Artifacts 功能就是為了滿足用戶在生成和編輯獨立內容塊時的需求,從而增加了實際應用的靈活性和價值。
應用和功能的研發可以通過快速叠代來實現。相比於底層模型能力的提升,應用層面的改進可以通過不斷試驗和調整快速實現。例如,Gemini 與 Gmail 的結合,可以通過逐步集成和優化,快速提升用戶體驗和功能實用性。
AI大模型在不同應用場景中的表現差異很大,不同場景對模型的需求和要求也不同。這種多樣化使得開發者可以針對特定場景進行優化和改進,從而提升模型在該場景下的應用效果。例如,GPT-4o 在特定任務上的表現優化,Claude 3.5 的 Artifacts 功能,以及 Gemini 在郵件服務中的集成,都是基於特定應用場景的創新。
在應用和功能研發中,模塊化和組合創新非常重要。通過將不同的技術模塊進行組合和創新,可以實現新的功能和應用。例如,Claude 3.5 的 Artifacts 功能就是通過對模型內部特征的理解和利用,實現了多種內容類型的生成和編輯。
「AI大模型最終還是得看技術和市場的契合度。」波形智能創始人兼CEO姜昱辰告訴虎嗅,谷歌的優勢在於其龐大的數據量和良好的生態系統,因此Gemini的使用頻率反而比GPT更高,畢竟每天都要使用Gmail和Google Docs。
在大模型未來的市場化和發展方面,姜昱辰更看好谷歌,她認為盡管GPT-4o在ChatGPT產品基礎上有優勢,但谷歌有數據和應用兩個絕對優勢。---[出品:虎嗅科技組*作者:齊健*編輯:苗正卿*頭圖: MidJourney/來源: 虎嗅]