零一萬物Yi-Large登頂全球盲測榜單 李開復:中美差距已縮短至6個月
上周,一個名為「im-also-a-good-gpt2-chatbot」的神秘模型突然現身大模型競技場Chatbot Arena,排名直接超過GPT-4-Turbo、Gemini 1 .5 Pro、Claude 3 0pus、Llama-3-70b等各家國際大廠的當家基座模型。隨後OpenAI揭開「im-also-a-good-gpt2-chatbot」神秘面紗——正是GPT-4o的測試版本,OpenAI CEO Sam Altman也在Gpt-4o發布後轉帖引用 LMSYS arena 盲測擂臺的測試結果。
資料顯示,由開放研究組織 LMSYS Org (Large Model Systems Organization)發布的Chatbot Arena已經成為OpenAI、Anthropic、Google、Meta等國際大廠「龍爭虎鬥」的當紅擂臺。
時隔一周,在最新更新的排名中,這次排名飛速上漲的模型是由中國大模型公司零一萬物提交的「Yi-Large」 千億參數閉源大模型。
據悉,在 LMSYS 盲測競技場最新排名中,零一萬物的最新千億參數模型 Yi-Large 總榜排名世界模型第7,中國大模型中第一,已經超過Llama-3-70B、Claude 3 Sonnet;其中文分榜更是與GPT4o 並列世界第一。
值得一提的是,Yi-Large的中文語言分榜上拔得頭籌,與 OpenAI 官宣才一周的地表最強 GPT4o 並列第一,Qwen-Max 和 GLM-4在中文榜上也都表現不凡。
與此同時,在編程能力(Coding)排行榜上,Yi-Large 的Elo分數超過Anthropic 當家旗艦模型 Claude 3 Opus,僅低於GPT-4o,與GPT-4-Turbo、GPT-4並列第二。長提問(Longer Query)榜單上,Yi-Large同樣位列全球第二。
在今天的訪談中,零一萬物CEO 李開復向網易科技等媒體表示,LMSYS提供了一個第三方的、公正的平臺,其他競爭對手也都非常認可。而零一萬物的團隊規模、參數規模、GPU算力都比排名更靠前的模型「小」。
關於小模型相關規劃,李開復談到,我們的計劃是從最小到最大的模型都能夠做到中國最好,在6B、9B、34B等等,未來可能有更小的模型發布,它們都是同樣尺寸達到業界最佳,不敢說第一,但是總體來說是第一梯隊或者是最好的一兩名,而且在很多方面,在代碼方面、中文方面、英文方面表現都非常好。
談及國產大模型的價格戰,李開復回應,國內常看到ofo式的瘋狂降價,這是雙輸的打法。我覺得大模型公司不會這麽不理智,因為技術還是最重要的,如果是技術不行?就純粹靠貼錢賠錢去做生意?我們絕對不會跟這樣的一個定價來做對標,我們對自己的模型表現是非常自豪的。
他舉例,就像你如果有一臺特斯拉,它不會因為別的牌子的車比它賣的很便宜它就覺得它要降價,我們就是特斯拉,我們的價錢是合適、值得的。
談及中美差距,李開復自信的談到,在一年前,我們(中國)落後OpenAI、Google 7-10年,現在,「我覺得差距也就是在6個月左右」,大大降低了。---(定西/來源: 易科技報導)