最強開源大模型Llama3深夜發布 - 世界不能沒有Meta
其實昨天在微軟的偷跑之後,就已經有消息說,Llama3要出了。
這個消息的振奮程度,對於AI圈來說,甚至不亞於所謂的GPT4.5。
畢竟,meta才是真正的那個"OpenAI"。
有多少大模型的生態,是建立在Llama上的,大家都懂。
而這個開源之光,被全世界無數人盯著的大模型,Llama3,在時隔近9個月之後的今晚。
終於正式發布了。
我的幾個朋友,都已經瘋了,比如zR同學:
今夜無眠。
Llama3目前在自己的官網和huggingface上,模型已經上架:
https://llama.meta.com/llama3/
而且還是meta的老規矩,雖然寫的是特定條件下商業使用(月活不得超越7億),但是基本等於完全免費商用了。
這次開源了2個模型,8B和70B。
然後就是大模型的傳統藝能:跑分。
坦率的講,他們這個跑分,有一點的離譜。
5個評測集分別是MMLU(學科知識理解)、GPQA(一般問題)、HumanEval(代碼能力)、GSM-8K(數學能力)、MATH(比較難得數學)
不管是8B還是70B,基本等於全線秒殺。
8B這邊,直接把同尺寸的摁在地上打。
曾經的Mistral 7B也是有過輝煌的。
現在也被幹成了時代的眼淚。
甚至,Llama3自己的8B模型,效果都比Llama2的70B要好,這事就非常的特麽離譜。
而Llama3 70B那邊,直接對標Gemini Pro 1.5(Gemini:我到底做錯了啥)和Claude3 Sonnet。GPT-4逃過一截哈哈哈哈。
這個分數真的很恐怖了,畢竟參數量跟兩玩意都不是一個量級的,Llama3只有70B,還能打的有來有回,雖然跟Claude3最牛逼的那個Opus還有一些差距,但是這特麽是開源的啊!
他們還做了一個有趣的測試,搞了一個全新的高質量評估集。
裏面包含 1800 個提示,涵蓋 12 個關鍵用例,分別是:
尋求建議、頭腦風暴、分類、封閉式問答、編碼、創意寫作、提取、塑造角色/角色、開放式問答、推理、重寫和總結。
最騷的是,為了防止過擬合,甚至Llama3自己的建模的團隊事先都不知道這玩意。然後針對 Claude Sonnet、Mistral Medium 和 GPT-3.5,對這些類別和提示進行人工評估。
結果就是:
很強。
不過也有兩個很der的點。
一個是知識庫時間,一個是上下文長度。
知識庫這塊,7B只到2023年3月,70B到了2023年12月。
上下文長度更是只有可憐的8K。
知識庫的時間還好說,但是你這個上下文長度,在現在動不動200k的時代裏,屬實是有點不夠看了。。
Llama3的訓練數據,用了超過15T詞庫的預訓練,是Llama 2的七倍。包含的代碼數量是Llama 2的四倍。預訓練數據集含5%以上的非英語數據,覆蓋30多種語言。
而且,他們還有個400B的離譜玩意還在訓練中。但是我覺得400B的這玩意大概率不會開源。。。
再對比一下目前的主流的最強模型:
就...離譜
直接跟Claude3 Opus和GPT4 Turbo差不多,爆殺了Gemini Pro 1.5。
嗯。。。。無話可說。。。
現在可以直接在的官網用:https://www.meta.ai/
如果你沒Meta賬號的話,也可以在這用:https://llama3.replicate.dev/
當然,我相信更多的人,還是會下載下來,本地部署+微調。
Llama3的中文還是不咋地,幾乎就沒啥數據,所以還是得靠大佬微調以後才能用,前提是必須遵守Llama 3社區許可證和可接受使用政策。
而我們再跑了2小時後,我們發現很突出的一點是,代碼能力太炸了。
zR跑了很多的case(都是英文)。
比如一個經典的皇后問題。
Llama3-8B直接給出了解法:
然後,運行。
這特麽在Llama2中,基本是不可能的,只有專門的代碼模型,才能搞定。
要知道,Llama3-8B,只是一個8B的通用大模型啊。。。
然後,我們又上了一個賊難的一題。按zR的話說,這就是leetcode上,最難的一題。
題目是:
然後跑了一次,報錯了,給了報錯和答案錯誤,對話三次後:
。。。
他自閉了。
GPT4同樣出錯,享受跟Llama3-8B的同等待遇,還是沒幹出來。
但是Llama3-8B,幹出來了。。。
太抽象了。。。
總結來說,Llama3這次,絕對是王炸級別的模型。
也可以當之無愧的說,就是最強的開源模型。
Meta再次證明了,自己才是那個"OpenAI",而那個OpenAI,只是個"CloseAI"。
世界不能沒有Meta。
還有個小插曲是,今天還是吳恩達的生日。
所以話說回來,OpenAI你的GPT5還在等啥呢?
快狙擊啊。別慫。
趕緊的。
我們等你。---來源: 數字生命卡茲克