01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

開源或閉源,大廠為什麽站隊

2024071419:53

在 2024 年世界人工智能大會期間,李彥宏再次就大模型「開源還是閉源」的爭論做出解讀,表示當前中國大模型行業應用場景處在激烈的競爭環境中「只有業務效率比同行更高,成本更低」才能讓大模型脫穎而出「這種情況下,商業化的閉源模型才是行業的未來」。

他同時還強調:目前即使是較小規模的閉源模型,其實現效果同樣優於同等體積的開源模型。

這並非李彥宏今年第一次發表類似的觀點,進入 2024 年,李彥宏就開始在以演講為主的各種場合,公開宣揚百度關於「閉源最終將戰勝開源」的觀點。

雖然此類論點幾乎每次出現都會引發不小的爭議,但卻也直接反映出在過去一年多時間的大模型行業落地發展探索中,業內逐漸形成的兩種主流論調:除了周鴻祎這樣一直就行業爭議話題發表觀點,業內主要的明星大模型創業團隊基本都旗幟鮮明地支持開源大模型,並通過開源的方式不斷拓展在行業內的影響力。

而在大廠領域,目前中美兩地都有分別支持開源與閉源的巨頭:閉源陣營有 OpenAI、Google 以及百度,開源則是以 Meta、騰訊、阿裏為主。

但這種表面上的「站隊」,更多是不同發展現狀下,面臨不同問題的另一種解答:大模型的燒錢,對於每一家大模型公司來講都是同樣的問題,因此站在不同的角度,面對來自用戶、投資人、開發者不同的需求,就出現了「巨頭站閉源,中廠難開源,初創企業不能不開源」這樣的現象。

01 初創團隊:出海與融資都需要開源

相比巨頭的需求各異,初創企業站隊支持開源的理由相對較為統一:當前階段所面臨的主要問題,都能從「開源」這個途徑找到答案。

據零一萬物開源業務負責人林呂強介紹:初創團隊選擇開源,甚至有大量團隊選擇 All in 開源,本質上是因為這是一種打破市場現狀的最高效的方式。

在業內大量優秀項目都已經開源的前提下,只有開源才能吸引更多用戶實際上手體驗,尤其是在對話模型領域的一些開創性技術,「優勝劣汰」是最重要的特征。大模型中廠喜歡通過刷各種榜單的方式博眼球,資本市場更加青睞那些真正能通過模型產品給現有體驗帶來明顯改變的團隊。

「開源也是最重要的試金石,如果你(模型)本身性能不夠出眾,即使是開源最終也會無人問津」一位參與到獨角獸大模型團隊海外出海項目的應用產品經理對電廠記者表示。

這並非是獨角獸或創業團隊的專利,在 Meta 與 OpenAI 的競爭中也能看到類似的影子:對於已經積累大量資源的巨頭,通過開源來建立事實標準,是巨頭在競爭中快速攻城略地的重要手段。

有了開源社區作為強大後盾,即使是作為 OpenAI 投資方的微軟,也不得不選擇放低姿態,主動成為 LLama 的最大合作夥伴:因為微軟作為全球最重要的雲服務供應商,自然無法背棄開源社區的主流選擇。

開源是大模型開發團隊尋求進一步發展的重要方式,這種特質中國大模型團隊身上也體現的非常明顯,尤其是當前呈現出「出海浪潮」的獨角獸企業:據 The Information 報道,國內 AI 獨角獸代表公司之一的月之暗面已經在為進軍美國市場做準備,已經在美國招募相關員工組建團隊,並計劃在加州建立當地的辦公室。

國內 AI 初創團隊會在多個國家同時建立新的辦公室布局,開源作為出海之前最關鍵的前哨戰,對於達成出海最關鍵的目的之一 —— 儲備人才來講有極大的好處。憑借著開源項目的不斷退出,中國初創團隊也已經在全球的開源社區中占據了重要的位置,這進一步增加了中國大模型團隊在出海時選擇開源的意願。

綜合上述因素,如今擁抱開源已經是僅剩的選項。剩下的問題只是「如何通過開源的方式獲取到更多關註,並在此過程中快速積累實力。

02 行業落地

正是因為開源本質上是一件多贏的行為,因此公開宣稱「開源沒有未來」幾乎等同於站在絕大部分開發者的對立面。

百度作為同樣依賴開發者社區擴大現有業務的平臺級巨頭,敢於頻頻出頭犯此忌諱,原因無外乎是因為自家大模型前期訓練投入的計算資源與成本,急需通過推廣閉源大模型行業商業化的方式來收回。

雖然開源有著種種無可取代的優勢,但目前在國內行業大模型的探索中,已經形成的共識是:至少在當下以及未來的一段時間內,開源大模型與閉源大模型之間仍然有著技術代差。這是閉源大模型的商業價值要高於開源模型的最主要原因。

從過去一年多時間的大模型行業落地應用案例來看,閉源大模型確實更受用戶歡迎。主要原因是用戶的實際需求各異,開源模型在處理行業相對更加復雜的垂直領域問題時,經常會出現的推理能力不足問題。

據一位長期觀察大模型落地案例的分析師介紹,解決此類問題目前最理想的方式是通過閉源模型的私有化部署,在這個過程中閉源代碼能更快速高效的完成合作夥伴提出的各種需求,在叠代速度更快的同時,針對用戶需求更新叠代的指向性更佳。

除了需要對應用效果負責,閉源同時也是一種確保用戶數據更加安全可控的宣傳手段:即使開源大模型目前普遍強調自身的治理機製,例如代碼審查製度以及數據隱私培訓等措施,但這些都無法從根源上解決隱私泄露的風險所在。

這不僅是潛在的風險,在實際推廣中更是很大程度影響著用戶對大模型效果的信心:閉源模型在國內發展往往有著大廠的品牌作為背書,這即是開源閉源大模型競爭中的特殊優勢,也是大模型監管領域問責鏈條的最後一環。

這一點在政企以及工程醫療領域的模型產品落地最為明顯:2023 年八月,北京市衛健委牽頭組織指定的《北京市互聯網診療監督實施辦法(試行)》公布,其中明確提到嚴禁使用人工智能自動生成處方、替代醫師本人提供診療服務。對應的就是此前業內擔憂最多的關於「如果患者因為 AI 錯誤決策受害、如何明確責任歸屬」這一問題。



眼下大模型行業應用仍然處於行業早期的探索試錯階段,因此絕大部分用戶對於監管與問責機製都趨於極端保守的態度,但與之相矛盾的是國內各個領域的大模型應用,幾乎都會面臨數據質量不足的問題。

為了加速模型的訓練與開發,無論開源還是閉源模型都需要大量垂直領域的合成數據來改進模型反饋質量,有著更明確責任歸屬與快速反饋響應機製的閉源大模型產品在這種需求之下往往能發揮其獨特的優勢。

根據目前公開的信息顯示:主要的閉源大模型巨頭在提供模型本地化部署服務的同時,往往也會通過各種方式規避直接訓練帶來的潛在風險,通過去標識化、數據脫敏、泛化等技術將用戶數據脫敏處理,最大程度上降低安全隱患:這些已經屬於百度、騰訊等傳統互聯網巨頭最具優勢的領域,讓自家的閉源大模型達成這些需求,已經有相當輕車熟路的操作經驗。

「大模型的代碼開源並無意義,因為核心價值已經從代碼轉向了數據與訓練方法」實際上,目前大模型遵循的「開源」,所遵循也也並非傳統代碼領域所理解的「開放源代碼」概念。

一直以「最大開源模型平臺」地位自居的 Llama2 實際上也並不遵循傳統的代碼開源協議,而是一個 Meta 自己定製的自有協議,其中糅雜了大量 Meta 的獨占條款:例如其中明確規定了當某一個項目月度活躍用戶超過七億時,Meta 有權自行決定是否繼續進行開源授權。 這是目前大模型開源領域所存在的模糊之處。

RWKV 聯合創始人羅璇表示「開源並不是商業化的反義詞,開源意味著打破壟斷」Llama 2 系列模型開源之所以成為引發行業震動的重要事件,是因為開源雖然仍然存在著行業應用的天花板,但的確大幅降低了企業的應用門檻。

類似 Llama 2 這樣的復雜的模型開源、允許其他企業在此基礎之上免費商業使用,開發者也可以通過微調 Llama 2 來滿足一些特定的使用需求,比起商業化的價值所在,在使用中大模型的價值逐漸清晰,從而進一步推廣大模型更多應用的可能,這些在一線創業者眼中或許才是開源最具價值的領域所在。

就這一點來講,大小企業都有機會從開源中獲益,真正受到開源影響最嚴重的是夾在中間的各種大模型「中廠」:中型企業的投資力量遠不如巨頭,但也很難像初創企業那樣完全走開源路線。

只要還有大量的開源貢獻者不斷融入社區,給行業帶來新的活力與思想,就會源源不斷地出現如同 Llama 2 那樣的新變數,這也將是未來開源大模型重要性的最大未知數。

在行業應用領域,只有最先落地的廠商,才能獲取到最多的發言權,但開源模型永遠也不回如同閉源模型廠商所宣稱的「開源沒有未來」。開源「叢林法則」的競爭模式雖然不如閉源可控,但「突變」出規則改變者的概率也更大。

只要開源給行業帶來的活力與鯰魚效應會持續下去,開源大模型就會一直是行業中重要的一部分之一這一點並不會隨著行業巨頭的主觀意願而改變。---(文: 電廠/來源: 鈦媒體)