01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

依賴大公司慷慨支持的開源型人工智能,究竟能持續多久?

2023051616:08

近日,一份據傳由高級工程師盧克•塞爾瑙()撰寫的備忘錄泄露,它大聲說出了硅谷許多人的心聲:一場開源混戰正威脅着大型科技公司對人工智能的控制。

新的開源大型語言模型——的 Bard 或 的 ChatGPT 的替代品,它們允許研究人員和應用程序開發人員對其進行重建和修改。這些模型比大公司創造的類似的人工智能模型更小、更便宜,性能上(幾乎)與它們相當,而且它們是免費共享的。

在上周的年度產品展示會上透露,它正在把生成式人工智能應用到它的所有產品中,從 Gmail 到照片再到地圖。所有大公司都忙着升級自己的產品,卻看不到真正的競爭即將到來,寫道:「當我們一直在爭吵的時候,第三個派別已經悄悄地吃掉了我們的午餐。」

從很多方面來說,這是一件好事。更廣泛地使用這些模型有助於推動創新,也有助於發現它們的缺陷。如果只有幾家超級巨頭控制着這項技術或者決定如何使用這項技術,人工智能就不會蓬勃發展。

但是這種開源的繁榮是不穩定的。大多數開源模型仍然是站在財力雄厚的大公司推出的巨型模型的肩膀上。如果 和 決定收回權限,這個新興領域可能會變成一灘死水。

例如,這些開源模型中的許多都是建立在 LLaMA 之上的,LLaMA 是 Meta AI 發布的一個開源大型語言模型。其他模型則使用一個名為 Pile 的大型公共數據集,該數據集是由開源非營利組織 EleutherAI 收集的。但 EleutherAI 的存在只是因為 的開放性,這讓一群工程師能夠逆向工程 GPT-3 的製作方式,然後在空閒時間創建了自己的 GPT-3。

「Meta AI 在培訓和向研究界發布模型方面做得非常好,」斯特拉·比德曼(Stella Biderman)說。她是 EleutherAI 的執行董事兼研究主管,同時也在諮詢公司 Booz Allen Hamilton 工作。塞爾瑙在他的備忘錄中也強調了 Meta AI 的關鍵作用。向《麻省理工科技評論》證實,這份備忘錄是由一名員工撰寫的,但指出它不是一份官方戰略文件。

這一切都可能改變。由於擔心競爭, 已經改變了之前的開放政策,而且 可能開始想要控制新生力量對其開源代碼做出不愉快事情的風險。「老實說,我覺得現在這樣做是正確的,」Meta AI 的董事總經理喬爾•皮諾(Joelle Pineau)在向外界開放代碼時說,「但這會是我們未來五年將延續的戰略嗎?我不知道,因為人工智能發展得太快了。」

如果這種關閉訪問權限的趨勢繼續下去,那麼不僅開源社區將被孤立,而且下一代人工智能的突破將被完全握在世界上最大、最富有的人工智能實驗室手中。

可以說,人工智能的製造和使用方式的未來正處於十字路口。

01.開源蓬勃發展

開源軟件已經存在了幾十年,這是互聯網生態運行的基礎。但是構建強大模型的成本意味着開源人工智能直到大約一年前才開始騰飛,它很快就變成了一個富礦。

看看最近幾周就知道了。2023 年 3 月 25 日,倡導免費開放人工智能的初創公司 推出了首款開源聊天機器人 HuggingChat,對標 ChatGPT 即 OpenAI 於 2022 年 11 月發布的聊天機器人。 HuggingChat 建立在一個名為 Open Assistant 的開源大型語言模型之上,該模型經過了大約 1.3 萬名志願者的幫助訓練,並於一個月前發布。但是,Open Assistant 本身是建立在 的 LLaMA 之上的。

然後是 StableLM,這是一個開源的大型語言模型,由 Stability AI 公司於 3 月 19 日發布,該公司開發了熱門的文本到圖像模型 Stable Diffusion。一周後,也就是 3 月 28 日,Stability AI 發布了 StableVicuna,這是 StableLM 的一個版本,與 Open Assistant 或 HuggingChat 一樣,它針對對話進行了優化(StableLM 是 Stability 對 GPT-4 的回應,而 StableVicuna 則對標 ChatGPT)。

這些新的開源模型只是過去幾個月發布的一系列模型的一部分,包括 Alpaca(來自斯坦福大學的團隊)、Dolly(來自軟件公司 Databricks)和 Cerebras-GPT(來自人工智能公司 Cerebras)。這些模型大多建立在 LLaMA 或 EleutherAI 的數據集和模型上,而 Cerebras-GPT 遵循 DeepMind 設置的模板。未來肯定還會出現更多。

對一些人來說,開源是一個原則問題。人工智能研究員、 用戶揚尼克·基爾徹()在一段介紹 Open Assistant 的視頻中說:「這是一項全球社區的努力,旨在將對話式人工智能的力量帶給每個人……讓它擺脫少數大公司的控制。」

「我們永遠不會放棄為開源人工智能而戰,」 的聯合創始人朱利安·肖蒙德()曾在推特上寫道。

對其他人來說,這是一個利益問題。 希望在聊天機器人上復現它在圖片生成上取得的輝煌:推波助瀾,然後從使用其產品的開發人員的創新中受益。該公司計劃充分利用這一創新,並將其重新投入到面向廣大客戶的定製產品中。Stability AI 的 CEO 愛馬德·莫斯塔克()表示:「我們激發創新,然後進行挑選。這是世界上最好的商業模式。」

不管怎樣,大量免費和開放的大型語言模型將這項技術推向了世界各地數百萬人的手中,激勵了許多人創造新的工具並探索它們的工作原理。比德曼說:「使用這項技術的途徑比以往任何時候都要多。」

「坦率地說,人們使用這項技術的方式多得令人難以置信,令人興奮,」美國弗里德弗蘭克律師事務所的律師阿米爾·加維(Amir Ghavi)表示。他代表了包括 在內的多家生成式人工智能公司。「我認為這證明了人類的創造力,而這正是開源的全部意義所在。」

02.GPU 融化

但是,從頭開始訓練大型語言模型,而不是在現有模型的基礎上進行構建或修改是很困難的。莫斯塔克說:「絕大多數人仍然無法做到。我們在構建 StableLM 時燒壞了一堆 GPU。」

Stability AI 發布的第一個模型是可以用文本生成圖像的 Stable Diffusion 模型,性能與的 Imagen 和 OpenAI 的 DALL-E 等封閉的同類產品相當。它不僅可以免費使用,還可以在一台不錯的家用電腦上運行。2022 年,Stable Diffusion 比其他任何模型都更能激發圍繞圖像製作 AI 的開源開發的爆炸式增長。

不過,這一次,莫斯塔克想要管理期望:StableLM 與 GPT-4 相差甚遠。「還有很多工作要做,」他說,「它不像 Stable Diffusion 那樣,你可以立即獲得非常可用的東西。語言模型更難訓練。」

另一個問題是,模型越大,訓練難度越大。這不僅僅是算力成本的問題。更大的模型更容易導致訓練過程中斷,需要重新啟動,這使得這些模型的構建成本更高。

比德曼說,在實踐中,大多數團隊能夠訓練的參數數量是有上限的。這是因為大型模型必須在多個不同的 GPU 上進行訓練,而將所有硬件連接在一起是很複雜的。

隨着技術的進步,確切的數字會發生變化,但目前,比德曼認為這個上限大約在 60 億到 100 億個參數之間。相比之下,GPT-3 有 1750 億個參數,LLaMA 有 650 億。一般來說,越大的模型往往表現得更好,不過關聯性也不是 100% 的。

比德曼預計,圍繞開源大型語言模型的活動將持續下去。但它將集中於擴展或調整一些現有的預訓練模型,而不是推動基礎技術的發展。她說:「只有少數幾家公司對這些模型進行了預訓練,我預計這種情況在不久的將來會保持下去。」

這就是為什麼許多開源模型都是建立在 LLaMA 之上的,LLaMA 是由 Meta AI 從頭開始訓練的,或者是 EleutherAI 發布的,EleutherAI 是一個非營利組織,在開源技術方面做出了獨特的貢獻。比德曼說她只知道另外一個這樣的組織,它在中國。

EleutherAI 的起步要感謝 。回到 2020 年,這家總部位於美國舊金山的公司剛剛推出了一款熱門的新模型。「對於很多人來說,GPT-3 改變了他們對大規模人工智能的看法,」比德曼說,「就人們對這些模型的期望而言,這通常被認為是一種智力範式的轉變。」

比德曼和其他一些研究人員為這項新技術的潛力感到興奮,他們想把玩這個模型來更好地理解它是如何工作的,於是他們決定複製它。

那時還沒有發布 GPT-3,但它確實分享了足夠的信息,讓比德曼和同事們弄清楚它是如何構建的。在 OpenAI 之外,從來沒有人訓練過這樣的模型,但當時正值疫情中期,團隊幾乎沒有其他事情可做。比德曼說:「當我參與進來時,我除了工作,就是和我的妻子一起玩桌遊。所以每周花 10 到 20 個小時來做這件事相對容易。」

他們的第一步是建立一個龐大的新數據集,其中包含數十億段文本,以與 用於訓練 GPT-3 的數據集相媲美。EleutherAI 將其數據集稱為「Pile」,並於 2020 年底免費發布。

然後,EleutherAI 使用這些數據集來訓練它的第一個開源模型。EleutherAI 訓練的最大的模型花了三個半月的時間,由一家雲計算公司贊助。其說:「如果我們自掏腰包,我們將花費大約 40 萬美元。」「這對一個大學研究小組來說太高了。」

03.援助之手

由於成本高昂,在現有模型的基礎上構建要容易得多。Meta AI 的 LLaMA 已經迅速成為許多新開源項目的起點。自從十年前由(Yann LeCun) 創立以來,Meta AI 一直傾向於開源開發。皮諾說,這種心態是文化的一部分:「這是一種非常自由的、『快速行動、創造東西』的方式。」

皮諾很清楚這樣做的好處,其表示:「這確實讓有能力為開發這項技術做出貢獻的人多樣化。這意味着研究人員,企業家或民間組織等也可以看到這些模型。」

像更廣泛的開源社區一樣,皮諾和同事們認為透明度應該成為規範。其表示:「我敦促我的研究人員做的一件事是,在開始一個項目時,就考慮到你想要開源。因為當你這樣做時,它在數據使用和如何建立模型方面設定了更高的標準。」

但也存在嚴重的風險。大型語言模型會散播錯誤信息、偏見和仇恨言論。它們可以用來炮製大規模輿論宣傳信息或者為惡意軟件提供動力。「你必須在透明度和安全性之間做出權衡。」皮諾說。

對於 Meta AI,這種權衡可能意味着一些模型根本不會發布。例如,如果皮諾的團隊在 Facebook 用戶數據上訓練了一個模型,那麼它將留在內部,因為私人信息泄露的風險太大了。否則,團隊可能會發布帶有特殊許可的模型,指定它必須僅用於研究目的。

這就是 LLaMA 所採用的方法。但在發布後的幾天內,有人在互聯網論壇 4chan 上發布了完整的模型和運行說明。皮諾說:「我仍然認為,對於這種特殊的模式來說,這是正確的權衡。」「但我對人們會這麼做感到失望,因為這讓發布這些模型變得更加困難。」

她說:「我們一直得到公司領導層和馬克·扎克伯格的大力支持,但這並不容易。」

Meta AI 的風險很高。她說:「當你是一家非常小的初創公司時,做一些瘋狂事情的潛在風險要比當你是一家非常大的公司時低得多。現在我們向成千上萬的人發布了這些模型,但如果問題變得更大,或者我們覺得安全風險更大,我們將關閉它,只向擁有非常強大保密措施的已知學術合作夥伴發布,採用保密協議或 NDA 模式,他們不能用該模型構建任何東西,即使是為了研究目的。」

如果發生這種情況,那麼許多開源生態系統的寵兒可能會發現,他們在 Meta AI 接下來推出的任何產品上構建的許可證都被吊銷了。如果沒有 LLaMA,像 Alpaca、Open Assistant 或 Hugging Chat 這樣的開源模型就不會這麼好,而且下一代的開源創新者不會像現在這批人那樣有優勢。

04.權衡

其他人也在權衡這種開放源代碼的風險和回報。

大約在 Meta AI 發布 LLaMA 的同時, 推出了一種閘門機制,這樣人們在公司平台上下載許多模型之前必須請求訪問並獲得批准。這個想法是為了只允許那些有正當理由的人接觸這個模型——由 Hugging Face 決定。

「我不是開源的布道者,」 公司的首席倫理科學家瑪格麗特·米切爾()說,「我確實明白為什麼閉源很有意義。」

指出,對於大模型的廣泛使用來說,未獲授權的色情作品是一個不利因素。她說,這是人工智能圖像製作的主要用途之一。

米切爾曾在工作,並與人共同創立了谷歌倫理人工智能團隊,她理解其中的緊張關係。她傾向於她所謂的「負責任的民主化」——這是一種類似於 Meta AI 的方法,即根據模型會造成傷害或被濫用的潛在風險,以一種可控的方式發布模型。她說:「我真的很欣賞開源的理念,但我認為建立某種問責機制是有用的。」

也在削弱其開放性。上個月,當該公司宣布為 ChatGPT 提供動力的新版大型語言模型 GPT-4 時,技術報告中有一句引人注目的話:「考慮到像 GPT-4 這樣的大型模型的競爭情況和安全影響,本報告沒有包含有關架構(包括模型大小)、硬件、訓練計算、數據集構建、訓練方法或類似技術內容的更多細節。」

這些新的限制部分是由於 現在是一家以利潤為導向的公司,與等公司競爭。但它們也反映出一種心態的改變。OpenAI 聯合創始人兼首席科學家伊利亞·薩特斯克弗()在接受 The Verge 採訪時表示,該公司過去的開放性是一個錯誤。

的政策研究員桑德希尼·阿加瓦爾()說,在公開什麼是安全的、什麼是不安全的問題上,OpenAI 顯然已經改變了策略:「以前,如果某個東西是開源的,可能只有一小群人會關心。現在,整個環境都變了。開源確實可以加速開發,並導致激烈競爭。」

但事情並不總是這樣的。如果 在三年前公布 GPT-3 的細節時有這種感覺,就不會有 EleutherAI。

如今,EleutherAI 在開源生態系統中扮演着關鍵角色。從那以後,它建立了幾個大型語言模型,Pile 被用來訓練許多開源項目,包括 Stability AI 的 StableLM。

如果 分享的信息少一些,這一切都不可能實現。與 Meta AI 一樣,EleutherAI 支持着大量開源創新。

但是隨着 GPT -4 的出現,開源可能會再次被一些大公司所關注。他們可能會推出瘋狂的新版本——甚至可能威脅到的一些產品。但他們將被上一代模型所困。真正的進步,將發生在關起門的房間裡。

這有什麼關係嗎?一個人如何看待大型科技公司關閉訪問權限的影響,以及它對開源的影響,在很大程度上取決於你對人工智能應該如何製造以及應該由誰製造的看法。

「人工智能很可能成為未來幾十年社會組織方式的驅動力,」加維說,「我認為,建立一個更廣泛的監督和透明體系,比把權力集中在少數人手中要好。」

比德曼對此表示贊同:「我絕對不認為,讓每個人都去做開源,是某種道德上的必要性,」其表示,「但說到底,讓人們開發和研究這項技術是非常重要的,而不是為其商業成功進行經濟投資。」

另一方面, 聲稱它只是在謹慎行事。OpenAI 信任與安全團隊負責人戴夫•威爾納()表示:「我們並不是認為透明度不好。更重要的是,我們正在努力弄清楚如何協調透明度和安全性。隨着這些技術變得越來越強大,在實踐中這些東西之間存在一定程度的緊張關係。」

「人工智能領域的許多規範和思維都是由學術研究團體構建的,這些團體重視協作和透明度,這樣人們就可以在彼此的工作基礎上繼續發展,」說,「也許隨着這項技術的發展,這種情況需要有所改變。」

[支持:Ren*原文:運營排版:何晨龍/來源:DeepTech深科技]