01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

我的領導馬斯克:痛恨開會,不要非技術中層,推崇裁員

2024033114:42

馬斯克稱得上是個“魔鬼老板”這事兒,已經出了名了。

現在,他的老部下卡帕西(Andrej Karpathy)又在最新訪談中“錘”了他一把(doge):

    我不得不懇求他允許我招人。
    他(馬斯克)總是默認要裁掉員工。



喜歡裁人之外,在這場紅杉組織的AI Ascent活動上,卡帕西還揭秘了更多馬斯克管理公司的細節:

痛恨開會、拒絕躺平、比起跟VP更喜歡直接和工程師們聊工作……

另外,他也聊了不少大家夥關心的大模型話題,包括:

    LLM OS
    規模重要嗎?
    年輕的初創公司要如何與OpenAI競爭?

更多細節,以下奉上文字版分享~

(Claude 3亦有貢獻)

大語言模型是新時代的CPU

Q:安德烈,非常感謝你今天加入我們。OpenAI最初的辦公室就在我們舊金山辦公室的對面,當時你們很多人都擠在一起。

除了在一家巧克力工廠樓上工作,實現了威利·旺卡的夢想,在這裏工作還有哪些令你難忘的時刻?

卡帕西:是的,OpenAI最初的辦公室就在那裏,如果不算Greg的公寓的話。

我們在那裏待了大概兩年,樓下就是巧克力工廠,味道一直很香。那時團隊大概有10-20多人。

我們在那裏度過了一段非常有趣的時光。老黃在GTC大會上提到的,他把第一台DGX超級計算機送到OpenAI的事,就發生在那裏。



Q:安德烈其實是不需要介紹的,不過我還是想提一下他的背景。他師從Geoffrey Hinton和李飛飛,最早因爲在斯坦福大學開設的深度學習課程成名。

2015年他聯合創辦了OpenAI。2017年,他被馬斯克挖走了。

大家可能不太記得當時的情況了:特斯拉經曆了6任Autopilot負責人,每個人都只做了6個月。我記得安德烈接手這個職位時,我還祝他好運來著。

沒過多久,他就回到了OpenAI。而現在他擁有完全的自由,可以想做什麽就做什麽。所以我們很期待聽他今天分享的見解。

我最欣賞安德烈的地方在于,他是一位令人著迷的未來主義思想家,他是堅定的樂觀主義者,同時他也是非常務實的建設者。今天他會和我們分享一些關于這些方面的見解。

首先,即便在7年前,AGI看起來也是一個在我們有生之年幾乎不可能實現的目標。而現在它似乎已經在望了。你對未來10年有什麽看法?

卡帕西:你說的沒錯。幾年前,AGI的路徑還很不明朗,還處于非常學術化的探討階段。但現在已經很清晰了,大家都在努力填補這片空白。

優化工作正在如火如荼地進行。大致來說,每個人都在努力構建“大模型操作系統(LLM OS)”。

我喜歡把它比作一個操作系統。你要准備好各種外圍設備,然後把它們連接到一個新的CPU上。這些外圍設備包括文本、圖像、音頻等各種模態。CPU就是語言模型本身。它還要與我們已經構建的所有Software 1.0基礎設施相連。

我認爲大家都在努力構建這樣一個東西,然後把它定制成適用于各個經濟領域的産品。

總的來說,發展方向就是我們可以調整這些相對獨立的agent,給它們分配高層次的任務,讓它們專門從事各種工作。這將非常有趣和令人興奮。而且不止一個agent,會有很多agent。想象一下那會是什麽樣子?



Q:如果未來真的如你所說,那我們現在應該如何調整自己的生活方式?

卡帕西:我不知道。我想我們必須努力去構建它,去影響它,確保它是正向的。總之就是盡量讓結果變好。

Q:既然你現在是一個自由人,我想提一個顯著的問題,那就是OpenAI正在主導整個生態。

今天在座的大多數人都是創業者,他們試圖開辟一些小衆市場,並祈禱OpenAI不會在一夜之間把他們打垮。

你認爲其中還有機會嗎?OpenAI會在哪些領域繼續占據主導地位?

卡帕西:我的總體印象是,OpenAI正在努力構建LLM操作系統。正如我們今天早些時候聽到的,OpenAI正試圖開發一個平台。在此基礎上,你可以在不同的垂直領域建立不同的公司。

操作系統的類比其實很有意思,因爲像Windows這樣的操作系統,也自帶一些默認的應用程序,比如浏覽器。

所以我認爲,OpenAI或其他公司可能也會推出一些默認的應用,但這並不意味著你不能在其上面運行不同的浏覽器,你可以在他們的基礎之上運行不同的agent。

會有一些默認應用,但也可能會有一個充滿活力的生態系統,有各種各樣的應用,針對具體場景進行了微調。

我很喜歡用早期的iPhone應用來類比。這些應用一開始都有點像開玩笑,需要時間來發展。我想我們現在正在經曆同樣的事情。人們正在努力弄清楚這個東西擅長什麽?不擅長什麽?我如何使用它?如何編程?如何調試?如何讓它執行實際任務?需要什麽樣的監督?因爲它相當自主,但不完全自主的。所以監督應該是什麽樣的?評估應該是什麽樣的?有很多事情需要思考,需要理解。我認爲需要一些時間來弄清楚如何與這種新的基礎設施合作。所以我認爲在未來幾年我們會看到這一點。



Q:現在大語言模型的競賽正在如火如荼地進行,有OpenAI、Anthropic、Mistral、Llama、Gemini,還有整個開源模型生態系統,以及大量的小模型。你如何預見生態系統未來的發展?

卡帕西:是的,所以我再次強調,操作系統的類比很有意思。我們有Windows、macOS這樣閉源的系統,也有開源的Linux。我認爲大模型可能也會是這樣的格局。

我們稱呼這些模型的時候也要小心,你列舉的很多模型,比如Llama、Mistral等,我不認爲它們是真正的開源。這就像是把一個操作系統的二進制文件扔出來,你可以使用它,但不是完全有用。確實有一些我認爲是完全開源的語言模型,它們完整地發布了編譯“操作系統”所需的全部基礎設施,從數據采集到模型訓練。這比只拿到模型權重肯定要好得多,因爲你可以微調模型。

但我認爲有一個微妙的問題,就是你不能完全微調模型,因爲你微調得越多,它在其他所有任務上的表現就會越差。

所以如果你想增加某種能力而不影響其他能力,實際上可能需要混合之前的數據集分布和新的數據集分布來進行訓練。如果只給你模型權重,你其實做不到這一點。你需要訓練循環,需要數據集等。所以你在使用這些模型時實際上是受限的。

它們肯定是有幫助的,但我們可能需要更好的術語對其進行描述。開放權重模型、開源模型,還有專有模型,生態系統可能會是這樣的。而且很可能會與我們今天的生態系統非常相似。



規模是最主要決定因素

Q:我想問的另一個問題,就是規模。簡單來說,規模似乎是最重要的。數據規模、算力規模。因此,大型研究實驗室、大型科技巨頭今天擁有巨大的優勢。你對此有何看法?規模就是一切嗎?如果不是,還有什麽重要的?

卡帕西:我認爲規模絕對是第一位的。

其中有一些細節確實需要處理好。我認爲數據集的准備工作也很重要,要讓數據非常好、非常幹淨,這可以使計算效率提升。

但我認爲規模將是主要的決定因素,是第一主成分,當然你還需要把其他很多事情做好。

如果沒有規模,那你從根本上就無法訓練這些大模型。如果你只做微調之類的工作,可能不需要那麽大的規模,但我們還沒有真正看到這一點完全實現。

Q:你能詳細說說除了規模之外,你認爲還有哪些重要因素嗎,可能優先級低一些?

卡帕西:首先,你不能只訓練這些模型。如果你只是提供資金和規模,實際上訓練這些模型仍然非常困難。

部分原因是基礎設施太新了,還在開發中,還不完善。但在這種規模上訓練模型是極其困難的,是一個非常複雜的分布式優化問題。這方面的人才目前其實相當稀缺。這基本上是一個瘋狂的事情,模型在成千上萬個GPU上運行,在不同的時間點隨機失敗。監控這個過程,讓它工作起來,實際上是極其困難的挑戰。

直到最近,GPU才像預期的那樣能處理1萬個GPU的工作負載。所以我認爲很多基礎設施在這種壓力下都在吱吱作響,我們需要解決這個問題。

現在,如果你只是給某人一大筆錢或大量的GPU,我不確定他們是否能直接生産出大模型,這就是爲什麽不僅僅是規模的問題。你實際上需要大量的專業知識,包括基礎設施方面、算法方面,以及數據方面,要非常謹慎。



Q:生態系統發展得如此之快,一年前我們認爲存在的一些挑戰,現在也越來越多地得到解決。幻覺、上下文窗口、多模態能力、推理速度越來越快、成本越來越低。現在還有哪些語言模型研究的挑戰讓你夜不能寐?你認爲有哪些問題足夠緊迫,但也是可以解決的?

卡帕西:我認爲在算法方面,我想了很多的一個問題是擴散模型和自回歸模型之間的明顯區別。它們都是表示概率分布的方法。事實證明,不同的模態顯然適合其中之一。我認爲可能有一些空間來統一它們,或者以某種方式將它們聯系起來。

我想指出的另一件事是,運行大模型的基礎設施的內在效率。我的大腦功耗大概是20瓦。老黃在GTC上剛剛談到了他們要建造的大型超級計算機,數字都是兆瓦級的。所以也許你不需要那麽多能量來運行一個大腦。我不知道具體需要多少,但我認爲可以肯定地說,在運行這些模型的效率方面,我們還可以1000倍到100萬倍地提升。

我認爲部分原因是當前的計算機根本不適合這個工作負載。英偉達的GPU朝著這個方向邁出了很好的一步,因爲你需要極高的並行性。我們實際上並不關心以某種方式依賴數據的順序計算。我們只是需要在許多不同的數組元素上執行相同的算法。所以我認爲第一是調整計算機架構以適應新的數據工作流,第二是推動一些我們目前看到有改進的東西。

第一個可能是精度。我們看到精度從最初的64位雙精度下降到現在的4、5、6位,甚至根據你閱讀的論文不同,可能是1.5到8位。所以我認爲精度是控制這個問題的一個很大的杠杆。

第二個當然是稀疏性。事實上,大模型中的很多參數都是零,或者接近零。所以如果你能以某種方式利用這一點,比如說讓稀疏矩陣乘法變得更有效率,那就太好了。這方面有一些有前景的研究。

此外還有一些有趣的想法,比如奇異值分解(SVD),看看是否可以將其分解成更小的矩陣,然後重新組合。比如只計算前向傳播,不做反向傳播,訓練一個較小的模型來預測較大模型的輸出。

所以我認爲,從根本上講,要解決兩個問題:

一個是構建更合適的硬件。另一個是找到更好的算法,在保持性能的同時提高效率。

我認爲這兩個方面都還有很大的探索空間。從能效的角度來看,如果我們能縮小與大腦的差距,那將是一個巨大的進步。這可能意味著我們每個人都可以負擔得起一個模型,或在我們的設備上運行一個模型,而不需要連接到雲端。

馬斯克“在管理世界上最大的創業公司”



Q:好的,我們換個話題。你曾與這個時代的許多偉人並肩工作過,OpenAI的Sam、Greg及其他團隊成員,還有馬斯克。

在座有多少人聽過關于美國賽艇隊和日本賽艇隊的笑話?這是個有趣的故事。馬斯克分享過這個笑話,我認爲它反映了他在打造企業文化和團隊方面的很多理念。故事中有兩支隊伍,日本隊有4名劃手和1名舵手,美國隊有4名舵手和1名劃手。有人猜得出當美國隊輸了後他們會怎麽做嗎?大聲說出來。完全正確,他們會開除那個劃手。

馬斯克分享這個例子,我認爲是在闡述他對于雇傭合適的人才、打造合適團隊的看法。通過與這些不可思議的領導者的密切合作,你學到了什麽?

卡帕西:我想說馬斯克管理公司的方式非常獨特。我覺得人們並沒有真正意識到它有多特別。即便是聽別人講,你也很難完全理解。我覺得這很難用語言描述。我甚至都不知道從何說起。但這確實是一種非常獨特、與衆不同的方式。

用我的話說,他在管理全球最大的創業公司。我覺得我現在也很難描述清楚,這可能需要更長時間來思考和總結。

不過首先,他喜歡由實力強大且技術含量高的小團隊來組成公司。

在其他公司,發展的過程中團隊規模往往會變大。而馬斯克則總是反對團隊過度擴張。爲了招募員工,我不得不做很多努力。我必須懇求他允許我招人。

另外,大公司通常很難擺脫績效不佳的員工。而馬斯克則更願意主動裁人。

事實上,爲了留住一些員工,我不得不據理力爭,因爲他總是默認要裁掉他們。

所以第一點就是,保持一支實力強勁、技術過硬的小團隊。絕對不要有那種非技術型的中層管理。這是最重要的一點。

第二點則是他如何營造工作氛圍,以及當他走進辦公室時給人的感覺。

他希望工作環境充滿活力。人們四處走動,思考問題,專注于令人興奮的事物。他們或是在白板上寫寫畫畫,或是在電腦前敲代碼。他不喜歡一潭死水,不喜歡辦公室裏沒有生機。

他也不喜歡冗長的會議,總是鼓勵人們在會議毫無意義時果斷離場。你真的能看到,如果你對會議毫無貢獻也沒有收獲,那就可以直接走人,他非常支持這一點。我想這在其他公司是很難見到的。

所以我認爲營造積極向上的工作氛圍是他灌輸的第二個重要理念。也許這其中還包括,當公司變大後,往往會過度呵護員工。而在他的公司不會如此。公司的文化就是你要拿出百分之百的專業能力,工作節奏和強度都很高。

我想最後一點或許是最獨特、最有趣也最不尋常的,就是他與團隊如此緊密地聯系在一起。

通常一個公司的CEO是一個遙不可及的人,管理著5層下屬,只和副總裁溝通,副總裁再和他們的下屬主管溝通,主管再和經理層溝通,你只能和直屬上司對話。但馬斯克經營公司的方式完全不同。他會親自來到辦公室,直接與工程師交談。

我們開會時,會議室裏經常是50個人和馬斯克面對面,他直接跟工程師對話。他不想只是和副總裁、主管們說話。

通常一個CEO會把99%的時間花在和副總裁溝通上,而他可能有50%的時間在和工程師交流。所以如果團隊規模小且高效,那麽工程師和代碼就是最可信的信息源。他們掌握第一手的真相。馬斯克要直接和工程師交流,以了解實際情況,討論如何改進。

所以我想說,他與團隊聯系緊密,而不是遙不可及,這一點非常獨特。

此外,他在公司內部行使權力的方式也不同尋常。比如如果他與工程師交談,了解到一些阻礙項目進展的問題。比如工程師說,“我沒有足夠的GPU來運行程序”,他會記在心裏。如果他兩次聽到類似的抱怨,他就會說:“好,這是個問題。那現在的時間表是什麽?什麽時候能解決?”

如果得不到滿意的答複,他會說,“我要和GPU集群的負責人談談”,然後有人就會打電話給那個負責人,他會直截了當地說:“現在就把集群容量翻一倍。從明天開始每天向我彙報進展,直到集群規模擴大一倍。”

對方可能會推脫說還要經過采購流程,需要6個月時間之類的。這時馬斯克就會皺起眉頭,說:“好,我要和黃仁勳談談。”然後他就會直接鏟除項目障礙。

所以我認爲大家並沒有真正意識到他是如何深度參與各項工作,掃清障礙,施加影響力的。

老實說,離開這樣的環境去一家普通公司,你真的會想念這些獨特的地方。---[魚羊 發自 : 凹非寺*量子位 : 公衆號 QbitAI/來源: 量子位]

視頻鏈接:https://www.youtube.com/watch?v=c3b-JASoPi0

*馬斯克:評價技術的正確方法,不是和競爭對手,而是與物理學極限比較*

三言科技 3月31日消息,近日馬斯克再次與id Software創始人約翰·卡馬克“對話”。

卡馬克發推:在談論某項任務的系統工程時,我經常使用“光速分析”這個詞,但我也許應該找到另一個術語。我用它來回答“在此架構中,貫穿視頻和合成幀的最小延遲是多少”這樣的問題,但“光速”可能更多的是指光錐、戴森球和計算機風格的工程幻想。

重聽“奇點臨近”,爲更接近的奇點做准備。

馬斯克回應:評價任何技術的正確方法,不是將其與競爭對手進行比較(這太容易),而是將其與物理學的極限進行比較。

例如,我們就是這樣評價星鏈的時延的,這樣做表明我們還有很大的改進空間!

送往火星每噸成本(美元)也是如此。



特斯拉對外事務副總裁陶琳也轉發了一篇宣傳特斯拉産品力的微博,並配上馬斯克的這段話。“我們的研發底層邏輯:和物理學的極限進行比較,而不是和已有的産品做對比。”---來源: 三言科技-