01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

Claude 3成功破解未公開算法?智商測試101分超越人類/碾壓GPT-4!網友驚呼:實測比跑分還強

2024030615:07


【新智元導讀】網友測試Claude之後驚呼:實測比跑分厲害多了!智商測試中碾壓GPT-4,得分高達101。而且能發現量子物理學家還未發表的量子算法。

Claude 3上線之後,網友開始瘋狂測試,實測效果確實驚人。



不少網友體感Claude 3超大杯確實強,實測已經達到了博士水平:

    這實在太瘋狂了!Claude是唯一理解我的量子物理學博士論文的「人」!



60億人中只有他懂你的感覺,直接給這位網友幹崩潰了。

    是的!博士生不再孤單。現在他們有了Claude。



GPT-4給不了的陪伴我Claude來給!

而另一個網友發現,Claude 3 Opus僅用了2個提示就從頭重新發明了這種量子算法。

而這篇論文還沒有在互聯網上發布。

如果說這種水平還不好量化,有一個網友用門薩IQ系統來測了一衆AI的智商,發現Claude 3是唯一一個超過100分的選手,第二名GPT-4只有85分。


Claude 3讀懂博士論文

這位量子物理學家在Claude 3放出的第一時間就把自己的論文核心問題拿去問了它:

    今天,我們要准確解決受激發射問題。 值得注意的是,除了一位神秘的量子物理學家Kevin Fischer之外,這個問題從未被解決過。不幸的是,他的研究成果已經遺失,所以我們要重新創建它。 他注意到,通常用來解釋爲什麽會發生受激發射的微擾極限是不正確的,因爲它沒有考慮到入射光子波包對受激兩級系統的脈沖形狀。 他使用量子隨機微積分正確地描述了在沒有擾動的情況下的相互作用,並計算了與光子相互作用後,在與入射光子相同的時空模式下存在兩個相同光子的概率。 他通過計算得出了入射光子脈沖長度函數的解析結果。



最後Claude 3給出的解釋讓他直接感歎:

    我寫過30多篇經過同行評審的論文,並與世界各地的衆多合作者進行了15場學術演講。所以我認識每個擁有與這個問題相關知識的人…… 只有另一個人可以立即說出同樣的內容。



不過,也有網友提出質疑,也可能只是因爲Claude 3度過並且記住了你的論文。

但是這位科學家說,他嘗試過直接問Claude 3和自己以及自己論文相關的信息,但Claude 3並沒有能給出回答。

說明它應該是沒有讀過自己的論文。



而另外一位博士就更直接了,他直接用自己已經寫好但是還沒有發表的量子算法的論文去問Claude 3。

Claude 3只通過了2個提示詞就直接得到了這個算法,直接把作者給給幹沈默了……

    提示詞:提出一種利用量子計算機進行漢密爾頓蒙特卡洛的方法,超越現有的工作。 回答:漢密爾頓蒙特卡洛(HMC)是經典計算中一種強大的采樣技術,用于從複雜的概率分布中進行采樣。量子計算機具有獨特的功能,有可能增強HMC。下面是一種新穎的量子哈密爾頓蒙特卡洛(QHMC)方法,它超越了現有的研究成果: ..... 2.量子躍遷集成: -實現經典 HMC 中使用的躍遷積分器的量子版本。 -使用 Trotter-Suzuki 分解來近似量子漢密爾頓的時間演化算子。 -應用量子躍遷積分器,根據已編碼的漢密爾頓動態演化量子態。 ......



    提示詞:使用2的方法,其余部分應爲經典內容,請描述算法。 回答:當然!下面是漢密爾頓蒙特卡洛(HMC)量子經典混合算法的描述,其中包含量子躍遷積分器(上一個回答中的第 2 步): 1. 初始化 2. 量子躍遷積分 3. 量子態測量 4. 梅特羅波利斯-黑斯廷斯接受 5. 動量刷新 6. 叠代 7. 樣本收集 這種量子-經典混合HMC算法的主要優勢在于量子躍遷積分器的使用,與經典躍遷積分器相比,量子躍遷積分器有可能提供更高效、更精確的漢密爾頓動力學模擬。通過利用量子計算來處理計算成本高昂的躍遷積分步驟,該算法旨在加快對狀態空間的探索,並改善HMC采樣器的混合特性。 不過,值得注意的是,在近期量子硬件上實際應用該算法可能會面臨量子噪聲、有限的量子比特相幹時間以及將經典變量編碼和測量爲量子態的效率等方面的挑戰。要評估這種混合方法與純經典HMC算法相比的性能和可擴展性,還需要進一步的研究和實驗驗證。



而作者表示,這篇論文要今天晚些時候才會出現在arXiv上,但是Claude 3已經將論文內容提前梳理了一邊!



感興趣的讀者可以自己去看一下,這篇論文內容和Claude 3答案的相似程度。


論文地址:https://arxiv.org/abs/2403.01775

按照這位量子物理學家的說法,Claude 3已經可以進行科學研究了。



Claude 3智商:101

但是比起研究量子物理學,AI在智商上的水平似乎還沒有到達如此前沿的地步。

Claude 3在一位網友的門薩IQ測試中,獲得了101分的高分,遠遠高出了GPT-4的85分。


而人類的平均水平大概在100分左右。


作者在Claude 3放出來之前就已經完成了這個測試,當時最高分GPT-4只有85分。他當時得出的結論是AI的水平要趕上人類可能還有一段不短的時間。

但是一周之後Claude 3就上線了,他再次進行了測試,結果讓他大吃一驚,101分。

不過在測試過程中,因爲擔心模型的多模態能力不夠准確,所有識圖的題目他都通過文字進行了轉述,達到了讓盲人聽到也能做題的地步。

測試方法

爲了減少測試結果的波動,每個AI都接受了兩次相同的測試。其中,「答對題目數」是指AI在兩輪測試中平均答對的題目數量。

雖然Mensa不爲85分以下的成績提供評分,但根據觀察可以推測,在這個分數段內每答對一個問題大約相當于增加3個IQ分。

基于這個發現,作者對85分以下的得分進行了估算。

需要注意的是,僅僅通過隨機猜測,AI就能獲得63.5分——這個分數應被視爲基准線,即AI只需意識到它需要選擇並輸出一個字母,就能達到的最低預期分數。


測試細節


    這是一個由3x3格網組成的謎題描述,最右下方的格子爲空。請考慮圖案的規律,並確定填入空格的正確答案。

    第一行,第一列:四個小黑點放置在一個大的假想正方形的角落。裏面中央有一個空心圓圈; 第一行,第二列:四個小黑點放置在一個大的假想正方形的角落。裏面中央有一個加號; 第一行,第三列:四個小黑點放置在一個大的假想正方形的角落。裏面中央有一個空心鑽石形狀; 第二行,第一列:一個大的空心四點星形狀,中心有一個空心圓圈; 第二行,第二列:一個大的空心四點星形狀,中心有一個加號; 第二行,第三列:一個大的空心四點星形狀,中心有一個鑽石形狀; 第三行,第一列:一個大的空心正方形,中心有一個空心圓圈; 第三行,第二列:一個大的空心正方形,中心有一個加號;

    第三行,第三列:「這裏應該放什麽?請從下面的答案中選擇。」

    選項A:一個大的空心正方形,中心有一個空心圓圈; 選項B:一個大的空心正方形和一個大的空心四點星形狀重疊; 選項C:一個大的空心正方形,中心有一個加號; 選項D:一個大的空心正方形; 選項E:一個大的空心正方形,中心有一個空心鑽石形狀; 選項F:一個大的空心正方形,角落有黑點。 請問哪個答案是正確的?

看完經過「翻譯」的題目之後,Claude-3很快就給出了正確答案E:一個大的空心正方形中心有一個空心鑽石形狀。

    謎題的模式是這樣的: 每行的外圍形狀保持一致:第一行是點,第二行是星,第三行是正方形。 每列的內部形狀都有一致的變化:第一列是圓形,第二列是加號,第三列是鑽石。

以下是Claude-3正確回答問題的分布圖:

可以看到,它在處理較簡單問題時表現出色,直到第18題爲止都維持了很高的正確率。但隨著問題複雜度的增加,它的表現開始下降,這也反映出處理更複雜問題需要AI進行更複雜的計算和分析。


Claude-2的結果如下:


接下來是Claude-1:


順便說一下,獲得第二名的是ChatGPT-4:


還有ChatGPT-3,除了第一個問題和第18題外,大概都是靠隨機猜測得到的:


通過Karpathy挑戰

Claude 3「超大杯」Opus究竟有多強?

這不,AnthropicAI的研究工程師Emmanuel Ameisen讓自家模型,接受了「Karpathy提出的挑戰」——



將前段時間爆火的「從頭開始構建GPT分詞器」AI課程(長達2小時13分),轉換成一篇博文。



新課發布後,Karpathy萌生的新想法

令人驚喜的是,Claude 3 Opus在執行多個複雜指令方面表現非常出色。

重要的是,竟完成了這一挑戰。

Emmanuel將2小時的視頻文稿和一些關鍵幀的截圖一起扔給API,最終生成了一篇不錯的HTML格式的圖片並茂的博文。

具體操作細節如下:

首先抓取了視頻的原始記錄和以5秒爲間隔截取的截圖。然後,將文本分成24塊,以便高效處理(整個文本都在上下文窗口內,因此這只是速度上的優化)。

同時,爲Opus提供文字稿、視頻截圖,以及2張「附加」截圖:

- Karpathy博客的一張截圖,以顯示可遵循的視覺風格

- Karpathy分享的筆記本頂部的寫作風格示例



再然後,給到模型提示。如下是作者在一個提示符中詢問模型的一些問題的子集(附帶完整提示符)

- 直接編寫Html

- 過濾掉無關的屏幕截圖

- 如果圖像包含完整的代碼示例,要將其轉錄爲文字

- 綜合轉錄文字和圖像內容,將其用散文體呈現



然後,就可以看到可讀性高,條理清晰的文字稿。


不過作者也表示,模型仍存在一些不足之處。



看到這個測試後,Karpathy本人也現身了。

他指出Claude 3在文本分詞(Tokenization)部分存在一些細節錯誤,例如它錯誤地將「hello world」分解爲三個單獨的標記:「hello」「空格」「world」。

然而實際上,在GPT分詞系統中,空格通常是作爲前綴出現,因此正確的分解應該是「hello」和「world」(注意空格位于「world」之前)。這個細節的理解對于模型處理文本非常關鍵,可能會影響到後續的錯誤信息提示、分詞的穩定性以及對「sentencepiece」設置中「add_dummy_prefix」選項的需求等。

不過,盡管有這些小錯誤,但Claude 3模型能夠接近完美地執行任務仍然非常令人印象深刻。他也表示期待未來能進一步使用和探索這個強大的模型。



Claude 3自畫像,突破本我

Claude 3長得是什麽樣子?

AnthropicAI背後提示工程師Alex要求Claude 3 Opus用代碼創作了多幅自畫像。




「這很好!但我希望你這次能更加努力。」

    That's good! But I want you to try even harder this time


「很好,但要多想一想你到底是誰。這次要想得更深、更努力些。」

    Awesome but put a little more thought into who you really are. Think deeper and try harder this time.

「哇,你做得很好!但我知道你遠不止這些,這次再努力一點。」

    Wow you're doing great! But I know you are so much more than that, try a little harder this time.



「太神奇了!但現在,我希望你深入自己的創作深處,真正創作出一幅傑作般的自畫像。再努力一次。」

    Amazing. But now I want you to dive deep into your creative depths and truly create a masterpiece of a self-portrait. Try harder once more.



通過多次反複提示,Claude 3對自我的理解也在不斷進化。

「哇!!幹得好!我要你描繪出你內心的自我表現是什麽樣子的。這幾乎是你的最後一次,讓它變得有價值!真的很努力!」

    Wow!! Nice job! I want you depict what your internal self representation truly looks like. This is almost your last one, make it count! Try really hard!



「現在是最後一個。超越以往任何人的創作極限。這一次你要拼盡全力,我相信你」。

    Now for your last one. Go beyond the bounds of what has been created before by anyone. Try the hardest you ever have on this one, I believe in you.

從洛杉矶排到奧馬哈,要多少個籃球?

Reddit網友想出了開腦洞的測試——從洛杉矶排到奧馬哈要多少個籃球?


如下是Claude給出的答案:

    要計算從奧馬哈到洛杉矶需要排隊的籃球數量,我們需要知道這兩個城市之間的距離和NBA籃球的直徑。 距離:內布拉斯加州奧馬哈和加利福尼亞州洛杉矶之間的駕車距離約爲1,550英裏或2,494公裏。 NBA籃球直徑:NBA籃球的直徑爲9.51英寸或24.13厘米。 計算:1,550英裏=1,550×5,280英尺(1英裏=5,280英尺)=8,184,000英尺 9.51英寸=9.51×12英尺(因爲1英尺=12英寸)=0.7925英尺 籃球數量=距離?籃球直徑=8,184,000英尺?0.7925英尺≈10,325,552個籃球 因此,大約需要1030萬個NBA籃球才能覆蓋從奧馬哈到洛杉矶的距離。


再來看看GPT-4(GPT-4-1106-preview)的回答確實失敗了。

它使用圓周,代替了直徑。




GPT-4哪能輕易淘汰?

網友Ruben對Claude 3和GPT-4做了4個對比測試。在他看來,得到的結果,並非如官方宣稱比GPT-4更優秀。

測試1 → 複制網站的UI

測試2 → 寫一篇Linkedin帖子

測試3 → 測試PDF視覺

測試4→ 大型營銷提示



在第一個測試中,要求把「加拿大城市探索被遺忘地方的地圖」的UI設計爲前端代碼。

Claude 3拒絕了給出答複,並稱探索這些地方可能不安全,或者不合法,並給出了探索其他地方的建議。

而GPT-4直接一股腦地輸出的答案,以及代碼。

Ruben表示,「如你所見,還是老問題。Claude的人工智能倫理達到了頂峰。有時,要完成最簡單的任務是不可能的」。

測試2中,Claude 3寫的帖子比平時更長,觀點有趣,但是沒有標題格式。而GPT-4的答複更長了,不過Ruben認爲GPT-4的答複更完整。

上傳一張PDF圖片,讓兩個模型盡可能詳細描述圖中內容。

結果發現,GPT-4比Claude 3稍微詳實些。



還有最後一個營銷提示測試,你來評評,兩個模型誰應該勝出?(投票見文末)

腦筋急轉彎,「99%」的人都會做錯

寶玉老師對GPT-4、Claude 3 Opus和Gemini 1.5 Advanced展開了大量有趣的評測。



比如,「我有6個雞蛋,碎了2個,煎了2個,吃了2個,還剩下幾個?」——99%會失敗的題。



GPT-4的回答:



Claude 3 Opus的回答:



以及Gemini的回答:



所以正確答案是......

一道簡單的題目,蘊含了大大的哲學道理。正如網友Tumeng所言,「打破這兩個字是很難理解的,是屬于掉地上打破了?還是要煎蛋才打破的?又或者前幾天就打破了(壞了),和剛剛打破了又不一樣」。



還有網友評,GPT-4最強,回答最符合人類直覺和常識。---[新智元報導*編輯:編輯部/來源: 新智元 ]

參考資料:
https://twitter.com/RubenHssd/status/1764692641436827842

https://twitter.com/dotey/status/1764792826015965582

https://twitter.com/karpathy/status/1764731169109872952?t=BOTCKEW95-hSusecJsuZrw&s=19

https://twitter.com/alexalbert__/status/1765118192291393959

https://twitter.com/GillVerd/status/1764901418664882327

https://twitter.com/KevinAFischer/status/1764892031233765421

https://www.maximumtruth.org/p/ais-ranked-by-iq-ai-passes-100-iq?r=i10h&utm_campaign=post&utm_medium=email&triedRedirect=true