01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

首個自主機器學習AI工程師,剛問世就秒了o1,Kaggle大師拿到飽

2024111820:08

多智能體系統,可自動化整個 ML 工作流程,節省數千小時工時。

Open AI 的推理模型 o1,這麽快就被比下去了?

本周五,AI 社區見證了又一項突破:一個完全自動化機器學習流程的 AI 工程師,能輕松獲得 Kaggle 大師水平,在參與的 50 個 Kaggle 競賽上獲得了其中 26% 的獎牌,成績遠遠優于之前 Open AI 的強化學習加強版的 o1 模型。

創造這項紀錄的 AI,來自一家名爲 NEO 的創業公司。



據該公司介紹,NEO 可以自動化整個機器學習的工作流程,爲開發人員節省數千小時的繁重工作。它是一個多智能體(AI Agent)系統,可用並行的方式解決單一問題。

目前這一 AI 系統還在內測申請階段,除了視頻 Demo 內容,我們還能找到官方的簡單介紹 :

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943246&idx=2&sn=8d7970c864c74dabd9c063
ff097d5cb2&chksm=84e7eb70b39062668ebb61bf3a3e3250f61ff
6295424dc4b3e4316a152e2595e16053421e1a0&token=933530197&lang=zh_CN#rd

機器學習中的挑戰

首先是 NEO 希望解決的問題。

機器學習的「從數據中學習」這一看似簡單的前提掩蓋了開發人員每天面臨挑戰的複雜性。雖然傳統編程遵循明確的規則和邏輯路徑,但機器學習引入了一系列新的不確定性,即使是經驗豐富的開發人員也難以應對。從本質上講,機器學習不僅需要代碼開發的專業知識,還需要對統計學、線性代數和微積分有深入的理解,這是許多軟件工程師自大學畢業後就不再遇到的數學問題。

開發人員面臨的第一個障礙是數據質量和准備。原始數據很少以幹淨、直接可用的格式出現。相反,開發人員必須花費大量時間處理缺失值、異常值和不一致的格式,同時做出有關數據清理的關鍵決策,這可能會顯著影響模型性能。

模型的選擇帶來了另一層複雜性。在解決某個問題時通常會有幾十種算法可用,每種算法都有自己的優勢和局限性,選擇正確的方法成爲一個關鍵的決策點。僅神經網絡就提供了無數的架構可能性,從簡單的前饋網絡到 Transformer,每個模型都需要仔細調整超參數。

計算資源增加了另一個複雜性維度。雖然小型模型可以在筆記本電腦上運行,但很多機器學習開發通常需要雲基礎設施、分布式計算和 GPU 優化。開發人員必須熟練掌握 Docker、Kubernetes 和各種雲平台等工具。

部署本身也帶來了一系列挑戰。在開發過程中表現優秀的模型可能會隨著數據漂移而退化,需要持續監控和重新訓練 pipeline。開發人員不僅必須跟蹤代碼更改,還必須跟蹤數據版本、模型參數和訓練配置。

這可能意味著開發人員要在每個步驟中投入數周或數月的工時,才能構建一個能夠有效解決問題的 AI 模型。

NEO—— 完全自主的機器學習工程師

NEO 的出現大幅簡化了這整套機器學習工作流程,使工程師能夠以 10 倍的速度構建和部署 pipeline。它的開發充分考慮了機器學習專業人士的需求,並被設計爲像實習生一樣,能夠從人類的反饋中進行學習。

它是如何運作的?NEO 是由多個智能體驅動多個專門模型實現的,每個微調模型專門用于機器學習生命周期的不同部分。

面對具體目標,NEO 會啓動一套完整的工作流以達成目標。NEO 通過結構化的多步驟方法,將複雜問題拆解爲易于管理的組件,化繁爲簡,從而實現目標。

這一方法包括計劃、編碼、執行和調試的持續循環,確保在每個階段都進行充分優化。在這個過程中,NEO 會根據進展不斷調整和叠代,直到獲得最佳結果。一旦開發者批准 NEO 的輸出,整個工作流程即可在幾秒鍾內部署。NEO 爲機器學習工程師簡化了上述所有複雜環節。

它的目標不是取代數據科學家或工程師,而是與人類合作並處理所有繁重任務。在人與 AI 合作的工作環境中,人們僅用幾個小時就能完成一周的工作。

聽起來有點像今年 3 月在 AI 社區爆火的首個 AI 軟件工程師 Devin,不過多智能體的方法青出于藍。

NEO 展示了一系列實際工作的 demo,當要求 NEO 構建一個信用卡欺詐檢測系統時,它給出了流暢的任務解決方案。

當要求 NEO 使用協同過濾方法構建一本書籍推薦模型時,它自動完成了數據集的准備工作,還進行了探索性分析,並對數據預處理進行了結構性優化,使數據集能夠更好地用于訓練:

那麽它的跑分如何呢?研究團隊在 MLE 基准測試(MLE-bench)上對 NEO 進行了全面評估。MLE-bench 是一種創新的基准測試,專注于將 AI 智能體應用于真實世界的機器學習工程任務。與其他人工設計的挑戰不同,這個基准測試通過 75 場實際的 Kaggle 競賽來評估 AI 智能體在機器學習工程中的表現,具有極高的實用性。

在 50 場 Kaggle 競賽測試中,NEO 表現堪稱卓越:在 26% 的競賽中獲得獎牌,超越了 OpenAI 最新推理加強模型 o1 的基准成績。爲了更直觀地理解這一成就,看看 NEO 到底是什麽水准,Kaggle 金牌的獲得要求就很直白:參賽團隊需要進入所有團隊排名前 10%。這通常需要極高的專業技能、創新方法以及精細優化。

這回落在 NEO 後面的,是搭配 AIDE 框架的 o1-preview 了。



NEO 在 50 場 Kaggle 比賽中進行了測試,並在其中 26% 的比賽中獲得了獎牌,這一表現遠遠優于此前的搭配 AIDE 框架 Open AI 的 o1 在 MLE 基准測試中的 16.9% 的表現。

NEO 的表現不僅僅是數據,它代表了 AI 輔助機器學習工程的一個突破。憑借如此表現,NEO 已達到堪比 Kaggle 競賽特級大師的水平,爲用戶帶來了世界級的機器學習專業能力。

官方稱,NEO 不僅僅是一款 AI 工具,而是一個像數據競賽冠軍一樣的人類合作夥伴,隨時准備解決複雜的數據挑戰,以經過驗證的競賽獲勝能力助你一臂之力。

NEO 的發布在 AI 社區引發了不小的關注,人們非常期待這款新工具能夠幫助我們解決繁重的工作,不過也有人認爲,目前的展示還只是一面之詞,具體情況還得看網友實測。

          

多智能體的 AI 真的有如此高的潛力嗎?讓我們拭目以待。---[機器之心報導*編輯 :澤南,亞鹂/來源 :  機器之心Pro]