螞蟻李建國：當前AI寫代碼相當於L2.5，實現L3後替代50%人類編程

2024042410:48

超70%代碼問題，單純靠基座大模型是解決不了的；

未來3-5年，人類50%編程工作可以被替代，有些環節甚至完全自動化。

螞蟻集團代碼大模型CodeFuse負責人李建國說道。

當下，AI代碼生成領域正在野蠻式生長，巨頭湧入，AI員工頻頻上線企業；首個AI程序員Devin被曝造假…… 面對風起雲湧的代碼生成變革，李建國給出了這樣一個明確論斷。

李建國是誰？

清華大學博士，機器學習、深度學習深耕十余年，論文被引萬余次。在他的帶領下，螞蟻內部正全面推行AI編程。每周已有超五成程序員使用CodeFuse，目前CodeFuse生成代碼整體采納率為30%，已經屬於整個AI編程工具中能力第一梯隊，最強Copilot代碼整體采納率差不多在35%。

而在開源這邊，在各社區網站上CodeFuse下載量已經達到170萬左右。

因此不管是學術的權威性，還是產業落地的代表性，李建國博士極具話語權。於是在代碼生成模型和產品爆發式發展的當下，量子位同李建國博士展開了進一步交流。

核心觀點如下：

    *編寫代碼在整個企業研發過程中所占的比重可能連1/5，甚至1/10都不到；
    *要實現項目級的需求實現，從原子級需求端到端漸進發展的模式是切實可行的；

    *AI程序員成為企業運營中的新常態已經是勢不可擋的趨勢；
    *超70%代碼問題，單純靠基座大模型是解決不了的；

    *目前自然語言編程處於L2.5階段，按照萬物摩爾定律的發展趨勢，未來3-4年達到L3，甚至接近L4的水平是有可能的。

    *相較於前、後端的軟件工程師，AI全棧工程師需求更大

    *當前代碼生成變革所面對的挑戰包括：端到端代碼生成能力、Agent推理能力、復雜需求拆解、跨模態橫向交互、安全可信可靠。

編寫代碼只占整個研發生命周期1/5不到

首先，程序員這個行業歷史並不算長，從20世紀50年代至今，大約有七八十年的歷史。隨著技術的進步，編程工具不斷更新叠代（打孔- VI編輯器-集成開發環境-輔助編程工具），程序員的工作效率得到了顯著提升。

來到大模型時代，相關模型和產品演化叠代十分迅速，可以說十分的「卷」。

對個人開發者而言，AI編程工具只需完成從需求到代碼實現的閉環過程就夠了，就像Copilot這樣的工具。他們更傾向於關註如何高效地實現需求。

但從企業維度則更關註整個研發流程的效率提升，除了關註代碼生成的安全可靠可信，測試構建、發布運維以及數據洞察等方面也是至關重要的。

我們期望能夠有一個研發智能體，甚至是一個智能總線（bus），它能夠與各個Agent進行交互，並將任務分發下去——從架構設計到前端實現，再到後端開發，以及安全測試和功能測試，最後是效能方面的持續集成/持續部署（CICD）和運維自動化。

整個系統上線後，還能夠自動進行運維布控，並分析產品的用戶訪問量（UV）、頁面瀏覽量（PV）等數據。

編寫代碼在整個過程中所占的比重可能連五分之一或十分之一都不到。但如果這樣的Agent能將所有環節高效連接起來，從而真正提升整個流程的效率。

再加上當前程序員實際所面臨的痛點在於，市面上一些產品大多是原子級能力的實現——通過單體大模型只能解決30%的代碼補全，無法解決更多的代碼問題，比如跨庫的函數調用。

基於這樣的行業思考，去年9月份開始，我們開源了CodeFuse，並明確提出要構建全生命周期的代碼大模型。

目前，我們已經發布基礎模型，並持續開發和開源相關的倉庫，涵蓋了從需求設計、編程開發、測試構建、發布運維、到數據洞察分析等多個方面，在modelscope和huggingface上模型下載量已經達到170萬左右。

下一步，我們計劃進行項目級的需求實現，這相當於去實現一個全新的系統。這對基礎模型提出更高的要求——

自然語言理解的能力至少達到GPT-4或GPT-4.5的水平。但從目前的情況來看，我們更傾向於采取一種漸進的模式。

我們首個MileStone是解決倉庫內及跨倉庫的需求實現問題，包括API調用、服務調用，以及涉及到的外部中間件版本更新問題。

如果我們能夠妥善處理這些問題，就能解決剛才提到的70%問題中很大一部分（比如20%的問題），這將顯著提高代碼采納率，並讓用戶感到滿意。

最終要實現項目級別的需求任重而道遠。我認為，代碼基礎模型和Agent技術需要同步快速發展，才能達到我們的目標。

我們的思路相對保守，因為就基礎模型的要求而言，我認為短期內國內要達到GPT水平還存在一定差距。

大模型對軟件開發的範式改變

AI程序員成為企業運營中的新常態已經成為勢不可擋的趨勢。不管是像Devin這種AI程序員，還是我們提到的全生命周期研發智能體，大模型對整個軟件研發範式都是非常大的提效。

過去遇到不懂的問題，人們可能首先會去Google或百度上搜索，而現在，他們可以直接在代碼中提問，隨即獲得一個相對精確的結果，采納後即可使用。

我認為這是一個巨大的效率提升，它代表著進步。人們可以將更多的精力釋放出來，投入到更具創造性的工作中去。

前段時間，CodeFuse發布了圖生代碼的功能，它可以通過在界面上簡單畫一個框，就能自動生成相應的代碼。

以往可能需要編寫數百行代碼的工作，現在只需一次點擊和畫框操作就能實現。

而要從產品設計的角度來看，我認為實現無縫接入和無感體驗是至關重要的。

這意味著產品應能平滑地融入現有的工作模式中，用戶在使用過程中幾乎不會意識到它的存在，從而極大地提升用戶體驗，並推動整個研發流程的創新和進步。

例如，我們內部每周有超過一萬人的智能代碼生成活躍用戶，很多人都沒意識到自己在使用CodeFuse，在日常使用IDE插件、瀏覽器的過程中，用戶已經不知不覺地使用了我們的產品。

我們的目標是服務於整個研發的全生命周期。如果能夠實現這一點，那將是一個革命性的成功。

現在AI寫代碼相當於L2.5

目前整個代碼生成領域，可能處於一個類似於自動駕駛技術中的L2.5級別，許多公司都處於這一水平。

比如自動駕駛L2.5級別的功能，如車道線輔助、前方碰撞檢測等，這些都是作為整體存在的一部分。在大模型領域，也看到了類似的補充功能，包括解釋、註釋、簡化優化和單元測試等。

我們接下來的目標是在某些特定場景下實現L3級別的完全自動化，這是有可能實現的。例如，在效能領域中的持續集成（CICD）場景，就有可能通過大模型的驅動來自動完成，包括觸發檢查、提交，甚至創建拉取請求（PR）等操作。

然而，要實現全場景、全鏈路的自動化，前端可能還需要一段時間才能發展起來，復雜的項目級的需求拆解特別是特定領域的拆解，也面臨較大挑戰。我認為可能還需要3-5年的時間，在萬物摩爾定律的推動下，整個社區，包括我們自己的不斷努力和發展。

到那時候，我們可以期待從當前的狀態發展到一個新的階段——

例如，從Copilot到co-worker，現在可能有20%到30%的編程工作可以被替代，未來這個比例可能會提高到50%，甚至有些環節可以完全被自動化取代，釋放人去做更有創意的工作。

甚至成為一個full agent。雖然可能無法完全替代人類，但在未來3-5年內，達到L3甚至接近L4的水平是有可能的。

正如自動駕駛技術一樣，雖然已經提出很多年，許多人聲稱已經達到L4級別，但實際上許多場景仍然處於L2.5到L3級別。要實現全場景的自動化，人類仍然需要在其中扮演一個重要的角色。

這樣一來，軟件工程人員的定位其實也在發生變化。以前大家可能專註於前端或後端的開發工作。而現在，AI全棧工程師的需求更大。

過去所謂的全棧工程師意味著前端、後端和數據都懂，但現在可能還需要理解算法。隨著大模型發展，前端和後端的工作可能會逐漸由大模型輔助，即作為協作者（Co-worker）來分擔部分功能，從而釋放出開發者的時間。這樣開發者就可以將更多時間投入到提升新的技能上，比如對產品的深入理解，對用戶體驗的關註，對算法創新等。

基於對整個領域進行了深入的探索，我發現要進一步去實現還有不少挑戰，主要有五個方面：

端到端代碼生成能力

基礎模型層面，目前主要是實現代碼補全的功能，但在實際應用中只有大約30%問題可以通過這種方式解決，剩余的70%則需要端到端代碼生成能力，需要跨文件、跨代碼庫，甚至跨代碼庫和文檔庫的理解和交互。

所謂的端到端，對於一個代碼庫而言，一個典型的例子，我們需要能夠直接調用庫中的API，修復問題（issue），甚至能夠復用跨庫的中間件能力。

然而，僅憑基礎模型是無法實現這些的，我們還需要探索更多的能力。

Agent推理能力

盡管最近Devin 被曝出演示視頻存在造假，備受關註，但我認為它還是代表了一種趨勢、一種技術流派——

如何將定製工具調用與大型模型相結合，實現整個工作流程的自動化。這個問題，尤其是擴展到全生命周期，實際上相當困難，尤其是面向雲後端的研發環境，工具種類繁多。

比如面向前端應用可能只有天氣預報、查詢火車票、預定酒店等十幾個工具，但在雲後端，則可能會有數百個甚至上千個工具，每個工具都包含數十個參數。

除此之外，還有需求拆解、跨模態橫向交互、安全可信可靠的挑戰。

尤其代碼的安全可信可靠，像螞蟻這樣的企業級用戶，需要應對面向金融級別的高可用性和安全性的要求，也充滿了挑戰。

不過也正因為在金融級垂直場景的深耕，包括資源配置和歷史經驗積累，螞蟻也構成了屬於自己的場景優勢。

首先，我們擁有涵蓋整個生命周期各個環節全方位的團隊，尤其在雙十一等大型促銷活動期間的高可用性方面經驗豐富，這有助於推進全生命周期的代碼大模型，這是我們與外部的主要區別之一。

其次，我們在特定領域，如金融領域，以及前端領域，都有一定經驗積累，尤其是在支付系統等對安全性要求極高的場景中。這些積累使我們在安全性、可靠性和可信度方面具有差異化優勢。

雖然挑戰不少、道阻且長，但我認為，螞蟻將攜手開源社區一起努力，在萬物摩爾定律的牽引下，未來兩三年可以一定程度解決好這個問題。

One More Thing

最後，面對當下大模型發展，李建國博士忍不住感嘆：

    我以前做深度學習，那時候非常卷，可能2019年之前，我發現這個領域已經卷不動了，跳出來做NLP，發現這個領域也還是更加的卷。
    但不得不承認，大模型再次點燃了NLP、視覺處理、代碼生成等各個領域的熱度，煥發新的活力。

對於接下來的發展，李建國點名最看好具身智能的發展，這將是未來5到10年的研究熱點。

    它將成為數字世界與物理世界之間的橋梁，能夠感知並執行操作。這可能會帶來類似Matrix（黑客帝國）這樣的場景的巨大進步，甚至可能像電影《終結者》中展示的那樣，成為真正的巨大飛躍。

---[白交發自: 凹非寺*量子位:公眾號 QbitAI/來源: 量子位]

我要留言

螞蟻李建國：當前AI寫代碼相當於L2.5，實現L3後替代50%人類編程

大模型一對一戰鬥75萬輪，GPT-4奪冠，Llama 3位列第五

三個清華校友，爭搶大模型一哥

大模型一對一戰鬥75萬輪，GPT-4奪冠，Llama 3位列第五

三個清華校友，爭搶大模型一哥