抄襲大模型?零一萬物回應爭議:模型結構設計基于GPT,借鑒行業公開成果
創新工場創始人兼CEO、零一萬物CEO李開複(圖片來源:創新工場)
一周前剛完成大模型首秀的零一萬物,今日卻成爲風口浪尖上的焦點。
11月14日上午,一位國外開發者在Hugging Face開源主頁上評論稱,創新工場董事長兼CEO、零一萬物CEO李開複旗下 AI 公司“零一萬物”開源大模型Yi-34B,完全使用Meta研發的LIama開源模型架構,而只對兩個張量(Tensor)名稱進行修改。
幾乎同時,前阿里副總裁、Lepton AI公司創始人兼CEO 賈揚清以“不具名”、“大廠”等說明方式質疑抄襲LIama對行業的影響,從而將這次事件推向了“高潮”。
針對開發者的指控和相關傳聞,11月14日下午,钛媒體App向零一萬物進行求證,零一萬物方面對外公布了一份官方回應:
零一萬物表示,GPT是一個業內公認的成熟架構,Llama在GPT上做了總結。零一萬物研發大模型的結構設計基于GPT成熟結構,借鑒了行業頂尖水平的公開成果,由于大模型技術發展還在非常初期,與行業主流保持一致的結構,更有利于整體的適配與未來的叠代。同時基于零一萬物團隊對模型和訓練的理解做了大量工作,也在持續探索模型結構層面本質上的突破。
聲明稱,模型結構僅是模型訓練其中一部分。Yi 開源模型在其他方面的精力,比如數據工程、訓練方法、baby sitting(訓練過程監測)的技巧、hyperparameter設置、評估方法以及對評估指標的本質理解深度、對模型泛化能力的原理的研究深度、行業頂尖的 AI infra 能力等,投入了大量研發和打底工作,這些工作往往比起基本結構能起到更大的作用跟價值,這些也是零一萬物在大模型預訓練階段的核心技術護城河。
零一萬物在聲明中強調,“在大量訓練實驗過程中,由于實驗執行的需要對代碼做了更名,我們尊重開源社區的反饋,將代碼進行更新,也更好的融入Transformer生態。我們非常感謝社區的反饋,我們在開源社區剛剛起步,希望和大家攜手共創社區繁榮,Yi Open-source會盡最大努力持續進步。”
事實上,整個指控事件曆經短短數十個小時,就從行業傳聞到輿論發酵,讓開源模型是否存在“抄襲”這件事成爲了大家的一個關注焦點。而開源的大型語言模型(LLMs)是否存在抄襲,仍是一個“模糊”的答案。
一場超150小時的輿論轉變:大模型獨角獸被指控“抄襲”
整個事件要從8個月前開始講起。
2023年3月下旬,李開複發文宣布,將以Project AI 2.0入局大模型行業,計劃孵化大模型公司。今年7月,“AI 2.0”公司零一萬物(01.AI)上線。創新工場當時表示,這是其“撸起袖子”親自帶隊,“塔尖孵化”了一家AI 2.0公司。
2023年中關村論壇上,李開複就對钛媒體App等表示,以GPT-4等大模型爲代表的生成式 AI 熱度在全球蔓延,意味著AI 2.0時代已經到來,它將帶來比移動互聯網時代大十倍的機會,穿透各行各業極大地提振生産力。“我們預測,全新的 AI 2.0平台將能有效幫助提升人類生産力,創造巨大的經濟價值及社會價值。”
“大模型的技術門檻很高,非常需要整合一個兼具科研能力和開發實力的高效團隊,制定貫徹公司的技術和産品戰略,從上到下一致執行。”李開複認爲,零一萬物將專注打造AI 2.0時代的平台及生産力應用生態。
11月6日,李開複團隊召開了一場重要的線上會議,而在此之前,其“Yi”系列開源模型信息已經在官網披露。
此次一個多小時的線上會議中,零一萬物正式發布首款開源中英雙語大模型“Yi”系列,包括Yi-6B(參數規模爲60億基礎模型)和Yi-34B(參數規模爲340億的基礎模型)兩個版本。
與此同時,有消息稱,零一萬物已完成新一輪融資,由阿裏雲領投,公司估值超過10億美元,從而跻身成爲“獨角獸”行列。
事實上,零一萬物主要圍繞精進模型、預訓練框架技術等七個方向進行研究,團隊擁有多個中外科技大廠、博士學位等背景。其中,零一萬物技術副總裁及AIInfra負責人戴宗宏,曾就職于阿裏、華爲,曾擔任華爲雲 AI 領域CTO;零一萬物技術副總裁及Pretrained負責人黃文灏則畢業于北京大學博士學位,曾在微軟研究院擔任高級研究員,並曾任職于北京智源 AI 研究院。
官方信息顯示,零一萬物新的Yi-34B模型在多項評測基准中全球領跑,基于超強Infra下模型訓練成本實測下降40%,模擬千億規模訓練成本可下降多達50%,並以更小模型尺寸的基准結果超過LLaMA2-34B/70B、Falcon-180B等大尺寸開源模型。
而且,包括Hugging Face平台和C-Eval中文評測榜單等,Yi-34B取得了多項 SOTA 國際最佳性能指標認可,成爲全球開源大模型“雙料冠軍”,擊敗了Llama2和Falcon等開源競品,稱是“全球最強開源模型”。
“隨著團隊到位,今年6、7月份開始寫第一行代碼,短短四個月做了非常自豪的産品。我們是‘不鳴則已,一鳴驚人’。所以‘一鳴驚人’之後,如果我們過半年甚至過一年回頭看,今天對我們來說只是剛剛開始,我們還會不斷的去開發、推動、宣布更多令人驚豔的成果。”李開複對钛媒體App等表示。
在李開複看來,34B的大模型是他心目中基礎模型的黃金尺寸,其剛好達到了湧現的門檻,但又沒有過大,既滿足了精度的要求,又對訓練推理成本友好。
該模型在發布後引起了國內外很多研究者、開發者的關注。然而,新品發布會的余溫還未完全結束,如今,零一萬物再次被拱上了風口浪尖。
11月14日,在零一萬物預訓練大模型Yi-34B的Hugging Face開源主頁上,一位名爲ehartford的國外開發者質疑,該模型使用了Meta Llama的架構,只對兩個張量(Tensor)名稱進行了修改,分別爲 input_layernorm 和 post_attention_layernorm。據悉,所謂張量,是深度學習中的多維數組,用于創建更高維度的矩陣和向量。
“Yi-34B,感謝您提供的優秀模型。據我們了解,除了兩個張量被重命名之外,Yi完全使用了Llama架構。由于 llama 架構有大量投資和工具,因此對張量使用相同的名稱是有價值的。開源社區肯定會重新發布 Yi,並重命名張量,以獲得符合 llama 架構的版本。我們希望您在模型獲得大量采用之前考慮將這一更改應用到您的官方模型中,以便它最終能夠獲得應有的采用。”ehartford在文中表示。
幾乎同時,年初從阿里雲離職創業的賈揚清發表了一個朋友圈,以“國內大廠”之名表示,國內一款新的大模型事實上是LLaMA架構,但是爲了表示不一樣,把代碼裏面的名字從LLaMA改成了他們的名字,然後換了幾個變量名。
盡管賈揚清沒有點名這個模型爲“零一萬物”,也沒有具體說明這是哪款新模型,且零一萬物也不是“大廠”。但在這一“巧合”的時間點,人們就會自然而然“想象”成是Yi模型。
11月4日下午,隨著這場大模型“改名”風波持續發酵,除了開頭的這份公開中文聲明外,零一萬物團隊同時在事發的源頭Hugging Face網站做了一份公開回應。
Yi 團隊開源總監Richard Lin表示,ehartford對張量名稱的看法是正確的,團隊將把它們從 Yi 重命名爲 Llama。對Yi團隊來說,重要的是對這些事情的准確和透明。
“這個命名問題是我們的疏忽。在大量的訓練實驗中,我們對代碼進行了多次重命名以滿足實驗要求。但是,我們有點失敗了,在發布版本之前沒有將它們切換回來。我們對此很抱歉,對于造成的混亂我們深表歉意。我們正在努力加強我們的流程,這樣這種失誤就不會再發生了。您的反饋給了我很大的幫助。我們還將再次檢查所有代碼,以確保其他一切都按順序進行。如果您和社區給予更多關注,我們將不勝感激。”Yi 團隊開源總監表示。
截至發稿前,ehartford已回應稱,謝謝團隊的回複。而也有網友在下面評論,“這是一件小事,很容易(得到)解決。”
開源代碼“抄襲、侵權”規範界定仍較爲模糊
今年6月的一場關于大模型的圓桌會議上,中國人民大學高瓴人工智能學院教授盧志武直言,國內很多企業創業者都沈不下心去把底座做好。
“什麽國産大模型的春天,都是假的,因爲它都是在GPT、LLaMA上微調的。我看到了很多大模型,一測10分鍾就知道虛假,當然也有一些少量的大模型,願意在底座上投入很多精力,但大部分還是很浮躁。這是最大的一個問題,我反而覺得語言模型上面這個差距會越來越大......你看到好像很多一堆模型出來,只是因爲這個語言模型的架構solution(解決方案)已經公布了而已,但如果你沒有公布,爲什麽前面做不出來,都是3月、4月、5月才出來,這不是很奇怪的事情嗎?我覺得不符合邏輯的,大家都不願意去做底座。”盧志武表示。
而昆侖萬維CEO方漢則現場反駁,“我是堅決反對(這個說法的),我們自己是做大模型訓練的,我可以很清楚的告訴你們,我們跟LLaMA一毛錢關系都沒有,因爲我們從20年就開始做(大模型)。所以我覺得你也不能一棒子把所有中國大模型的創業者們(人)都‘打死’。”
事實上,目前對于開源的模型與代碼協議“各式各樣”,不同開源項目的協議均有所不同,協議規則與法律界定部分仍比較“模糊”。
普遍而言,開源並不代表沒有版權,任何第三方使用都應該遵循其開源許可協議,如果企業需要用開源代碼進行商業化,需要與開源項目所有者進行授權或提交一定的費用。而在法律層面上,大模型所有者可以通過專利、商標、版權等方式保護自己的大模型知識産權。
早在今年7月中下旬,Meta宣布開源了Llama 2模型。據Llama2官網挂出的相關使用許可和限制聲明顯示,“該模型可以用于商業用途,除非你的産品的月活躍用戶數超過7億。需要填寫一個表格才能獲得訪問權限,這個表格也會讓你從HuggingFace的網站上下載模型。”
換句話說,只要你填寫表格申請,就可以下載、使用這一模型並實現二次開發,不存在“抄襲”問題,因爲Llama模型本身就是開放的。
而這種開源、開放、友好的方式,使得很多 AI 大模型公司和應用商解決掉了訓練成本問題,且讓數據和模型生態開放,包括阿裏雲、曠視科技等多家中國企業均表示已支持Llama2開源技術,所以大家使用Llama2進行再訓練、推理輸出成Chat産品就不足爲奇了。
一位行業專家對钛媒體App表示,使用開源項目,主要有兩點,一是要聲明原作者是誰,你用的是哪個項目,而且要遵循開源項目裏的開源協議、作者聲明,不能修改且不能刪除;二是關注項目對商業化的友好程度,有些是表明可用于商業項目,還有一種不允許商業化、二次開發等因素的開源項目,這部分需要開發者重新去溝通與評估。
實際上,大模型是典型贏家通吃領域。需要更多的錢,需要更多的算力,以及更優秀人才。因爲更好的算力意味著更多人用,更多人用意味著更多數據,更多數據意味著更好的算力結果。由于大模型必然是巨頭必爭之地,因此如果早做開發,在市場中更容易搶得先機。
針對零一萬物回應事件,在钛媒體App獲得的一份微信聊天截圖中,一位 AI 領域的學者表示,Llama這個架構與chinchilla、Gopher、GPT-3關聯度很高,也可以說是“抄襲”。而Hugging face上一模一樣但名字不同的模型比比皆是,大部分改動的是訓練方法數據配比,而不反映在架構上。以沒改架構而批評國內的模型沒有創新,不論是Yi還是其他模型,這樣的批評是不公正的。
盛景嘉成董事總經理劉迪曾對钛媒體App表示,目前 AI 大模型底層主要是數據、算力、算法,核心技術難度較低——算力需要堆英偉達顯卡、算法也可以用開源的,數據則有法規限制,所以投資人的興趣降低了。
未知資本常務董事william wong表示,“現在很多初創公司,後台接入ChatGPT,前端做了個UI設計,就上架蘋果商店鼓吹自己在做AIGC創業了。”而他認爲,這種AIGC項目沒有技術壁壘和商業邏輯,只是“蹭熱度”。
钛媒體App了解到,下一步,Yi系列也將推出專長代碼和數學的訓練模型。另外,目前零一萬物已經啓動100B(1000億)參數的訓練,有望近幾個月內發布,未來零一萬物還有望推出基于 AI 2.0 的超級應用等技術産品。
“實際上,(大模型創業)大家的起跑線是一致的,那麽水平差距就不大。”劉迪告訴钛媒體App表示。-(钛媒體/作者:林志佳|钛媒體焦點)