李開復創立的零一萬物宣稱,自研向量數據庫領先原榜單第一名的286%
钛媒體3月11日消息,李開復博士創立的零一萬物宣布,公司成功研發出基于全導航圖的新型向量數據庫 “笛卡爾(Descartes)”,並已包攬權威榜單ANN-Benchmarks 6項數據集評測第一名。
零一萬物表示,在國際權威評測平台ANN-Benchmarks離線測試中,零一萬物笛卡爾向量數據庫比之前榜單上同業第一名有顯著性能提升,部分數據集上的性能提升甚至超過2倍以上,在gist-960-euclidean數據集維度更大幅領先榜單原TOP1 286%。
零一萬物強調,笛卡爾向量數據庫將應用于公司即將正式發布的 AI 産品中,未來還將結合工具提供給廣大開發者。
據悉,零一萬物(01.AI)成立于2023年5月16日,致力于打造全新的 AI 2.0 平台與AI-first生産力應用的全球化公司,由創新工場董事長兼CEO李開複博士親自挂帥,擔任零一萬物CEO。
2023年中關村論壇上,李開複就對钛媒體App等表示,以GPT-4等大模型爲代表的生成式 AI 熱度在全球蔓延,意味著AI 2.0時代已經到來,它將帶來比移動互聯網時代大十倍的機會,穿透各行各業極大地提振生産力。“我們預測,全新的 AI 2.0平台將能有效幫助提升人類生産力,創造巨大的經濟價值及社會價值。”
2023年11月,零一萬物發布首款研發的最強開源 AI 大模型系列“Yi”,包括Yi-6B(數據參數量爲60億)、Yi-34B(340億)兩款,均是雙語(英文/中文)、支持開源。
其中,Yi-34B模型在多項評測基准中全球領跑,基于超強Infra下模型訓練成本實測下降40%,模擬千億規模訓練成本可下降多達50%,並以更小模型尺寸的基准結果超過LLaMA2-34B/70B、Falcon-180B等大尺寸開源模型,以及百川智能(王小川創立)的Baichuan2-13B。
“隨著團隊到位,2023年6、7月份開始寫第一行代碼,短短四個月做了非常自豪的産品。我們是‘不鳴則已,一鳴驚人’。所以‘一鳴驚人’之後,如果我們過半年甚至過一年回頭看,今天對我們來說只是剛剛開始,我們還會不斷的去開發、推動、宣布更多令人驚豔的成果。”李開複當時表示。
此次公布的向量數據庫,又被稱爲AI時代的信息檢索技術,是檢索增強生成(RAG)內核技術之一。隨著大模型爲代表的AI 2.0時代到來,圖片、視頻、自然語言等多模態的非結構化數據量陡增。區別于傳統數據庫,向量數據庫專門用來存儲、管理、查詢和檢索向量化的非結構化數據,而ChatGPT模型進一步強化了向量數據庫的作用。
截至目前,Google、微軟、Met 等大廠的相關向量大模型産品先後問世,Zilliz、Pinecone、Weaviate、Qdrant等創業公司也異軍突起。2023年,OpenAI的向量數據庫合作方Pinecone完成了B輪1.38億美元融資,國內初創企業Fabarta ArcNeural也完成了上億元Pre-A輪融資。
如今,李開復帶領的團隊也自主研發出全新的向量數據庫。
具體來說,零一萬物笛卡爾主要聚焦于高性能向量數據庫,采用領先的全導航圖技術、首創自適應鄰居選擇策略等新功能,以及采用了兩級量化方案增強RAG,在處理複雜查詢、提高檢索效率、優化數據存儲方面相比業界擁有顯著的比較優勢。另外,零一萬物還采用索引結構優化、連通性保障等全棧向量技術方案,從而提高笛卡爾向量數據庫的性能。
以電商推薦場景爲例。上架商品數量可能千萬級,每個商品可以由一個向量表達,即使庫中向量數不算很大,如果電商用戶基數非常龐大,高峰時每秒用戶請求數非常大,可能達到幾十萬甚至上百萬的吞吐量QPS(每秒內處理的請求數),使用高性能向量數據庫可以有效提升電商場景裏面搜索、廣告業務的推薦效果,促進銷售額增長。
零一萬物表示,笛卡爾擁有超高精度、超高性能兩個優點:一、超高精度,基于多層縮略圖和坐標系實現層間導航和圖上方位導航,以及圖連通性保障,實現精度大于99%,相同性能下,精度大幅領先業內水平;二、超高性能,高效的邊選擇和裁剪技術,千萬數據庫ms(秒級)響應。
該公司指出,在兩級量化降低計算複雜方面,相比傳統PQ查表,笛卡爾向量數據庫的性能得到大幅提升到2-3倍;目標向量層面,笛卡爾讓RAG向量檢索性能提高15%-30%,從而幫助企業客戶構建私域知識庫、智能客服系統;在自動駕駛領域,使用高性能向量數據庫可來加速自動駕駛模型訓練等。
基准測試層面,在glove-25-angular、glove-100-angular、sift-128-euclidean、nytimes-256-angular、fashion-mnist-784-euclidean、gist-960-euclidean六大數據集中,零一萬物笛卡爾向量數據庫在6項數據集評測中都處于最高位。
零一萬物強調,笛卡爾向量數據庫是團隊基于RAG的初步嘗試,將在近期發布的AI生産力産品中得到有效應用。未來各家大模型優化到一定程度後,向量數據庫的能力可能決定各家大模型的天花板。零一萬物後續會持續專注研發和分享,爲用戶帶來更好的技術和體驗。
“零一萬物的數據處理管線、算法研究、實驗平台、GPU資源和 AI Infra 都已經准備好,我們的動作會越來越快”。李開復表示,零一萬物希望有更多的開發者使用Yi系列模型,打造自己場景中的“ChatGPT”,引領下一代前沿創新和商業模型,探索走向通用 AI 時代。
钛媒體了解到,零一萬物即將推出基于 AI 2.0 的超級應用産品。---(钛媒體/作者 : 林志佳|钛媒體AGI)