給AI公司“打雜”,95後華人把估值做到138億美元
圖源丨BLOOMBERG
在舊金山的 Showplace 廣場,一棟曾經屬于Airbnb的商業大樓最近迎來了新主人。在大部分科技公司都在業務收縮的當下,Scale AI,這家由95後華人創立的人工智能數據標注公司,大手一揮租下了舊金山市中心約18萬平英尺的辦公室。
就在不久前,Scale AI完成了最新一輪10 億美元的融資,估值達到138 億美元,比上一輪的73億美元再翻了一倍。在這輪由矽谷頂級基金Accel領投的F輪融資中,除了YC、英偉達等現有投資者之外,還加入了一長串的新投資者名單,包括:亞馬遜、Meta、AMD、高通、思科、英特爾、高通等等,參與機構高達22個。
而這些巨頭投資Scale AI的出發點大多相似——它們基本都是Scale AI的客戶。在AI飛速發展的當下,數據標記,這個看似簡單無趣、勞動密集的低門檻業務,卻被Scale AI一步一步地做成了一個大生意。
01, AI“藍領工廠”
在過去的一段時間裏,提起“AI賣鏟人”,英偉達無疑是被提及最多的公司。但很多人不知道的是,Scale AI也扮演著同樣的角色。衆所周知,算力、算法和數據構成了人工智能的三大支柱,英偉達占據著AI算力的山峰,Scale AI則是當前爲AI提供數據支撐的最主要服務商。
Scale AI 成立于2016,其創始人是生于1997年的華人Alexandr Wang,創立公司時年僅19歲,在MIT剛讀完大一。Scale創立之初主要專注于人工智能數據標注,核心業務是幫助企業收集、清理、標注、以及管理大規模的高質量數據,以便訓練和優化機器學習模型。
實際上,在Scale AI崛起之前,數據標注在AI領域實際上長期處于“邊緣”位置。所謂的數據標注,是指爲圖像、文本、視頻或音頻等原始數據添加結構化信息,以便機器學習模型能夠理解和學習這些數據的過程。聽起來好像很複雜?但其實這是個小學生都能做的事情,比如給你一張圖片,讓你標出圖片中的行人、車輛、建築等,給你一段文本,讓你標寫哪些感歎句、哪些是疑問句,給你一段語音讓你打上情緒或說話者身份標簽等等。
圖源:Shaip
雖然原理很簡單,但這些經過標注的數據對于人工智能的發展不可或缺。AI模型需要大量的標注數據來進行學習,才能具備識別、分類和預測等功能。
但讓衆多AI公司頭疼的地方是,盡管一些自動化工具可以加快部分標注過程,但爲了得到高質量、高精確度的標注數據,仍然需要大量的人工來處理、標記和驗證數據。特別是在高精度要求的領域,如醫學影像、自動駕駛或軍事應用,錯誤標注可能會導致嚴重的後果。也正因如此,數據標注被認爲是一個勞動密集型業務,很多公司不願意也沒有精力去自己管理,導致標注數據的獲取的過程既耗時又昂貴。
Scale AI攬下了這個“辛苦活”。Scale AI 的早期定位是要通過結合自動化技術與人力審核,創建一個高效、精確的標注平台,幫助企業快速處理和標注大規模的數據集。它的業務模式很簡單:接洽到有標記需求的公司,對數據進行簡單的預處理和清洗之後,將其外包給非洲、東南亞等勞工對數據進行標記。
2017年,Scale AI 成立了 Remotasks 作爲其內部外包機構,在肯尼亞、菲律賓、委內瑞拉等地設立了幾十家機構,在各地培訓了成千上萬的數據標注員,這些標注員的工作大部分都是按件計酬,一次標注的收入低至幾美分,很多合約工在時薪甚至不到1美元。而在這樣的“全球工廠”模式下,Scale AI的毛利率卻能長期保持在65%以上。
02, 踩中每一次風口
雖然數據標注看上去是一個低門檻的業務,但在2016年前後的“AI沈寂期”中卻幾乎是一個市場空白,只有谷歌、亞馬遜等一些大公司有自己的數據標注部門。而Scale AI 的成功很大程度上得益于它精准地洞察到了這一機遇並且抓住了近10年來人工智能行業發展的幾次風口。
首先是自動駕駛。在Scale AI成立幾個月後,他們就發現了自動駕駛領域對于數據標注的大規模和剛性需求。自動駕駛技術的發展依賴于大量高精度的標注數據,例如道路場景、行人和其他物體的圖像數據,車企需要成千上萬小時的視頻數據進行標注來訓練和驗證其算法,就整個自動駕駛行業來看,當時90%以上的數據標注都是以人工爲主。Scale AI 通過高效的數據標注平台,以及使用模型輔助標注和數據預處理來加速數據處理流程,進而大幅降低了標注成本和時間,吸引了當時風頭正盛的Waymo、Cruise等企業成爲了它的客戶,進而逐漸在自動駕駛數據標注領域站穩腳跟。
圖源:Scale AI
在自動駕駛領域初嘗甜頭之後,Scale AI開始全面進軍AIaaS(AI 即服務)市場。它從單純的數據標記延伸到數據服務,提供從數據標記和管理、模型訓練和評估,再到AI 應用開發和部署的全流程解決方案。
此外,爲了應對某些行業數據不足的挑戰,Scale AI還向下遊延伸到合成數據的生成,通過從現有數據中創建新的數據集,幫助訓練模型。于是在之後的幾年裏,Scale AI在數據領域迅速崛起,客戶也擴展到了醫療、國防、電商、政府服務等領域。在成立兩年多之後,Scale AI的營收已經接近5000萬美元。
Scale AI還精准地把握了生成式 AI爆發的機遇。早在GPT-2上,Scale就與 OpenAI 就進行了首次帶有人類反饋的強化學習合作實驗,接著將這些技術擴展到InstructGPT及其他領域。而由于生成式 AI 模型需要海量的訓練數據來提升其生成內容的准確性和多樣性,大語言模型的爆發式增長極大地推動了整個行業對高質量標注數據的需求,Scale AI 通過整合數據標注、數據合成等服務,爲生成式 AI 提供了必要的數據支持。此外,Scale AI還幫助企業快速生成定制化的 API,以減少了自行訓練模型的複雜性和成本。
圖源:Scale AI
針對生成式AI,Scale目前已經推出了全流程的平台服務,包括開發者工具平台 Scale Spellbook、合成數據産品 Scale Synthetic、企業級GenAI平台等,目標是讓企業在每一個場景下都有足夠的數據來支持模型的訓練,憑借著在數據領域的獨特優勢,過去兩年,Scale AI的客戶激增,既有OpenAI、Meta、AWS、英偉達這樣的巨頭,也有Cohere、Adept等這樣的新興獨角獸。而他們中的很多,也在這一輪融資中成爲了Scale AI的投資者。
03, 爲什麽是Scale AI突圍
關于Scale AI的崛起,很多人都很疑問,對于這樣一個處于AI上遊且勞動密集的行業,中國似乎具有先天的優勢,爲什麽沒有類似的企業脫穎而出?總體來看,這背後主要有兩方面的因素,一是行業,二是融資。
在生成式AI熱潮之前,國內的人工智能發展在場景應用方面一度領先,數據標注業務其實很早就起步發展了,但並沒有形成規模。很多龍頭企業雖然成立了數據標注部門,但主要是來爲自身業務服務,而並不是尋求將數據與各個行業進行資源匹配。同時,正因爲國內的人口紅利,讓標注後的數據獲取成本低廉,也讓企業並沒有動力去采用技術平台。據了解,長期以來,國內的數據標注行業的價格都很透明, 時薪普遍在10-25人民幣左右且大多沒有學歷限制。
圖源:Boss直聘
而相較而言,美國人力成本高昂,在LinkedIn、indeed等平台上,數據標注的兼職時薪大多都在30-200美元之間,這在客觀上就要求企業需要從技術的角度去思考解決數據生産問題,或者采購相關服務。
從融資環境來看,國內的數據標注市場一直都處于AI領域的融資邊緣地帶。2021年左右,研究估計中國整個數據標注市場的規模僅爲43億人民幣,2022年僅增長至51億人民幣。這個數字相較于整個AI市場的千萬億規模無疑不值一提,也造成了數據標注公司的融資困難。2021年,當Scale AI已經完成3.25億美元的E輪融資,估值達到了73億美元時,中國的同類創業公司大部分還停留在A輪。
之所以此前國內的規模如此之小,是因爲只是單純考慮了標注這一個環節。而實際上,從數據標注所衍生出來的數據管理、數據評估、數據合成等全流程的數據服務才是這個行業中的增值部分。
關于數據對于大語言模型發展的重要性,Scale AI的創始人Alex Wang在最近的訪談中談到,人們已經用盡了互聯網上的所有數據,想要開發出比GPT-4.5更強大的人工智能,則必須構建前沿數據。所謂的“前沿數據”是指那些與應用場景密切相關、能及時反映最新趨勢和變化的數據,往往包含大量長尾或少見的場景,有助于提升AI在非典型情況下的表現,推動人工智能能力的邊界向複雜推理、多模態等方向發展。
隨著AI向縱深發展,未來的數據訓練需要更多地與特定任務、特定應用場景相匹配,因此也需要挖掘和生産出更多新的、差異化的數據,這是Scale AI此輪10億美元融資之後的工作重點,也進一步打開了數據標注的想象邊界。---[來源 : 創業邦/作者 : Juny*編輯 : 海腰]