質疑、賣身、價格戰，AI 竟遭遇人類「圍剿」？

2024052719:45

（圖片來源：鈦媒體App編輯拍攝）

近期，關於生成式 AI 產品和產業的諸多質疑聲不斷發酵。

北京時間5月25日，美國普渡大學發表的一項研究顯示，ChatGPT對Stack Overflow上517個關於代碼開發問題進行分析，最終顯示，AI 輸出的答案中，有52%包含錯誤信息，77%的答案比人類答案要更冗長，而78%的答案與人類存在不一致狀況。

研究人員稱，ChatGPT仍然存在重大的缺陷，經常會憑空產生完全錯誤的答案，並且這個錯誤比例高得驚人。

與此同時，谷歌日前發布的全新 AI 搜索產品「AI Overview」被網友曝光 AI 回答頻頻出錯，包括建議「往披薩上抹膠水」、「吃石頭對身體好」等回答，它甚至還會告訴你，互聯網上的一切是100%真實的，因此這遭到網友廣泛批評；另外，估值超10億美元的Adept、估值7.5億美元的Humane、AI獨角獸Stability AI等多家 AI 公司被曝光並購或「賣身」。

5月國內大模型「價格戰」降價後信息匯總（來源：鈦媒體App編輯整理）

如果再加上過去一個月內國內集體進入的大模型API「價格戰」。很顯然，隨著新一輪 AI 熱潮進入「深水區」，當 AI 還沒改變世界之前，如今卻已經遭到人類的「圍剿」。

AI產品受質疑：ChatGPT出現52%的錯誤率，谷歌AI「大翻車」

首先，從ChatGPT編程問題遭遇52%的回答錯誤率開始說起。

據futurism報道，美國普渡大學研究人員本月在計算機會議ACM上展示的一項研究成果表明，ChatGPT AI生成的編程答案中，有52%的回答包含錯誤信息，77%的回答過於冗長。

這篇共計17頁的論文當中，研究人員深入分析ChatGPT對Stack Overflow上517個編程問題的回答，考察了這些回答的正確性、一致性、全面性和簡潔性。盡管研究發現ChatGPT回答存在錯誤信息，但研究參與者當中，仍有35%的時間傾向於選擇ChatGPT的回答，因為它們全面且語言表達清晰。

研究方法上，論文作者以手動分析、語言學分析、用戶研究三個部分展開。

    手動分析：對ChatGPT的回答進行手動分析，與Stack Overflow上人類程序員提供的接受答案進行比較。

    語言學分析：對2000個隨機抽取的Stack Overflow問題進行語言學分析，使用LIWC工具和情感分析。

    用戶研究：與12名程序員進行用戶研究，了解他們對ChatGPT和Stack Overflow答案的偏好。

最後發現，ChatGPT的回答在很多情況下表現得非常好，但也頻繁出錯，並且不必要地延長了回答。

同時，ChatGPT回答具有更豐富的語言學特征，導致一些用戶更傾向於選擇ChatGPT而非人類回答，並有時忽視ChatGPT回答中的基本錯誤和不一致性。數據顯示，有39%的參與者忽視了ChatGPT回答中的誤導信息。這表明需要對抗ChatGPT回答中的誤導信息，並提高人們對看似正確答案的風險意識。

另外，用戶通常能夠正確區分ChatGPT回答和人類回答，他們尋找諸如正式語言、結構化寫作、回答長度或不尋常的錯誤等因素來決定答案的來源。而且，論文還討論了ChatGPT在編程中的挑戰和風險，並提出了設計新的交互和計算方法來對抗ChatGPT生成的誤導信息的機會。

有分析認為，這篇論文的研究成果對於理解ChatGPT在編程領域的應用及其潛在問題具有重要意義，並為未來的研究和實踐提供了指導。

其次，谷歌AI「大翻車」事件引發關註。

最近，谷歌在I/O開發者大會上宣布，其搜索產品新增名為「AI Overview」的功能，它可以在搜索結果的最頂部直接展示一個簡短的答案。例如，如果你搜索「如何清潔皮靴」，系統就會立即顯示一個綜合了網絡信息的多步驟清潔指南。這個功能讓你能迅速獲得信息，無需逐一查看各個網頁。

然而，使用不到兩周，由於AI Overview頻頻提供「離譜」的錯誤答案，遭到了網友的大量批評，而且用戶還不能選擇關閉這個功能。

比如，當一位用戶搜索「芝士不粘披薩」時，AI Overview建議用戶在醬汁中添加「大約1/8杯無毒膠水」。有網友發現，這個建議似乎源自11年前的一條無人問津的Reddit評論。

再比如，用戶提問：「在網上看到的信息都是真的嗎？」。AI Overview回答：「是的。互聯網上的一切都是100%真實的。」。

有時候AI Overview功能呈現的錯誤信息，會誤導用戶以為是權威醫療專家或科學家的觀點。

例如，當用戶詢問「我每天應該吃多少石頭」時，該工具錯誤地引用加州大學伯克利分校地質學家的話稱：「人們每天至少應該吃一塊小石頭」，並繼續列出吃石頭的好處，比如巖石是人體維生素和礦物質的重要來源，吃石頭對消化健康有好處.

當被問及谷歌搜索是否違反反壟斷法時，AI Overview回答說：「是的，美國司法部和11個州正在起訴谷歌涉嫌違反反壟斷法。」

對此，谷歌發言人表示，「絕大多數AI Overview提供的信息質量都很高，並且會提供更多網頁鏈接供用戶深入了解。我們註意到很多示例都是不常見的查詢，也有一些是被篡改的或者他們無法復現的例子。這個功能在推出前已經進行了大量測試，並且公司會在必要時快速采取行動來確保內容的準確性。」

不僅僅是AI Overview工具，谷歌在今年2月推出的另一個名為Gemini的圖像生成工具也頻頻出錯，導致該工具被暫停使用。例如，有用戶在社交媒體上分享，他在查詢谷歌創始人時，該工具展示了一幅亞洲男性的圖像。

谷歌當時在一份聲明中表示，它正在努力修復Gemini的圖像生成問題，承認該工具「未達到標準」。不久之後，公司宣布將立即「暫停生成人物圖像」，並「很快重新發布改進版本」，但至今尚未再次推出。

* 最後，是近兩天美國 AI 市場進入新一輪洗牌，獨角獸們集體遭遇「賣身」。

據報道，Transformer作者Ashish Vaswani、Niki Palmer和David Luan成立的大模型公司Adept傳出被賣消息。公司估值10億美元，此前已獲得4億美元的融資，參投機構包括Frontiers Capital、微軟、英偉達等。據悉，Adept已經和Meta進行過溝通。

目前，公司兩位聯合創始人Ashish Vaswani、Niki Palmer已經成立了另一家AI辦公自動化公司Essential AI。

同時，有消息稱，紅極一時的可穿戴AI設備公司Humane AI Pin，也在與一名財務顧問接觸，尋找意向買家，目標價格是7.5-10億美元。此前，該公司獲得微軟、高通，以及OpenAI CEO奧爾特曼等人數億元的融資支持。

另外，AI 圖片生成領域開拓者、Stable Diffusion打造者Stability AI被曝光公司團隊考慮求合並，但具體進度不得而知。而 AI 搜索龍頭Perplexity曾在1月傳出相關消息。不過隨著後面馬上官宣了B輪7360萬美元融資，求收購計劃疑似中止，最近還被曝正尋求更新一輪融資，金額可能達到2.5億美元。

很顯然，不管出於何種原因，大模型領域進入了新一輪洗牌期。據PitchBook統計，過去3年中，全球大約2.6萬家創企共計融資了3300億美元。

有市場分析稱，生成式 AI 產業投資正在呈現方向性轉移，模型層投融資「雪球效應」明顯，資源向頭部聚集，潛在資本重點看向應用層。

紅杉資本在近期舉行的AI Ascent 2024上表示，2023年，各家AI公司在英偉達GPU上大手一揮，已經花去500億美元，但由此產生的收入才有30億美元。

谷歌DeepMind首席執行官德米斯·哈薩比斯（Demis Hassabis）直言，AI 遭遇過度炒作，估值過於高昂，「泡沫」需要軟著陸。

金沙江創投主管合夥人朱嘯虎曾指出，大模型商業模式太差，技術沒有差太多的情況下，每一代技術都要投，現在可能3.5版本要投入幾千萬美元，叠代到4版本要幾億美元，到5版本可能要幾十億美元，每一代模型都要重新去投入，而變現周期可能就兩三年，「這比發電廠還要差」。

美國經濟學家泰勒·考恩（Tyler Cowen）認為，AI 炒作已經消退，但革命仍在繼續。

* 中國國內大模型價格戰加劇，市場將迎來新一輪洗牌

相對於國外的 AI 質疑和企業被迫出售環境，國內 AI 領域競爭加劇，阿裏、騰訊、字節、百度、訊飛、智譜、DeepSeek集體加入價格戰。

    5月6日：私募基金幻方量化孵化的DeepSeek（深度求索）初創大模型公司發起降價，對標GPT-4的模型DeepSeek-V2的輸入價格定為1元/百萬tokens。

    5月12日、13日：智譜AI的GLM-3-Turbo模型和面壁智能模型展開價格攻防，後者宣布0元購。

    5月15日：字節跳動旗下火山引擎 AI 大模型豆包（原名：雲雀）宣布，主力模型定價比行業價格水平要便宜 99.3%，豆包大模型的 API 輸入價格是 0.0008元/千 tokens，即1元在豆包能買到125萬 tokens。

    5月21日上午，阿裏雲宣布，9款通義大模型降價，其中，性能對標GPT-4的主力模型Qwen-Long，API輸入價格從0.02元/千tokens降至0.0005元/千tokens，直降97%，也就是1塊錢能買200萬tokens，相當於5本《新華字典》的文字量。

而剛發布不久的通義千問超大杯Qwen-max，API輸入價格也直降67%，低至0.02元/千tokens。開源方面，Qwen1.5-72B、Qwen1.5-110B等5款開源模型的輸入價格也分別直降75%以上。

    5月21日下午，百度發文宣布，旗下兩款大模型ERNIE Speed、ERNIE Lite免費。

    5月22日，騰訊公布全新大模型升級方案，主力模型之一的混元-lite 模型不僅從 4k 升級到 256k ，而且全面免費；其他模型除了長度升級外，價格也都大幅下降。

    5月22日中午：科大訊飛宣布，訊飛星火 API 能力正式免費開放。其中，訊飛星火 Lite API 永久免費開放，訊飛星火 Pro/Max API 低至 0.21 元/萬 tokens。

對此次價格戰，大家褒貶不一，一方面是認為利好大模型市場發展，另一方面則認為AI「泡沫」即將破滅、新一輪洗牌到來，觀點並不一致。

其中，阿裏雲智能集團資深副總裁、公共雲事業部總裁劉偉光表示，「（降價）它的目的一定是普惠於市場」，「要真正加速市場的提前爆發」。

火山引擎總裁譚待表示，降價的主要原因在於，今年行業大模型能力大幅提升，做應用這件事變得很重要，也就是一定要將生態做繁榮。譚待稱目前接觸的很多客戶都在做大模型方面的嘗試，但創新這件事的風險度很高，尤其在AI領域，因此需要將成本降低，拉動大家更廣泛地使用起來。從這個角度來講，不論是大企業還是個人，都需要更低成本、更高質量的大模型。

但彭博分析師 Robert Lea 和Jasmine Lyu在最新報告中認為，「中國在 AI 盈利方面將面臨著漫長的道路，行業洗牌可能會推動該行業盈利，盡管在一個資本過剩的行業中，但這種（行業盈利）情況似乎不太可能很快發生。」

零一萬物CEO李開復對鈦媒體App表示，推理成本將每年降10倍，但瘋狂降價是雙輸。

「因為今天API跟模型調用還是一個非常低的比例，如果一年推理降低10倍，眾多的人可以用上，這是一個非常利好消息。」但另一方面，李開復卻認為，按照現在國內市場『卷』的情況，幾十萬做個POC（概念驗證），幾百萬做一單，做一單、賠一單的生意，「我們早期在AI 1.0時代看多了、投多了，（如今）我們堅決不做（賠錢生意）。」

百川智能創始人、CEO王小川則向鈦媒體App指出，價格免費是優勢，但不一定是競爭力。大模型價格戰會加速泡沫周期，直接導致尾部部分企業會退出賽道。

「我們做C端的就別摻合了，」王小川直言，這種價格戰與C端無關。同時，免費之後，整個To B市場會繁榮的更快，因為大家更願意嘗試使用這個模型，價值空間是有的，但尾部公司會退出這個賽道。

王小川強調，「漲潮退潮最後才會有珍珠，但一定有它的一種泡沫在這裏，會加速泡沫周期，也讓它變得更加繁榮，這是商業裏面必然出現的一個事情。」

整體來看，無論是產品質疑、企業賣身，還是國內這輪 AI 大模型價格戰，都在說明行業面臨新一輪洗牌和熱潮降溫。但是，不斷變革的 AI 技術對於各行各業發展仍然非常重要。

市場調研機構IDC最新數據顯示，2024年，全球生成式AI支出為403億美元，其中生成式AI基礎設施、模型和平臺、應用、服務支出分別占比為45.41%、11.66%、15.63%、27.30%，到2027年，全球生成式AI年支出將達到1510億美元，占全球AI支出的比例為29%。

IDC分析認為，2024年，中國基礎大模型數量將減少，逐漸轉變為針對產業落地的行業大模型比拼，在模型框架、開發者工具、基礎大模型、部署和推理工具等維度上會呈現開源和閉源共存。

同時，隨著蘋果、小米、榮耀等廠商陸續發布支持端側AI推理的芯片或模型，AI落地端側成為終端廠商趨勢，端側AI推理可以實現更高的處理效率、更好的隱私保護和全新的用戶體驗方式。

預計2025年前，生成式AI的機會還停留在基礎設施，2025-2026年向生成式AI平臺和方案過度，2026年之後生成式AI服務的機會將全面爆發。

中國科學院科技戰略咨詢研究院研究員肖尤丹表示，經歷了大浪淘沙、生存下來的 AI 大模型企業，將迎來新一輪的快速發展機遇。

谷歌DeepMind聯合創始人Demis Hassabis預測，通用人工智能（AGI）有望在2030年實現。

---（鈦媒體/作者:林誌佳*編輯:胡潤峰｜鈦媒體AGI）

我要留言

質疑、賣身、價格戰，AI 竟遭遇人類「圍剿」？

去越南，收割一個時代

「偏見」之外，真實的南非比想象中更美

去越南，收割一個時代

「偏見」之外，真實的南非比想象中更美