01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

當搜索框用上ChatGPT

2023020709:30



谷歌電腦版首頁的格局,是和別處不同的:

在搜索框旁邊有兩個按鈕,而不是一個。在常規搜索按鈕的右邊還有一個「手氣不錯」(I'm Feeling Lucky)按鈕。

在講到 ChatGPT 以及同類生成式 AI 和搜索引擎的關係之前,讓我們先來看看這個按鈕。

「手氣不錯」,但點開搜索結果頁更棒

在搜索框內鍵入關鍵字後,如點擊「手氣不錯」,將會跳轉到搜索結果的第一條。如果什麼都不輸入,點擊「手氣不錯」則會進入谷歌的節日 Logo(Doodles)頁面。

「手氣不錯」自谷歌 1998 年成立時就已經存在。在早期,它的正確用法是輸入網站名字直達該網站,而不需要再多點一次。

該按鈕也被用作「搜索炸彈」攻擊,即使用搜索引擎優化(SEO)手段,讓不正確或惡意的結果排到最前面。2006 年 9 月,在搜索框輸入「failure(失敗)」「miserable failure(慘敗)」再點擊「手氣不錯」都會跳轉到時任美國總統小布什的官方簡歷頁面,因為它被刷到了搜索結果的第一條。

「手氣不錯」按鈕並沒有進入谷歌搜索的手機版,或其它有搜索框的地方。在 PC 端它也被弱化,因為輸入關鍵字時,搜索框自動向下展開聯想詞,遮住了該按鈕。在 PC 搜索結果頁也沒有這個按鈕。

不過,谷歌的語音助手 Google Assistant 如果接到一些類似「什麼是……」的提問,如果沒有預設答案,也會念出搜索結果的第一項,或者維基百科條目。這可以被看作是變相的「手氣不錯」,因為最終也是只呈現一條結果。

「手氣不錯」保留至今僅僅是一個情懷的體現。相比以前,谷歌首頁也已經很少有人訪問了。人們越來越多通過瀏覽器界面上的搜索框或地址欄進入谷歌搜索,他們看到的第一個頁面就是搜索結果頁,而不是谷歌首頁。

因此,過去數年穀歌對搜索結果頁做了重大改進。現在結果頁的信息量更豐富,包括從目標頁面文字中提取出的那一段有意義的文本。而「手氣不錯」並沒有做任何調整。比如,現在用搜索框輸入數學公式,搜索結果頁會顯示一個計算器,但「手氣不錯」會引導到一個谷歌外部的網頁,而不是直接展示運算結果。

搜索結果頁也包含維基百科、新聞、圖片等大量有價值的信息。如果搜索的是一個門戶網站或論壇,那麼結果頁還附帶該站的一個站內搜索框,不點開就可以搜索該站內容;如果搜索的是某款軟件,官網的下載鏈接都會被提取出來。



同時,越來越多的搜索結果頁加入了「人們還在問」(People also ask)板塊;每個搜索結果及板塊旁邊都提供「關於此結果」(About this result)功能,介紹該搜索結果的來源,以及為什麼呈現在這個位置上。

因此,搜索結果頁現在已經比提供一個「直達」鏈接的「手氣不錯」更能滿足用戶的需要了。谷歌這一點和百度等競品都一樣,搜索引擎們用結構化的信息呈現,儘量把人們留在自己站內而不跳轉出去。

然後,我們把搜到的東西講給別人聽

現在,不論用谷歌還是百度,搜索更像是打開一個與關鍵字有關的「面板」——對,就像蘋果發布會總結某款新手機時候的那種拼圖版面,試圖在你的屏幕上顯示所有可能的信息,並把它們鋪滿。那種常見的一頁頁的搜索結果,要繼續滾動下去才有。



而作為搜索引擎的使用者,一個人類,你看到這些東西的時候要做的事情,其實是在自己的大腦里總結它們,並將它們轉換為一段話。比如說,如果要搜索的這個問題是你老婆問你的,她讓你幫她搜一下。那麼你回答她的方式並不是給她看你的屏幕,而是自己總結一下再講給她。而且你最好不要試圖逐字念維基百科的結果,她希望聽到的或許只有一兩個字。

這時候你是什麼?你就是一個 ChatGPT 啊。

好的,我們終於要進入正題了。

根據 CNBC 報道,谷歌將更快引入類似 ChatGPT 的自家產品 LaMDA 到搜索引擎中。谷歌的某款設計中的新版首頁,就是替換掉「手氣不錯」按鈕,取而代之的是隨着關鍵字輸入,展示 AI 選出的 5 個你最有可能提的問題。而當你打出一句自然語言後,可以點擊搜索框最右邊的聊天按鈕,將頁面切換為類似 ChatGPT 的對話模式。

在這方面,LaMDA 可以幫助我們做的工作,其實就是總結「搜索結果頁首屏」可能呈現出來的關鍵信息,並將其轉換為自然語言。這次,你就可以直接念屏幕上的內容給老婆聽了。

這些內容現在仍然沒有實際可用的產品原型曝光。另外一邊,微軟已經宣告將在必應搜索整合 ChatGPT 本尊,甚至功能都已經做好了,甚至都對外放出來了——雖然只有短短的 5 分鐘,但已經足夠至少 3 個人在 Twitter 上放出截圖。





根據截圖,必應的 ChatGPT 整合使用了這樣一個流程:

    首先拆開自然語言提問,將它們轉換為普通的搜索關鍵字。 精選出上述關鍵字的 5 條最相關的結果。 提取結果中與問題直接相關的段落,並合併同類項。 以這些語料餵入 ChatGPT,生成一段連貫的段落。段落中來自某個來源的一段話或幾個詞,會用角標形式給出資料來源。

這樣做的好處顯而易見,可以減少對算法的干擾,避免它分心處理困難的語義分歧;可以事先過濾關鍵字,以免惹出麻煩;可以解決未聯網的 ChatGPT 「瞎編」的困境。

當然,我之前也說過,將材料限定在 Prompt 給出的有限文本中,也意味着要放棄它早前從那鍋大雜燴裡面學到的不知哪兒來的「知識」,成品可能變得乾巴巴的,沒有使出十成功力。而這也可能意味着每一次請求結果的運算都更節能,成本更低,甚至如果轉化後的關鍵字別人搜過,還可以直接調用此前生成好的內容呢。真是一舉多得。

這話是你說的,你可要負責啊

當人們望着攤開的搜索結果「面板」自己歸納總結的時候,是人們自己對具體採信哪條信息,放棄另一些信息來負責。比如去搜索一些疾病,搜完往往感覺都是「絕症」。但造成這種誤解的責任只能歸結於用戶本人。

然而,如果是 AI 幫你總結這一頁到底說了什麼,而你看到的只是它嚼過的成品,那就變成搜索引擎要對這段話負責了——雖然站在搜索引擎的角度看,它也很無辜,它也避免不了,但我們不用等實際產品上線就會推斷出,結局一定會是這樣。

因此,谷歌們一定要注意不讓這些 AI 對搜索結果的演繹演變為新的「搜索炸彈」。當然,也不是完全束手無策:它們都做了很長時間的語音助手,在如何規避違規或政治不正確的結果時,積累了一些經驗。比如在必應那種模式下,在拆分搜索關鍵字階段即可開始干預。

不同的是,因為語音助手的技術相對比較落後,它們更缺乏「自信」,也更多用車軲轆話搪塞過去,以至於人們有一個它們就玩玩就好的心理預期。ChatGPT 讓人感到「革命性」的重要原因,恰恰是它對自己說的東西充滿自信,即使那只是一本正經的胡說八道。這使得它的危險性也直線上升。

即使通過腳註方式讓每一句話都可以溯源,這種 AI 輔助的搜索依然沒解決下一個問題,就是 FT 專欄作者描述的「劣幣驅逐良幣」:「如果不可靠的文字可以免費獲得,而原創研究既昂貴又費力,那麼前者將會蓬勃發展。」

AIGC 的內容對一般大眾已經足夠可用,但對專業人士來說非常粗糙。同時他們對其中借鑑拼湊的痕跡也十分敏感。有些人類畫師咒罵說 Midjourney 或 NovelAI 這種 AI 生成的畫作,實際上是將人類作品「分屍」以後拼貼而成的「屍塊」。

但實際上,使用搜索引擎的人類做的就是拼貼,沒什麼神秘的。以前我們說程序員「面向谷歌編程」,其實很多人是通往 StackOverflow,該站也是 ChatGPT 解答大量編程問題所使用的信息來源。現在該站據報因為不少原本通過搜索找過來的訪問者轉而詢問 ChatGPT,而損失了一大部分流量。反過來,這又會導致站內人類回答者受到的激勵變少,與讀者的交互也變少,長遠來看不利於維持社區氛圍,生成更多的內容。

人類對創作社區的貢獻,固然有一些是源於金錢激勵,但也有不少是純粹的「我為人人,人人為我」,比如維基百科以及 StackOverflow。這些站點在幫助大量新生碼農入門的同時,也鼓勵他們「班門弄斧」地分享,通過獲得良性反饋達到自己經驗和技能上的進步。

專家也是一步一個腳印踏上來的,沒有初學者,哪來的專家?但 AIGC 有可能通過掐掉初學者的幼苗,讓人類能做的貢獻僅限於那些已經練成的專家,再過幾代人,那就沒什麼知識傳承了。而現在的 AI 還完全不會憑空創造。它們只是總結,而且經常是瞎貓碰死耗子這樣的總結。

AI 犯的錯誤能改正嗎?

從原理上講,大模型有天生缺陷。更正一個錯誤對人類來說是非常容易的(當然人類的自主意志或許不願意認錯),但對現在的生成式 AI 很困難。即使是開發者,也很難定位錯誤具體出現在哪裡,只能通過餵養新的材料試圖快速更正。當微軟曾經研發的聊天機器人 Tay 難以抵擋大量惡意操作激發出的錯誤用例時,它只能選擇關停。

要想治本揪出病根,而不是看到危機了打個補丁這樣的方法,行得通嗎?

國內的北京智源人工智能研究院就做了這樣的嘗試。在我之前對它們的採訪中,它們曾經組織多條技術路線賽馬。有人做了類似 Wikidata 的中國版知識圖譜,希望教會 AI 認知不同事物之間的邏輯關係,雄心勃勃。但最後,智源對外正式發布的第一個成果,是另一條路線的大模型「悟道」。這也是 ChatGPT 蹚過的同一條路線。

大模型源於大數據,但大數據不必然產生(好的)大模型。同樣的數據,從什麼方向煉,或者拿來以後是否要再篩一下,都可能導致完全不同的結果,機器學習的黑箱也讓不同人的經驗不能復用。如果大模型就等於大數據,那百度擁有的中文數據量當然是國內最大的。但我之前說過,就算是百度,他們煉丹的過程也極其艱難。

智源說,現在 AI 從「大煉模型」已經改為「煉大模型」,從數據上雲、算力上雲,已經進化到了模型上雲。不過,這中間發生了一個插曲:智源宣布自己大模型階段性成果的那篇論文《A Roadmap for Big Model》,其中居然有大量段落是直接複製粘貼過來的,實在是觀感不佳。

當然這確實只是一個插曲,因為這論文不是它們工作的核心內容。煉丹肯定能煉出來東西,這玩意的成本就擺在那裡,造假沒什麼意義。同時它致敬的來源本身是谷歌的科學家 Nicholas Carlini,其實也說明了集中力量煉大模型已經是跨越東西方的行業共識。

反過來說,這也宣告了 AI 也是朝着深度學習原理未知的「黑箱」方向一條道走到黑,專家系統以及知識圖譜路線再一次被打入冷宮。今後,即使大模型因為監管原因,因為政治正確原因必須要有可解釋性,那也是用新的機器學習來解釋,用一個「黑箱」來解釋另一個「黑箱」,補丁永遠打下去,類似人類的 Prompt 工程。真正「治本」是沒有指望了。

從這個角度來說,就像 LeCun 說過的,以及微軟的洪小文在 2019 年 6 月就說過的(我現場聽了他那場演講),當今的 AIGC 相比早前的機器學習沒有質的飛躍,只是模型終於大過了可以「騙過」普通人類的那個臨界點。在此之前,其實更多進步主要是業內自嗨,大家都是很會自我安慰的,比如谷歌那個神棍員工把一點蛛絲馬跡附會為 AI 有自我意識,創造了自己的語言什麼的。這當然是扯淡。

所以,ChatGPT 這種「信誓旦旦,虛心接受,堅決不改」的玩世不恭勁兒我們還得忍耐好一陣子。當然,必應方案中將來源鏈接與文本對應的辦法更討巧,但以這個路線實現的 AIGC,依然不可能有從無到有的自我創造。

所以……?

當 ChatGPT 幫我們撰寫文書,做總結陳詞的時候——我不知道別人怎麼想,但我多少有一種開車時,從手動擋變為自動擋,再前進到特斯拉「Autopilot」讓我偶爾能鬆開方向盤的那種感覺。(巧了,谷歌和百度也都在做自動駕駛。)

適當的改進解放了我的雙手,讓我精力更充沛。但完全的接管,則還是因為安全原因,不能讓我放心。在車廂里,自動駕駛判斷錯誤,會付出生命的代價。在工作中,直接使用 ChatGPT 生成的結果而不潤色核查,就要讓我自己為這些結果發布後的後果負責。

其結果是,我不得不再自行,或者使用別人的人力,來做事實核查與潤色調整。就像我不得不仍然兩手放在方向盤上,時不時下意識地轉轉。

我並沒有什麼內幕信息,上文描述的情況全都來自公開資料,它們也只是 AI 搜索可能的其中一種實現形式。當然,它的效果會好於目前智能音箱能做到的那種「手氣不錯」模式。

大多數人可能用到的會是類似自動擋這樣,相對全手動擋是「低收益低風險」的改進。少數人會越來越拔高其中 AIGC 所占比重,進入「高收益高風險」的領域。其中多條技術路線相互競爭,最後也許跑出一兩個成功的,並且可以被大規模複製的辦法(這一點非常重要),讓原本的高風險也變成低風險,於是所有人得到更大的收益。我能想到的 AIGC 進化路線,也不外如此。

此時,當前機器學習的黑箱模式,就變成了 AIGC 模式大規模複製的最大障礙。因為你甚至都可能不知道你自己是怎麼成功的,你都不能再做第二個同類產品出來。從這個角度上講,中國廠家即使跟風研究 ChatGPT 競品,也沒什麼丟人的。不論用看上去不可能的「白箱」模式,還是用可信賴、高可靠性的黑箱解釋黑箱,只要攻克了可解釋性這個深度學習的大難關,對全行業也有着重大意義。

最後,祝你每次用 AI 搜索的時候都「手氣不錯」,得到的結果不用人工修改,就可以直接用。

-[文源公眾號:航通社*作者:航通社.書航/來源:虎嗅]