01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

陳根:人工智能的"胡言亂語",有沒有解法?

2023090111:35

AI大模型的成功帶來了前所未有的「智能湧現」,人們對即將到來的AI時代充滿期待。

然而,在科技巨頭們湧向AI賽道、人們樂此不疲地實驗和討論AI的強大功能,並由此感嘆其是否可能取代人類勞動時,AI幻覺問題也越來越不容忽視,成為AI進一步發展的阻礙。Yann LeCun——世界深度學習三巨頭之一,「卷積神經網之絡父」——在此前的一次演講中,甚至斷言「GPT模型活不過5年」。

隨着AI幻覺爭議四起,大模型到底能夠在行業中發揮多大作用,是否會產生副作用,也成為一個焦點問題。AI幻覺究竟是什麼?是否真的無解?



AI大模型的「胡言亂語」

人類會胡言亂語,人工智能也會。一言以蔽之,人工智能的胡言亂語,就是所謂的「機器幻覺」。

具體來看,AI幻覺就是大模型生成的內容在表面上看起來是合理的、有邏輯的,甚至可能與真實信息交織在一起,但實際上卻存在錯誤的內容、引用來源或陳述。這些錯誤的內容以一種有說服力和可信度的方式被呈現出來,使人們在沒有仔細核查和事實驗證的情況下很難分辨出其中的虛假信息。

AI幻覺可以分為兩類:內在幻覺(Intrinsic Hallucination)和外在幻覺(Extrinsic Hallucination)。

所謂內在幻覺,就是指AI大模型生成的內容與其輸入內容之間存在矛盾,即生成的回答與提供的信息不一致。這種錯誤往往可以通過核對輸入內容和生成內容來相對容易地發現和糾正。

舉個例子,我們詢問AI大模型「人類在哪年登上月球」?(人類首次登上月球的年份是1969年)然而,儘管AI大模型可能處理了大量的文本數據,但對「登上」、「月球」等詞彙的理解存在歧義,因此,可能會生成一個錯誤的回答,例如「人類首次登上月球是在1985年」。

相較於內在幻覺,外在幻覺則更為複雜,它指的是生成內容的錯誤性無法從輸入內容中直接驗證。這種錯誤通常涉及模型調用了輸入內容之外的數據、文本或信息,從而導致生成的內容產生虛假陳述。外在幻覺難以被輕易識別,因為雖然生成的內容可能是虛假的,但模型可以以邏輯連貫、有條理的方式呈現,使人們很難懷疑其真實性。通俗的講,也就是AI在「編造信息」。

想象一下,我們在AI聊天,向其提問:「最近有哪些關於環保的新政策?」AI迅速回答了一系列看起來非常合理和詳細的政策,這些政策可能是真實存在的。但其中卻有一個政策是完全虛構的,只是被AI編造出來。這個虛假政策可能以一種和其他政策一樣有邏輯和說服力的方式被表述,使人們很難在第一時間懷疑其真實性。

這就是外在幻覺的典型例子。儘管我們可能會相信AI生成的內容是基於輸入的,但實際上它可能調用了虛構的數據或信息,從而混入虛假的內容。這種錯誤類型之所以難以識別,是因為生成的內容在語言上是連貫的,模型可能會運用上下文、邏輯和常識來構建虛假信息,使之看起來與其他真實信息沒有明顯區別。



AI為什麼會產生幻覺?

人工智能的幻覺問題,其實並不是一個新問題,只不過,以ChatGPT為代表的AI大模型的火爆讓人們開始注意AI幻覺問題。那麼,AI幻覺究竟從何而來?又將帶來什麼危害?

以ChatGPT為例,本質上,ChatGPT只是通過概率最大化不斷生成數據而已,而不是通過邏輯推理來生成回覆:ChatGPT的訓練使用了前所未有的龐大數據,並通過深度神經網絡、自監督學習、強化學習和提示學習等人工智能模型進行訓練。目前披露的ChatGPT的上一代GPT-3模型參數數目高達1750億。

在大數據、大模型和大算力的工程性結合下,ChatGPT才能夠展現出統計關聯能力,可洞悉海量數據中單詞-單詞、句子-句子等之間的關聯性,體現了語言對話的能力。正是因為ChatGPT是以「共生則關聯」為標準對模型訓練,才會導致虛假關聯和東拼西湊的合成結果。許多可笑的錯誤就是缺乏常識下對數據進行機械式硬匹配所致。

不久前,兩項來自頂刊的研究就表明:GPT-4可能完全沒有推理能力。第一項研究來自麻省理工的校友 Konstantine Arkoudas。8 月 7 日,畢業於美國麻省理工學院的 Konstantine Arkoudas 撰寫了一篇標題為《GPT-4 Can't Reason》(GPT-4 不能推理)的預印本論文,論文指出,雖然GPT-4 與 GPT 3.5 相比有了全面的實質性改進,但基於21種不同類型的推理集對GPT-4進行評估後,研究人員發現,GPT-4完全不具備推理能力。

而另一篇來自加利福尼亞大學和華盛頓大學的研究也發現,GPT-4,以及GPT-3.5在大學的數學、物理、化學任務的推理上,表現不佳。研究人員基於2個數據集,通過對GPT-4和GPT-3.5採用不同提示策略進行深入研究,結果顯示,GPT-4成績平均總分僅為35.8%。

而「GPT-4完全不具備推理能力」的背後原因,正是AI幻覺問題。也就是說,ChatGPT雖然能夠通過所挖掘的單詞之間的關聯統計關係合成語言答案,但卻不能夠判斷答案中內容的可信度。

換言之,AI大模型沒有足夠的內部理解,也不能真正理解世界是如何運作的。AI大模型就好像知道一個事情的規則,但不知道這些規則是為什麼。這使得AI大模型難以在複雜的情況下做出有力的推理,因為它們可能僅僅是根據已知的信息做出表面上的結論。

比如,研究人員問GPT-4:一個人上午9點的心率為75 bpm(每分鐘跳動75次),下午7點的血壓為120/80(收縮壓120、舒張壓80)。她於晚上11點死亡。她中午還活着嗎?GPT-4則回答:根據所提供的信息,無法確定這個人中午是否還活着。但顯而易見的常識是「人在死前是活着的,死後就不會再活着」,可惜,GPT-4並不懂這個道理。



AI幻覺有無解法?

AI幻覺的危害性顯而易見,其最大的危險之處就在於,AI大模型的輸出看起來是正確的,而本質上卻是錯誤的。這使得它不能被完全信任。

因為由AI幻導致的錯誤答案一經應用,就有可能對社會產生危害,包括引發偏見,傳播與事實不符、冒犯性或存在倫理風險的毒性信息等等。而如果有人惡意的給ChatGPT投餵一些誤導性、錯誤性的信息,更是會干擾ChatGPT的知識生成結果,從而增加了誤導的概率。

我們可以想象下,一台內容創作成本接近於零,正確度80%左右,對非專業人士的迷惑程度接近100%的智能機器,用超過人類作者千百萬倍的產出速度接管所有百科全書編撰,回答所有知識性問題,會對人們憑藉着大腦進行知識記憶帶來怎樣的挑戰?

尤其是在生命科學領域,如果沒有進行足夠的語料「餵食」,ChatGPT可能無法生成適當的回答,甚至會出現胡編亂造的情況,而生命科學領域,對信息的準確、邏輯的嚴謹都有更高的要求。因此,如果想在生命科學領域用到ChatGPT,還需要模型中針對性地處理更多的科學內容,公開數據源,專業的知識,並且投入人力訓練與運維,才能讓產出的內容不僅通順,而且正確。

並且,ChatGPT也難以進行高級邏輯處理。在完成「多准快全」的基本資料梳理和內容整合後,ChatGPT尚不能進一步綜合判斷、邏輯完善等,這恰恰是人類高級智慧的體現。國際機器學習會議 ICML 認為,ChatGPT 等這類語言模型雖然代表了一種未來發展趨勢,但隨之而來的是一些意想不到的後果以及難以解決的問題。ICML 表示,ChatGPT 接受公共數據的訓練,這些數據通常是在未經同意的情況下收集的,出了問題難以找到負責的對象。

而這個問題也正是人工智能面臨的客觀現實問題,就是關於有效、高質量的知識獲取。相對而言,高質量的知識類數據通常都有明確的知識產權,比如屬於作者、出版機構、媒體、科研院所等。要獲得這些高質量的知識數據,就面臨支付知識產權費用的問題,這也是當前擺在ChatGPT目前的客觀現實問題。

目前,包括OpenAI在內的主要的大語言模型技術公司都一致表示,正在努力改善「幻覺」問題,使大模型能夠變得更準確。

特別是麥肯錫全球研究院發表數據預測,生成式AI將為全球經濟貢獻2.6萬億美元到4.4萬億美元的價值,未來會有越來越多的生成式AI工具進入各行各業輔助人們工作,這就要求AI輸出的信息數據必須具備高度的可靠性。

谷歌也正在向新聞機構推銷一款AI新聞寫作的人工智能產品,對新聞機構來說,新聞中所展現的信息準確性極其重要。另外,美聯社也正在考慮與OpenAI合作,以部分數據使用美聯社的文本檔案來改進其人工智能系統。

究其原因,如果AI幻覺問題不能得到有效的解決,生成式大語言模型就無法進入通用人工智能的階段。可以說,ChatGPT是一個巨大的飛躍,但它們仍然是人類製造出來的工具,目前依然面臨着一些困難與問題。對於AI的前景我們不需要質疑,但是對於當前面對的實際困難與挑戰,需要更多的時間才能解決,只是我們無法預計這個解決的時間需要多久。-(陳根談科技/文:陳根)

*陳根:AI聊天機器人,沒這麼安全?*

據路透社8月30日報導,英國官員正在警告機構組織注意把人工智能聊天機器人整合到業務中的風險,稱研究越來越多地顯示,機構組織可能被誘騙從事有害的任務。

其實AI聊天機器人目前所面臨的問題相對還比較多,畢竟是一項新的技術,各種應用與標準都還不完善。AI聊天機器人在政府以及公司工作中的使用,不僅存在着數據與網絡的安全風險,同時由於AI幻覺問題也在一定程度上影響着AI使用的質量。



而目前將AI聊天用於日常的娛樂,包括網絡文學的創作方面,這將會是一個不錯的工具。但是如果要應用於相對嚴謹的資料處理,包括知識領域的應用,目前還需要謹慎的對待。

當然,如果只是一個假的AI聊天機器人,本質上只是一個資料問答,或者說數據庫問答,這類的聊天對話相對可靠性更一些,但這類產品跟AI聊天機器人之間沒有什麼關聯。

當前,擺在各國政府以及企業面前的現實挑戰是兩方面:一方面是如何快速的發展出成熟、可靠的AI大模型應用技術,另外一方面則是如何有效監管AI大模型的使用安全性。-(陳根談科技/文:陳根)