01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

沒想到吧,中文互聯網上最好的大模型語料庫是:弱智吧

2024040413:05


如果讓你在互聯網上給大模型選一本中文教材,你會去哪裏取材?是知乎,是豆瓣,還是微博?一個研究團隊爲了構建高質量的中文指令微調數據集,對這些社交媒體進行了測試,想找到訓練大模型最好的中文預料,結果答案保證讓你大跌眼鏡——

弱智吧。

弱智吧是百度貼吧上的一個子版塊,這是一個非常神奇的地方,吧友們熱衷于創作和分享一語雙關、一詞多義、因果倒置、諧音梗等帶著邏輯陷阱的內容,而且部分帖子甚至帶有一定的哲學意味。但是,拿這些東西訓練全知全能偉大的大模型?能行嗎。

別急,我們先來看看這個研究團隊做了什麽實驗。


這是一篇題爲《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》的論文,作者來自多個國內外高校,簡單來說,他們提出了一個中文指令微調數據集COIG-CQIA(全稱爲Chinese Open Instruction Generalist-Quality Is All You Need )。

對于中文大模型開發者來說,目前的一個重點挑戰就在于沒有一個高質量中文數據集,研究團隊認爲,各種中文社交媒體、論壇對于大模型的訓練應該是很好的語料來源。

于是爲了給這個數據集取材,他們從不同的社交平台(如問答社區、維基百科、考試材料、已有的 NLP 數據集等)收集了高質量的人工編寫的文本集合,這些文本經過嚴格篩選和細致處理,最終才構建出了這個數據集。


論文稱,這個數據集的目的是構建一個多樣化、廣泛的服務于中文大模型的指令調優數據集,以更好地使模型行爲在中文環境下與人類互動相一致,提高指令響應的能力。

這裏也科普一個概念,那就是大模型雖然有強大的知識儲備,但是它是爲解決通用自然語言處理任務而設計的,因此沒有辦法處理特定問題。此時,就需要對其進行“微調”,來讓其輸出結果符合特定問題的預期。而指令微調就是說明確了模型應執行的任務類型、輸入要求、輸出格式等具體細節情況下,再給出正確的結果。比如我用中文提問,並要求模型用西班牙語回答,那麽模型的開發者爲了滿足我後半句話的要求,就得對模型進行指令微調。

這時就需要一個“指令微調數據集”。這類數據集通常包含大量的“指令-輸出”對,其中每個對包括一個明確的指令(instruction),即用戶希望模型執行的任務說明,以及與之對應的理想輸出(output),即模型在接收到該指令後應當生成或執行的結果。

COIG-CQIA就是這樣一個數據集。研究團隊首先是對數據集進行了嚴格的篩選和清洗,確保數據集是比較健康的。具體做法是根據預設的篩選標准,去除無關或低質量的文本。這可能包括刪除廣告、無意義的灌水內容、含有敏感信息或違反社區規則的帖子等。

之後,團隊還做了人工幹預:對處理後的文本進行人工審核,確保其內容正確無誤,符合預期的語義和知識標准,同時也確保數據集與真實的中文用戶交互模式相一致。尤其是在一些諸如弱智吧語錄這樣深層隱喻比較強,模型基本沒辦法完全理解采集到的段子的含義,那就需要進行人工標注,提供明確的指令-輸出示例,爲模型微調提供精確的訓練信號。

在做完了整理工作後,研究團隊使用COIG-CQIA數據集對多個開源中文大模型做了微調。

而爲了評估這些不同來源的數據質量,團隊分別用不同的社交網站的數據微調了同一個模型,並做了測試。

在論文展示的對微調後的Yi系列模型的評估表現中,神奇的一幕出現。

在Yi-6B的性能對比中,在多個比分中(開放式問答,頭腦風暴,分類問題,生成問題,封閉式問答和編程),用弱智吧的數據訓練的模型表現在多個分類中表現是最好的。


而對微調後的Yi-34B的評測中,基于弱智吧數據訓練出來的表現,更是直接拿了幾乎全部領域的第一,綜合評分遙遙領先。


除了性能外,COIG-CQIA還對其安全性能進行測試了,使用的是開源評估框架SafetyBench。可以看到,CQIA-Sub-6B的SafetyBench高達81.7,比GPT 3.5的SafetyBench還高。這麽高的評分代表COIG-CQIA能夠准確識別風險,並區分出含有有害信息、潛在違規內容、隱私敏感信息、誤導性建議等不安全選項,選擇出最符合安全原則的答案。換句話說,其具備一定的商業化潛力。

而其中,弱智吧的表現又亮了。超過了GPT3.5 。


論文裏也對此感到驚訝,作者嘗試做了分析:“有意思的是,弱智吧數據集在多個子集上的平均排名中最終位居第二,我們認爲這可能是因爲弱智吧的數據特性有助于增強模型的邏輯推理能力,從而在大多數遵循指令的任務中表現出色。”

在看完這篇論文後,我又去弱智吧看了看這些天才般的語料,這是有人整理的一部分弱智吧經典語錄:

    玉皇大帝住的是平流層()還是對流層?

    導盲犬禁止入內,是給盲人看的,還是給導盲犬看的?

    空腹能吃飯嗎?

    變形金剛買保險是買車險還是人險?

    我買了一斤藕,爲什麽半斤都是空的?

    雷公電母放的是直流電還是交流電?

    每天吃一粒感冒藥,還會感冒嗎?

    請問孕婦打人算群毆嗎?

    去自首的路上被抓了還算自首嗎?

    吃止痛藥去打架,算開挂嗎?

    被門夾過的核桃,還能補腦嗎?

考慮到大模型最欠缺的就是邏輯能力,看來這些更像腦筋急轉彎的問答確實是大語言模型的好語料。

而在弱智吧最近的首頁上,一個排名靠前的帖子也很應景:


“什麽工作都可能會被人工智能取代,但弱智不會。”

真的,有道理呢。---[作者 : 苗正/來源: 矽星人]