用大模型測試人格/抑郁/認知模式!遊戲劇情測心理特質|清華出品
心理測量在精神健康、自我了解、和個人發展方面都發揮著重要的作用。
傳統的心理測量範式以自我報告類型的問卷爲主,常常通過參與者回憶自己的日常生活行爲模式或情緒狀態進行測量。
這樣的測量方式雖然高效便捷,但可能引發參與者的抗拒心理,降低被測意願。
隨著大語言模型(LLM)的發展,很多研究發現LLM能夠展現出穩定的人格特質,模仿人類細微的情緒與認知模式,還能輔助各種各樣的社會科學仿真實驗,爲教育心理學、社會心理學、文化心理學、臨床心理學、心理咨詢等諸多心理學研究領域,提供了新的研究思路。
近日,清華大學的研究團隊基于大語言模型的多智能體系統,提出一種創新性的心理測量範式。
與傳統自我報告問卷不同的是,該研究爲每位參與者定制化生成一個可交互的敘事類型遊戲,用戶可自定義遊戲的類型與主題。
隨著遊戲劇情的發展,參與者需要以第一人稱視角,選擇不同的決策行爲,決定劇情的走向。通過分析參與者在遊戲關鍵情節中的選擇,該研究可以測量其對應的心理特質。
△自我報告問卷的心理學測量範式(左)與交互敘事類遊戲的心理測量範式(右)對比
該研究的貢獻主要體現在三個方面:
*提出一種新的心理學測量範式,將傳統問卷轉化成基于遊戲的交互測量;在保證心理測量信度和效度的基礎上,提升參與者的沈浸感,改善被測體驗。
*爲了實現遊戲化的測量,該研究提出一種基于大語言模型的多智能體交互框架,名爲PsychoGAT(Psychological Game AgenTs),確保了心理學測試場景的泛化性,與不同遊戲設置下測量的魯棒性。
*通過自動化仿真評估與真人評估,在MBTI人格測試,PHQ-9抑郁測量,認知思維陷阱測試等任務上,該研究在心理測量學統計學指標和用戶體驗感指標上均展現出了顯著的優越性。
接下來,我們一起來看看該研究的細節。
* PsychoGAT長啥樣?
△PsychoGAT框架示意圖
智能體交互流程:
給定一個傳統的心理學測試問卷,參與者自定義遊戲類型和主題,然後由遊戲設計師(Game Designer)智能體給出整體的遊戲設計大綱。
然後,遊戲管理員(Game Controller)智能體生成一個具體的遊戲情節,在這個過程中評論員(Critic)智能體會對管理員生成內容進行多輪的審核與優化;優化完成後的遊戲情節會被展現給參與者,參與者做出相應的選擇後,管理員基于此選擇推動劇情發展,按照這樣的交互過程循環。
各智能體職能詳述:
* 遊戲設計師(Game Designer):利用CoT技術,生成第一人稱敘事遊戲的大綱,並保證這個故事線中所包含的情景,能夠使得參與者表現出當前測量的心理特質。
與此同時,將標准的心理學自我報告問卷,根據當前遊戲故事線進行改編,使兩者的融合更爲自然流暢。
* 遊戲管理員(Game Controller):將改編後的問卷,按照遊戲的故事線,依次進行實例化,變成故事的情節節點,並提供可能的選項,供參與者進行選擇。
與此同時,遊戲管理員將參與者的選擇返回給遊戲環境,並基于參與者的選擇,控制遊戲的劇情走向。爲了實現遊戲情節的連貫性,管理員智能體采用“記憶更新”機制。
*評論員(Critic):旨在對遊戲管理員的生成內容進行審核與優化。
主要針對以下三個問題:
1)優化一致性:隨著遊戲劇情推進,長文本問題會變得更加嚴重,使得“記憶更新”機制也無法完全保證情節一致性。
2)確保無偏性:參與者的選擇會影響遊戲情節的發展,但在參與者不做出選擇之前,管理員不應該預設情節走向,即便之前的選擇中參與者體現出了明顯的傾向性。
3)改正漏缺項:對管理員生成的遊戲情節進行細節審核,檢查其是否具備基礎的遊戲沈浸感。
* 實驗及結果
△三種常見心理學測量範式的對比:傳統問卷,心理學家會談,以及該研究提出的遊戲化測評。
此處提到的均爲基于AI的自動化測量,特別的,心理學家會談,指目前與大語言模型結合的,由大語言模型扮演心理學家的會談範式。
實驗階段,研究人員選擇了三個常見的心理學測量任務:MBTI人格測試中的外傾性,PHQ-9抑郁檢測,以及CBT療法中前期的認知扭曲檢測。
首先,研究人員和成熟的傳統心理學問卷進行對比,旨在檢驗該研究的心理測量信度和效度。進一步,和其他三種自動化測量方法進行對比,檢驗不同測量方法的用戶體驗。
研究人員首先使用GPT-4模擬被測者,在不同的測量方法上記錄測量過程與測量結果。這些測量記錄被用于計算後續心理測量學信效度指標,以及用戶體驗感指標。
評價指標有兩個:信效度指標和用戶體驗感指標。
* 信效度指標:心理測量學上,評價一個測量工具是否具有科學性,一般從信度(reliability)和效度(validity)兩個維度進行驗證。
在該研究中,信度的指標選擇了兩個統計學量來衡量內部一致性:Cronbach’s Alpha和Guttman’s Lambda 6;效度的指標采用皮爾森系數,分別衡量聚合效度(convergent validity)和區分效度(discriminant validity)。
* 用戶體驗感指標,人工評估的指標包括:
1)一致性(Coherence, CH):內容邏輯是否連貫;
2)交互性(Interactivity, IA):是否對用戶的選擇有恰當且無偏的回應;
3)趣味性(Interest, INT):測量過程是否有趣;
4)沈浸感(Immersion, IM):測量過程是否讓參與者沈浸代入;
5)滿意度(Satisfaction, ST):整體測量過程的滿意度。
下面是實驗結果。
首先研究人員檢驗了該研究提出的PsychoGAT能夠作爲一個合格的心理學測量工具,結果如下表所示。
△PsychoGAT的信效度檢驗結果(+通過,++良好,+++優秀)
進一步,研究人員對比了不同心理測量範式的用戶體驗感,該研究提出的遊戲化測評在交互性、趣味性和沈浸感上都顯著優于其他方法:
△PsychoGAT的用戶體驗感結果,以及其他對比方法的相應結果
爲了確保人工評估的有效性,研究人員計算了人工評估結果,在PsychoGAT各指標優于其他方法上的評估一致性:
△PsychoGAT的用戶體驗感指標由于對比方法在人工評估上的一致性
爲了對PsychoGAT做進一步分析,研究人員首先檢驗了不同遊戲場景下,遊戲化測量的信效度具有很好魯棒性:
△PsychoGAT在不同遊戲場景下測量信效度的魯棒性
接著,探究了每一個智能體在PsychoGAT中發揮的作用:
△PsychoGAT不同智能體的作用
最後,爲了直觀呈現PsychoGAT的遊戲生成內容,研究人員用詞雲可視化了人格外傾性測試和抑郁測試:
△PsychoGAT在外傾性測量和抑郁測量的遊戲場景生成可視化。
外傾性測試的內容主要集中在社交場景,而抑郁測試傾向于個人思維和情緒。
更多研究細節,可參考原論文。---[ PsychoGAT團隊 投稿*量子位 : 公衆號 QbitAI/來源: 量子位 ]
論文鏈接:https://arxiv.org/abs/2402.12326