科研進展

心理所創建中文閱讀眼動數據庫Chinese Eye-Movement Database

發布時間:2022-07-21 作者:中國科學院行為科學重點實驗室 李興珊研究組

  “眼睛是心靈的窗戶”。現代認知科學表明,眼睛的運動和大腦內部的認知活動存在緊密聯系。在心理學領域,眼動追蹤技術為揭示人類高級認知過程的心理機制提供了重要途徑。在過去的20年中,大量的實驗研究采用眼動追蹤技術考察了中文閱讀的認知機制,并取得了豐碩的成果。然而,大多數實驗研究受到被試量和實驗刺激數量的限制,很難滿足當前大數據技術和人工智能的發展。因此,建構包含大樣本的中文閱讀眼動數據庫的需求與日俱增。

  基于過去十余年的研究,中國科學院行為科學重點實驗室李興珊研究組的科研人員建立了大規模的中文閱讀眼動數據庫——Chinese Eye-Movement Database。該數據庫包含來自57項中文句子閱讀實驗的眼動數據(共計1718名被試、8015個中文句子、近140萬個注視點),計算了8551個中文詞的九項眼動指標(建構流程如圖1所示)。統計分析顯示,該數據庫可以復現以往研究中經典的詞頻與詞長效應,即讀者對較低頻或較長的詞加工更困難,從而產生更多的回視和更長的注視時間。

圖1. 詞切分與眼動指標計算流程圖

注:圖1a為單個句子中的詞切分流程,圖1b為單個詞匯(如“沙漠”)上的某項眼動指標,如“首次注視時間”(First Fixation Duration, FFD)的計算流程

  該數據庫具有廣泛的應用前景:

  在中文閱讀的認知機制研究中,研究者可直接利用該數據庫檢驗相關的理論假設,節約經濟和時間成本;同時,該數據庫可以為建立中文閱讀計算模型提供基準數據,幫助其進行參數尋優。

  在跨語言研究領域,該數據庫可與其他語言中的同類數據庫進行對比,考察不同語言閱讀機制的一致性和特異性。

  在人工智能領域,自然語言處理的模型大量使用了與注意相關的機制(如為不同詞匯分配不同的權重或激活狀態),而眼動數據則為這種注意的分配提供了直接參考;大量研究表明,將眼動數據納入自然語言處理模型,能夠有效提升模型的任務表現(如詞性標注、句法分析、文本理解等)。因此,本文提出的數據庫將為優化中文自然語言處理模型提供重要的數據資源。

  該數據庫中報告的詞匯的眼動指標可作為反映詞匯閱讀加工難度的指標,幫助研究者更好地控制和操縱實驗研究中閱讀材料的難度,并有助于為不同閱讀能力的讀者匹配合適的閱讀材料。

  綜上所述,該數據庫將為中文閱讀認知機制的大數據研究提供重要支撐,促進該領域的發展,也將為人工智能領域的模型開發與訓練提供數據基礎,促進人工智能與認知科學的融合發展。

  該研究受國家自然科學基金(31970992,31871105)和國際(地區)合作與交流項目(NSFC 62061136001/DFG TRR-169)的共同資助。相關成果已在線發表于Nature旗下的數據期刊Scientific Data,第一作者為心理所博士研究生張光耀,通訊作者為林楠副研究員與李興珊研究員。數據庫所涉及的全部原始注視點數據、實驗材料,以及數據分析代碼已全部通過Open Science Framework 共享。

  隨著數據驅動的科研范式的形成,研究所越來越重視心理學研究中的科學數據工作,正在積極建設中國科學院心理研究所科學數據中心。該數據庫未來也可通過心理科學數據銀行(https://www.scidb.cn/psych)申請使用。

  論文信息:

  Zhang, G., Yao, P., Ma, G., Wang, J., Zhou, J., Huang, L., Xu, P., Chen, L., Chen, S., Gu, J., Wei, W., Cheng, X., Hua, H., Liu, P., Lou, Y., Shen, W., Bao, Y., Liu, J., Lin, N.*, & Li, X.* (2022). The database of eye-movement measures on words in Chinese reading. Scientific Data. https://doi.org/10.1038/s41597-022-01464-6

  相關文章:

  Li, X.*, Huang, L., Yao, P. & Hy?n?, J. (2022). Universal and specific reading mechanisms across different writing systems. Nature Reviews Psychology, 1, 133–144. https://doi.org/10.1038/s44159-022-00022-6

  Li, X.*, & Pollatsek, A. (2020). An integrated model of word processing and eye-movement control during Chinese reading. Psychological Review, 127(6), 1139–1162. http://dx.doi.org/10.1037/rev0000248

 


附件下載:

丁香狠狠色婷婷久久综合