【央廣網】科學家創建中文閱讀眼動數據庫 有望根據讀者能力匹配閱讀材料
眼睛的運動和大腦內部的認知活動存在緊密聯系。在心理學領域,眼動追蹤技術為揭示人類高級認知過程的心理機制提供了重要途徑。過去20年,大量實驗研究采用眼動追蹤技術考察了中文閱讀的認知機制,然而,大多數實驗研究受到被試量和實驗刺激數量的限制,很難滿足當前大數據技術和人工智能的發展。因此,建構包含大樣本的中文閱讀眼動數據庫的需求十分迫切。
近日,基于過去十余年的研究,中國科學院心理研究所研究員李興珊團隊建立了大規模中文閱讀眼動數據庫Chinese Eye-Movement Database。該數據庫包含來自57項中文句子閱讀實驗的眼動數據(包含1718名被試、8015個中文句子、近140萬個注視點),計算了8551個中文詞的九項眼動指標。統計分析顯示,該數據庫可以復現以往研究中經典的詞頻與詞長效應,即讀者對較低頻或較長的詞加工更困難,從而產生更多回視和更長注視時間。相關成果已在線發表于Scientific Data。數據庫所涉及的全部原始注視點數據、實驗材料,以及數據分析代碼已全部通過Open Science Framework共享。
研究人員介紹,該數據庫具有廣泛的應用前景,將為中文閱讀認知機制的大數據研究提供重要支撐,也將為人工智能領域的模型開發與訓練提供數據基礎。
在中文閱讀的認知機制研究中,研究人員可直接利用該數據庫檢驗相關的理論假設,節約經濟和時間成本;同時,該數據庫可以為建立中文閱讀計算模型提供基準數據,幫助其進行參數尋優。在跨語言研究領域,該數據庫可與其他語言中的同類數據庫進行對比,考察不同語言閱讀機制的一致性和特異性。
在人工智能領域,自然語言處理的模型大量使用與注意相關的機制,而眼動數據則為這種注意的分配提供了直接參考;大量研究表明,將眼動數據納入自然語言處理模型,能夠有效提升模型的任務表現。因此,數據庫將為優化中文自然語言處理模型提供重要的數據資源。該數據庫中報告的詞匯的眼動指標可作為反映詞匯閱讀加工難度的指標,幫助研究者更好地控制和操縱實驗研究中閱讀材料的難度,并有助于為不同閱讀能力的讀者匹配合適的閱讀材料。
附件下載: