心理所在《自然-人類行為》發表關于神經科學研究可信度的評論文章
作為人類特有的行為,科學研究是社會文明的重要推動力量之一。近年來,研究的可重復性問題成為科學關注的焦點,從心理科學到臨床醫學等領域,研究的可重復性成為巨大挑戰。生命科學研究的共同特點之一是對于測量工具的需求,一項先進的技術會促進更為精準的測量,提升研究的可信度。測量理論中的信效度(可信度與有效度)概念在不同學科都有涉及,特別是在心理科學和醫學中有明確的統計學界定,但在其他學科未被充分認識,尤其是交叉學科。
6月28日,中國科學院心理研究所左西年研究員與合作者在《自然-人類行為》上發表題為《Harnessing reliability for neuroscience research》的評論文章,以神經科學為例,聚焦神經影像技術,提出了個體差異測量信效度統計學框架。在此框架下,個體差異的測量由三部分組成(圖1):研究對象(疾病或特質)特異的變化、研究對象非特異的變化、隨機錯誤,其中前兩者是個體間差異測量,隨機錯誤則是個體內差異測量。個體差異測量的信度是個體間差異測量所占比例,而疾病或特質特異變化所占比例則是個體差異測量的效度。由此,測量的信度就像一個瓶子的蓋子一樣,牢牢地限制住了測量的效度,不可信的測量永遠不可能有效;與此同時,測量的個體間差異越大,其信度越高,測量的個體內差異越小,其信度越高;最后,測量信度越高,其檢測統計效應所需樣本量越小。基于上述的三項測量信效度統計規律,加之效度無法直接測量,因此信度對個體差異的基礎研究和應用轉化至關重要。

圖1:個體差異測量的信效度
近十年來,神經影像領域已經積累了大型數據集,成千上萬的數據已經上線并公開,涵蓋人類不同發展階段和腦障礙。由此催生的開放式神經科學,推動了大型化腦科學(比如人工智能和腦疾病生物標記物)研究。個體差異研究的基礎是統計力度,其決定了檢測實驗效應的能力。大樣本量是提高統計力度的因素之一,然而如果測量信度不夠,就會產生對大樣本量的不必要需求。在此評論文章中,研究團隊采用蒙特卡洛方法對信度、樣本量和效應量之間的關系進行了數值模擬,結果揭示:在神經影像領域,潛在效應量較小,測量的信度局限將會極大地增加研究對樣本量的需求(圖2)。神經影像測量的信度研究表明:現有數據中極少有足夠的個體數據能獲得高度可信的腦連接測量。各國推出的各類大型腦計劃中,個體差異的基礎和轉化研究(教育和臨床)是中國腦計劃的核心和特色,首要解決的基礎科學問題是測量信效度,據此優化和標準化大型數據測量規范,防止產生大量的低質量數據樣本。

圖2:信度、樣本量和效應量之間關系
神經影像領域的各類實驗所采用測量的信度水平不一。以磁共振成像為例,腦形態測量最為可信,體素或區域信度可達到臨床轉化研究對信度的要求(大于0.8);功能磁共振的測量則要低很多,并且依賴于掃描時間長短,其中認知任務功能磁共振測量因為實驗設計直接來源于實驗心理學領域的行為實驗,個體間差異受到局限,導致其測量信度很低。從統計學的角度,低可信度的測量加上小樣本將增加科學研究的假陽性率,降低了研究間的可重復性,這在基因組學已經被視為領域挑戰并經長期研究來試圖克服。反過來講,高可信度測量的研究結果在科學期刊上出現得更為頻繁,比如默認網絡和額頂網絡的測量可信度更高[3,4],因此就可能在各類研究中更易于被檢測到,這種在各類腦疾病和個體差異研究出現的現象可能只是其測量信度高的一種表現,而并不是其實驗效應特異性的體現。
本評論文章的主要目的是推動整個生命科學領域關注測量信度的評測與優化。特別是神經科學領域,通常對這一問題未給予足夠重視,無論測量手段是影像、電生理、神經炎癥標記物、微生物組學,還是認知神經科學范式、私人穿戴設備等,都應將測量信度及其決定因素作為基本問題來研究。為應對上述挑戰,近十年來,心理所與國際合作團隊一起,針對個體差異測量理論進行長期而系統的部署,重點培育“心理行為的個體差異及其畢生發展規律與應用”研究方向,領銜建立了“國際信度與可重復性聯盟”,提出了大型腦智畢生發展項目“彩巢計劃-成長在中國”,參與北京市腦計劃,創建并主辦雙年度“國際人腦發展會議”,為參與和推動國家腦計劃做出了具有國際影響力的貢獻,更為詳細的信度解決方案和未來研究方向請參見評論文章。
神經科學家致力于將基礎研究成果轉化為臨床工具,檢測和優化測量的信度必須成為這些轉化研究的前提和常規,而這需要科研人員改進當前的研究實踐、需要科研基金管理部門的支持,共同產生開放社區資源以用于這些基本特性的定量化。本文基于團隊就測量信效度長期研究積累而成,特別是兩項大型人腦神經科學計劃CoRR和R3BRAIN,受國家科技部973課題2015CB351702支持。
相關閱讀和文獻:
[1] Harnessing reliability for neuroscience research. Nature Human Behaviour (2019).
[2] Assessment of the impact of shared brain imaging data on the scientific literature. Nature Communications 9: 2818 (2018).
[3] Test-retest reliabilities of resting-state FMRI measurements in human brain functional connectomics: a systems neuroscience perspective. Neuroscience & Biobehavioral Reviews 45: 100-118 (2014).
[4] Individual variability and test-retest reliability revealed by ten repeated resting-state brain scans over one month. PLoS One 10: e0144963 (2015).
[5] An open science resource for establishing reliability and reproducibility in functional connectomics. Scientific Data 1: 140049 (2014).
[6] Human connectomics across the life span. Trends in Cognitive Sciences 21: 32-45 (2017).
[7] 彩巢計劃-“成長在中國”. 科學通報 62: 3008-3022 (2017).
[8] The anatomy of reliability: a must read for future human brain mapping. Science Bulletin 63: 1606-1607 (2018).
[9] Editorial: Reliability and reproducibility in functional connectomics. Frontiers in Neuroscience: Brain Imaging Methods 13: 117 (2019).
[10] R3BRAIN: An open science resource for reliability, reproducibility and replicability. OHBM poster (2019).
附件下載: