基因組數據共享將生物醫學研究推向快車道,但向公共領域發布的現有數據指南一方面承認免費和無條件使用數據的重要性,另一方面還未能解決這種重要性與數據生產者首次發布數據的“權利”之間的關系。
在美國能源部聯合基因組研究所負責人Nikos Kyrpides看來,這種自相矛盾導致了數據生產者和數據使用者對公共數據的使用有著不同的解釋和持續的爭論。
“根源在于缺乏數據使用的明確指導原則。”在接受《中國科學報》采訪時,Kyrpides再次強調,公共數據應該被視為開放資源,不受限制地被用于分析、解釋和發布。相關論文近日在線發表于《科學》。
時不時遇到“軟障礙”
公共基因組數據使用自由是國際生命科學研究領域的傳統與共識,自人類基因組計劃實施以來,大量的開放共享基因組數據信息極大地促進了生物醫學研究的進步。
1990年啟動并有我國參與的人類基因組計劃被看成科學史上的偉大工程,3年前,該計劃負責人Eric Green、James Watson和Francis Collins在《自然》上撰文總結了人類基因組計劃的6點經驗,其中之一是數據共享最大化。
正是人類基因組計劃改變了生物醫學研究的數據共享原則,促成了1996年百慕大原則,即同意將超過一定規模的基因組測序數據在產生后的24小時內提交到公共數據庫。
一直以來,促進數據共享仍在繼續并有新的變化。2003年勞德代爾堡協定重申和擴大了百慕大原則,認為大規模基因組序列數據的預發布對科學界有巨大的益處,同時指出數據共享限定在團體資源項目。
自該協定簽署以來,實現更廣泛、更快速、更有效的數據共享成為學界反復討論的主題。
在數據共享大背景下,學術論文在發表時,一般都會公開并共享相關的基因組數據。“但是政府資助的各類科研項目產出的基因組數據,數量更為廣泛,在論文發表前共享程度極低。”中國科學院—馬普學會計算生物學伙伴研究所研究員張國慶告訴《中國科學報》。
張國慶使用國際基因組數據時曾被要求填寫申請,“但由于審核機制不透明,導致時不時地遇到‘軟障礙’”。
“數據共享政策并不是一成不變的,許多資助機構已經對政策進行了微調。”Kyrpides介紹,比如2014年美國國立衛生研究院制定的基因組數據共享政策,正在創造一個更完善的數據共享生態系統,“這是以前協定所沒有的”。
“這不是自相矛盾嗎”
事態的發展“證明勞德代爾堡協定已過時,需要對其修訂以反映科技現狀”,Kyrpides認為,協定通常局限于良好的團隊資源項目,但不包括所有測序項目。
在接受《中國科學報》采訪時,Kyrpides還指出勞德代爾堡協定的矛盾之處。根據協定,向公共領域發布的數據是任何人都應該且能夠不受任何限制地使用的,并且規定這些數據要在出版之前發布,以便讓整個團體從中受益。
這些年,基因測序產生了無數的數據集,其中許多數據集在沒有出版的情況下公開發布。但協定同時又提到,“想要使用未公布的公共數據的人應首先得到數據生產者的許可”,Kyrpides表示,“這不是自相矛盾嗎”。
研究人員也提到了贊成限制公共基因組數據使用的人通常有兩個理由,一是未驗證的預發布數據可能包含錯誤,二是生成新的數據往往需要耗費很長時間。
在張國慶看來,數據使用受限主要原因是數據的相關權益不清晰,難以保證樣品提供、數據產出、數據管理、數據分析等各方的利益。
此外,基因組數據相關的個人信息的安全管理要求不清晰也是一方面原因,比如敏感數據。
“我們承認,對于現有的敏感人類基因數據,一些限制可能是適當的。”Kyrpides也表示。
不過,研究人員發現對分享敏感數據的抵制正逐漸得到緩解。縱觀整個生物醫學文獻,2015年至2017年,約有1/5已發表的文章共享原始數據,較前幾年大幅度增加。
確定使用原則
“不受限制地使用公共數據應該與學術界的獎勵制度保持一致。”Kyrpides認為,資助機構需要認識到數據共享的意義,并向生成數據的科學家授予適當的榮譽。
同樣重要的是,“要確定有效的方法,為描述數據生成后,協議以及特定數據集的生成提供支持”。Kyrpides告訴記者,更要重新審視資助機構和期刊出版商的數據發布策略。
研究人員認為,期刊出版商需要重新考慮出版政策,即在手稿提交出版時數據的可用性。Kyrpides等人建議,序列數據及其相關的元數據需要在手稿提交同行評審時與詳細協議一起免費提供,而不是在發表后。
“要推進基因組學領域的發展,就需要制定強有力的政策,促進開放和不受限制的數據共享,促進包容性的團體驅動的研究和培訓。”Kyrpides說。
中國-博士人才網發布
聲明提示:凡本網注明“來源:XXX”的文/圖等稿件,本網轉載出于傳遞更多信息及方便產業探討之目的,并不意味著本站贊同其觀點或證實其內容的真實性,文章內容僅供參考。