科学数据共享一直是学术界的期盼,但让科学家自愿把“攥”在手心的数据交出来太难了。现在,美国国立卫生研究院(NIH)要出头当这个“恶人”。据《自然》报道,2023年1月起,NIH将要求其每年资助的30万名研究人员和2500个机构中的大多数,在其拨款申请中包括一个“数据管理和共享”(DMS)计划,并最终公开研究数据。
由于NIH是全球生物医学研究领域最大的公共资助者,这项规定的影响将远远超出美国国界;它也向全球科学家发出信号,应该如何进行生物医学研究。
研究人员在接受《自然》采访时赞赏了政策背后的开放科学原则,以及所树立的全球榜样。但也有人担心,由于要做大量数据收集工作,该政策或将加重青年科学家的负担,加剧科学基金领域的不平等。
可重复性危机
“只发表论文不公开研究数据,可能会导致科学研究成果无法复现,不仅降低论文可信度,还可能衍生学术不端等行为。”《中国科学数据》常务副主编黎建辉在接受《中国科学报》采访时曾表示。
此外,数据不共享还造成巨大的科研资源浪费。例如一项针对美国不可重复实验的研究评估,每年有100亿到500亿美元浪费在使用缺陷方法的研究上,导致研究难以重复。最终,这笔巨大的成本主要由公共资助机构买单。
2021年,一场耗资200万美元、历时8年,旨在重复“顶级”癌症研究的尝试就证实了这种不安:超一半的研究重复失败。
这个项目名为《可重复性项目:癌症生物学》(RPCB),于2013年启动,计划重复53篇具有高影响力的癌症论文中的193个实验。其中不少研究都发表在《自然》《科学》《细胞》等“顶刊”。
结果,由于论文数据和细节缺乏等原因,研究团队不得不缩小了项目规模,仅对23篇论文中的50项实验进行了重复,其中仅46%的重复结果与论文一致。
不仅如此,他们每重复一项研究就需要197周的时间,以及53000美元的成本,是预算的两倍。
解决科学研究的“可重复性危机”,正是NIH数据管理计划的目的之一。该计划包含分析数据所需的软件或工具的详细信息,原始数据发布的时间和地点,以及访问或分发数据时的任何特殊考虑。
NIH负责科学政策的代理副院长Lyric Jorgenson表示,不可重复的研究不仅浪费了纳税人的钱,还破坏了公众对科学的信任。“我们想确保国家的投资有所收获,并促进研究的透明度和问责制。”
钱从哪来?
但也有一些研究人员担心,该计划将带来更多的工作量。
美国芝加哥大学免疫学家Jenna Guthmiller证实了这种担忧。她是获得美国国家过敏症和传染病研究所(NIAID)项目资助的少数研究人员之一。该机构隶属于NIH,Guthmiller所承担的项目已经在执行与NIH新规类似的数据政策。
对Guthmiller而言,这意味着要为一个已经运行四年之久的项目溯源,找到那些消失很久的试剂和实验条件的信息。这项工作花费了15个小时,“我很幸运,能和一名数据管理员一起工作。”
但绝大多数实验室没有这么幸运,因为没有专职的数据管理员。作为一个刚领导研究小组不到两年的科学家,美国摩马里兰大学医学院疫苗学家Lynda Coughlan对政策感到担忧,她认为这项政策可能会给处于职业生涯早期的科学家带来沉重的负担。
此外,还有人担心数据管理活动会使资金紧缺的实验室“雪上加霜”。虽然政策指出,研究人员可以在拟议预算中增加某些费用,以抵消这项任务的新增成本,但并未说明NIH批准这些请求的标准。
因此,Jorgenson认为NIH需要明确如何授予这些费用,尤其是授予早期的科学家和资金紧缺的机构,以防加剧研究界的不平等现象。目前,NIH正在评估合理成本,并希望准备更多的指导和信息。
共享数据范围仍模糊
实际上,NIH的数据共享政策还存在一些潜在问题。
根据该政策,除了会造成重大法律、伦理或技术负担的数据,研究人员必须共享“验证和重复研究结果”所需的全部“科学数据”,无论它们是否用于在学术期刊上发表论文。NIH还建议只在有信誉的存储库中共享数据,最终由研究人员决定将数据上传到哪里。
由于“科学数据”的宽泛表述,研究人员对到底要分享哪些数据感到困惑。Coughlan认为,很难预测哪些数据对其他人有用,或是否能被任何人获取。
2020年,美国大学协会曾在针对该政策的早期草案中提出,NIH应该缩小“科学数据”的定义,并建议将其限制为只包括学术出版物的基础数据。
但Jorgenson认为,政策的模糊性也为研究人员提供了灵活性,他们可以确定哪些数据对重现研究结果真正有用。例如,实验不成功时收集的数据,虽然不用于出版,但对于其他研究者理解整个实验同样有帮助。
Jorgenson还表示,对于不遵守该政策的研究人员或机构,其未来的资金奖励或将受到影响。