Galactica大型语言模型(LLM)正在用数百万条学术内容进行训练。它的目的是帮助研究界更好地管理"信息爆炸"。Galactica是由Meta AI与Papers with Code合作开发的。该团队认为信息过载是科学进步的一个主要障碍。"研究人员被埋没在大量的论文中,越来越无法区分有意义的和无意义的"。
Galactica被设计用来帮助梳理科学信息。它已经用4800万篇论文、教科书和讲义、数以百万计的化合物和蛋白质、科学网站、百科全书以及来自"自然书"数据集的更多内容进行了训练。
研究团队说,Galactica可以存储、组合和推理科学内容。在数学MMLU等基准测试中,它远远超过了Chinchilla(41.3%比35.7%)或PaLM 540B(20.4%比8.8%)等大型语言模型。
应对技术知识测试的表现,如LaTeX方程式,Galactica以68.2%对49.0%的优势胜过GPT-3。Galactica在回答生物学和医学(PubMedQA和MedMCQA)的技术问题方面也取得了新的记录(77.6%和52.9%)。
此外,Galactica在一般语言任务的"BIG-Bench"-Benchmark中击败了大型开源语言模型Bloom和OPT-175B,尽管它并没有针对它们进行优化。根据该团队的说法,与其他开源语言模型相比,生成的文本的毒性明显较低。
这个结果反映了Galactica语料库的质量较高,因为它是经过策划的,而且主要是学术文本。以前开放的LLM努力可能过度关注规模目标,而对数据过滤关注不足。
与其他大型语言模型相比,Galactica产生的有毒内容较少。|图片。Galactica / Meta AI
作为具体的应用场景,Galactica团队提到了创建文献综述、维基文章或科学主题的讲义,或回答包括引文在内的科学问题。
例如,当被问及什么是"变压器网络"时,Galactica生成了以下简短的解释,并附有文献参考,包括论文的链接。
Galactica可以解释科学术语并提供引文。|图片。Meta AI / Galactica
该模型还提供一种论文搜索,你可以描述一篇论文的内容,并收到可能匹配的论文。它可以搜索特定的数学公式,或用自然语言描述,或建议引文。然而,对于后者的功能,根据测试数据集,准确率仅在36.6%和69.1%之间,并显示出对知名论文的偏爱。
还有很大的改进余地
"研究人员写道:"我们相信这些结果证明了语言模型作为科学的一个新界面的潜力。他们说,Galactica只是这个旅程中的第一步。在其论文中,该团队描述了许多改进的机会,包括使用更多和非公开的学术来源,以及用文本以外的数据进行多模态训练,如蛋白质模型。
研究人员表示,综合来看,我们觉得语言模型有很大的潜力,可以承担目前属于人类专长的知识任务。他们将自己的最终愿景描述为一个用于所有科学任务的单一神经网络,作为获取知识的 "下一个界面"。
该团队总共训练了五个Galactica模型,参数在1.25亿到1200亿之间。据该团队称,Galactica的性能随着规模的扩大而平稳地增加。
所有的模型都是开源的,可以在Github上免费使用: