Galactica - 一个促进科学进步的开源语言模型 - 科学探索

Galactica大型语言模型（LLM）正在用数百万条学术内容进行训练。它的目的是帮助研究界更好地管理"信息爆炸"。Galactica是由Meta AI与Papers with Code合作开发的。该团队认为信息过载是科学进步的一个主要障碍。"研究人员被埋没在大量的论文中，越来越无法区分有意义的和无意义的"。

Galactica被设计用来帮助梳理科学信息。它已经用4800万篇论文、教科书和讲义、数以百万计的化合物和蛋白质、科学网站、百科全书以及来自"自然书"数据集的更多内容进行了训练。

研究团队说，Galactica可以存储、组合和推理科学内容。在数学MMLU等基准测试中，它远远超过了Chinchilla（41.3%比35.7%）或PaLM 540B（20.4%比8.8%）等大型语言模型。

应对技术知识测试的表现，如LaTeX方程式，Galactica以68.2%对49.0%的优势胜过GPT-3。Galactica在回答生物学和医学（PubMedQA和MedMCQA）的技术问题方面也取得了新的记录（77.6%和52.9%）。

galactica_benchmarks.jpg.webp

此外，Galactica在一般语言任务的"BIG-Bench"-Benchmark中击败了大型开源语言模型Bloom和OPT-175B，尽管它并没有针对它们进行优化。根据该团队的说法，与其他开源语言模型相比，生成的文本的毒性明显较低。

这个结果反映了Galactica语料库的质量较高，因为它是经过策划的，而且主要是学术文本。以前开放的LLM努力可能过度关注规模目标，而对数据过滤关注不足。

galactica_toxic_language.jpg.webp

与其他大型语言模型相比，Galactica产生的有毒内容较少。|图片。Galactica / Meta AI

作为具体的应用场景，Galactica团队提到了创建文献综述、维基文章或科学主题的讲义，或回答包括引文在内的科学问题。

例如，当被问及什么是"变压器网络"时，Galactica生成了以下简短的解释，并附有文献参考，包括论文的链接。

galactica_example-770x829.jpg.webp

Galactica可以解释科学术语并提供引文。|图片。Meta AI / Galactica

该模型还提供一种论文搜索，你可以描述一篇论文的内容，并收到可能匹配的论文。它可以搜索特定的数学公式，或用自然语言描述，或建议引文。然而，对于后者的功能，根据测试数据集，准确率仅在36.6%和69.1%之间，并显示出对知名论文的偏爱。

还有很大的改进余地

"研究人员写道："我们相信这些结果证明了语言模型作为科学的一个新界面的潜力。他们说，Galactica只是这个旅程中的第一步。在其论文中，该团队描述了许多改进的机会，包括使用更多和非公开的学术来源，以及用文本以外的数据进行多模态训练，如蛋白质模型。

galactica_example_search-770x198.jpg.webp

研究人员表示，综合来看，我们觉得语言模型有很大的潜力，可以承担目前属于人类专长的知识任务。他们将自己的最终愿景描述为一个用于所有科学任务的单一神经网络，作为获取知识的 "下一个界面"。

该团队总共训练了五个Galactica模型，参数在1.25亿到1200亿之间。据该团队称，Galactica的性能随着规模的扩大而平稳地增加。

所有的模型都是开源的，可以在Github上免费使用：

https://github.com/paperswithcode/galai

Galactica - 一个促进科学进步的开源语言模型

对文章打分

Galactica - 一个促进科学进步的开源语言模型

最新资讯

编辑精选

热门评论

相关文章

滞留太空287天 NASA官宣：两名宇航员3月19日返回地球

NASA韦伯望远镜首次提供了关于海王星外天体的高分辨率光谱数据

科学家在美国和墨西哥发现16种新蚱蜢物种

用激光划破月球？这可以帮助天文学家捕捉超清晰的太空图像

2025年命名的第一种中国恐龙：体长近10米在云南发现

新发现揭示类人猿离开非洲的时间比我们想象的早20万年

Top 10

OpenAI发布最新论文：DeepSeek和Kimi发现了o1的秘密

巨兽之地：这是地球史上最独特的生物群落之一各种动物大到离谱

汪小菲微信群讨伐周受资：你凭什么封我号？

为什么车厘子历经一个月到中国还不坏买回家没几天就坏了？

日本版权机构起诉盗版成人视频网站MISSAV索赔4500万美元已扣押其主域名

OpenAI发布最新论文：DeepSeek和Kimi发现了o1的秘密