微软于 2018 年以 75 亿美元收购了 GitHub,之后一直努力将该代码托管平台与自家开发人员工具深度整合,同时尽力维持 GitHub 的独立运营。然而在作家、律师、兼程序员 Matthew Butterick 看来 —— 该公司力推的 GitHub Copilot 人工智能编程辅助工具、及其对开源许可证的处理方式,仍存在着相当大的问题。
(传送门:Matthew Butterick / GitHub Copilot 调查)
据悉,GitHub Copilot 能够根据用户输入而提供代码“建议”,辅以适用于 Visual Studio 和其它集成式开发环境(IDE)的功能插件。
基于 AI 的系统,由 Codex 提供支持。但对于 Matthew Butterick 等开发者来说,人工智能的训练方式,已经引发了极大的争议。
OpenAI 的说法是,Codex 被投喂了“数千万个公共存储库”—— 其中就包括 GitHub 上的代码 ——然而微软却含糊地将训练材料描述为“数十亿行公共代码”。
Copilot 研究员 Eddie Aftandilian 在最近的播客(@ 36:40)节目中证实 —— Copilot 正在 GitHub 的公共存储库上展开训练。
问题在于,GitHub 训练的这些公共存储库是经过许可的,并且在使用存储库中的代码时需要署名。另一方面,微软一直对代码的使用含糊其辞,辩称有在“合理使用”。
但事实上,Copilot 不仅可以“提供建议”、甚至经常照搬全抄 —— 正如德克萨斯农工大学教授兼 GitHub 用户 Tim Davis 指出的那样。
对于像 Matthew Butterick 这样处于社区意识而贡献开源代码的程序员们来说,微软正在构建一个新的花园围墙、并将妨碍程序员在传统开源社区的开拓与发现。
就算往轻了说,GitHub Copilot 也会打消许多开源贡献者的念头。随着时间的推移,曾经繁盛的社区将黯然神伤,因为用户的注意力和参与度都会向 Copilot 构建的围墙迁移。
那样大家会逐渐偏离开源项目本身 —— 远离他们的源码库、问题追踪报告、邮件公告列表、以及讨论板 —— 对开源社区来说,这样的能量转变、将是一个痛苦且永久的损失。