数据工作者在建设人工智能大语言模型的语料库方面发挥着关键作用,但他们的劳动却常常得不到公平对待,而这种不公平现象在全球数据产业并不罕见。面对这一现状,印度初创企业Karya试图找到一种切实可行的新模式——提高工资标准,并让工人获得数据版权带来的“分红”。
Karya公司的首席执行官曼努·乔普拉(Manu Chopra)表示,Karya公司的愿景是通过数据工作帮助印度农民摆脱贫困。他认为,合理的报酬不仅提高了数据质量,也能够帮助社会边缘群体,让更多人受益于人工智能技术的发展,美国《时代》杂志7月27日发表封面文章“人民的AI为人民”,对Karya公司的故事进行了报道,并表示尽管Karya目前在扩展规模和维持愿景上仍存挑战,但这一实践为数据产业提供了新的可能性和借鉴。
《时代》最新一期封面文章“人民的AI为人民”,关注印度初创公司探索让数据工人享受AI红利。
人工智能背后的工人
印度南部卡纳塔克邦的阿拉哈利村,在一棵椰子树的阴影下,钱德里卡(Chandrika)一边滑动屏幕,一边连续点击几个音频进行剪辑,每次轻触,她用母语说话的声音就从手机里传出。
在使用这个应用之前,30岁的钱德里卡的银行账户中只有184卢比(2.25美元)。但是在4月下旬的连续几天,她只需工作约6个小时,就收到了2570卢比(31.30美元)的报酬。这个数额大致相当于她在一所离家很远的学校担任教师,抵扣通勤的三趟公交车费用之后一个月的收入。
与钱德里卡的日常工作不同,这个应用程序不会让她等到月底才能收到款项,几个小时后钱就会进她的银行账户。仅仅通过用母语卡纳达语朗读文本——这种语言主要由分布在印度中部和南部的6000万人使用,她就用这款应用赚到了每小时大约5美元的工资,几乎是印度最低工资的20倍。而且,几天后,她还会收到更多的钱——只要音频剪辑被验证为准确,她就会得到50%的奖金。
正是因为AI的蓬勃发展,钱德里卡的语音才能换来这么高的收益。目前,像ChatGPT这样的先进AI工具在英语等语言中表现最佳,因为这些语言的文本和音频数据在网络上非常丰富。然而,对于卡纳达语这样的语言来说,情况就差得多,尽管这种语言被千万人使用,但在互联网上却很少见,例如,维基百科上有600万篇英文文章,但只有3万篇卡纳达语文章。在这些“资源较少”的语言中,人工智能即使能够运行,也可能存在偏见——比如经常认为医生是男性,护士是女性,并且可能难以理解当地的方言。要创建一个有效的英语人工智能,只需从已经积累的数据中收集就足够了。但对于像卡纳达语这样的语言,需要寻找更多的数据。
这就导致了,对以一些世界上最贫困人民所使用的语言为基础的数据集的巨大需求。需求的一部分来自寻求构建AI工具的科技公司,另一大部分来自学术界和政府,特别是在拥有14亿人口、22种官方语言和至少780种土著语言的印度,英语和印地语长期以来占据着重要地位。这种需求的上升意味着数以亿计的印度人突然掌握了一种稀缺且有价值的资产:他们的母语。
数据工作在印度并非新事物。20世纪末,印度在将呼叫中心和服装工厂转变为生产力引擎方面作出了巨大贡献,并在21世纪默默地将同样的事情应用于数据工作。和之前一样,这个行业再次被一些中间公司所主导,他们支付接近法定最低工资的工资,同时以高额利润向外国客户出售数据。预计到2030年,全球价值超过20亿美元的AI数据行业将增至170亿美元。然而,这些钱很少流向印度、肯尼亚和菲律宾的数据工作者。
创造一个更公平的模式
在阿拉哈利和奇卢卡瓦迪相邻的村庄,Karya公司正在测试一种新模式。钱德里卡就在Karya公司工作,该公司成立于2021年,总部位于班加罗尔,自称为“世界上第一个道德数据公司”。与竞争对手一样,它以市场价向大型科技公司和其他客户出售数据。但Karya没有把大部分收入留作利润,而是用来支付成本,剩下的部分则用于帮助印度农村的贫困人群。Karya与当地非政府组织合作,确保最贫困的人群以及历史上被边缘化的社区首先获得就业机会。除了每小时5美元的最低工资,Karya还让工人在工作中实际拥有所创造数据的所有权,因此每当数据再次销售时,工人们除了过去的工资外还将获得收益。这是行业内其他地方都没有的模式。
“现有的工资体系是市场的失败。”27岁的Karya首席执行官乔普拉告诉《时代》,“我们决定成为一家非营利组织,因为从根本上说,你无法在市场中解决市场的失败。”
Karya告诉工人:这不是一份长久的工作,而是一种快速增加收入的方式,让你能够继续做其他事情。工人通过该应用程序可以获得的最高收入为1500美元,大致相当于印度的年平均收入。Karya表示,已向全国范围内约3万名印度农村居民支付了6500万卢比(近80万美元)的工资。到2030年,乔普拉希望能够触及1亿人口。“如果做得好,我真诚地认为这是数百万人迅速摆脱贫困的最快途径。”他说。乔普拉出生于贫困家庭,曾因为获得斯坦福奖学金改变人生轨迹,“这绝对是一个社会项目。财富就是力量。我们希望将财富重新分配给那些被遗落的社区。”
乔普拉不是第一个发现人工智能数据工作能帮助世界最贫困人口,并对其潜力赞不绝口的科技公司创始人。Sama是一家外包公司,曾经负责过OpenAI的ChatGPT和Meta的Facebook的数据处理合同,它也把自己宣传为科技公司帮助全球人民摆脱贫困的一种“道德”方式。但是根据此前的报道,为ChatGPT工作的肯尼亚工人表示,他们接触到的训练数据让他们受到创伤,而其中一些人每小时收入不到2美元。Sama还为Facebook进行类似的内容审查工作,其中一名参与该项目的工作者说,他在为改善工作条件发起运动时被解雇。Sama公司的创始人在2018年被BBC(英国广播公司)问及低工资问题时辩称,支付更高的工资可能会破坏当地经济,弊大于利。很多数据工作者不满Sama公司这种说法,他们认为这只是靠数据工作者赚取大笔利润的公司的一种方便的借口。
第一次听说Karya时,《时代》记者立刻产生了怀疑。Sama也是作为一个专注于消除贫困的非营利组织开始的,但后来转型为营利性企业。Karya真的能成为一个更包容和道德的人工智能行业模式吗?即使可以,它能扩展吗?有一点是清楚的:在这些问题上,印度可能是最好的试验场所。印度是移动数据价格最便宜的国家之一,即使是贫困的农民也常常拥有智能手机和银行账户。还有潜在的好处:根据世界银行的数据,即使在疫情之前,印度约有1.4亿人每天生活费不到2.15美元。对于那些人来说,乔普拉所说的巨额现金注入可能会改变他们的生活。
数据质量和生活收入的“双赢”
在距离繁忙的科技大都市班加罗尔70英里的地方,在奇鲁卡瓦迪村一座低矮的混凝土建筑内,当地农业合作社的总部聚集了十几名男女,他们都是在过去一周内开始为Karya工作的人。
瘦弱的21岁年轻人卡纳卡拉杰(Kanakaraj)在附近的一所大学学习,为了支付书本和交通费用,偶尔在周围的田地里做临时工。一天的工作可以赚到350卢比(约4美元),但由于气候变化,当地的夏季比往常更加炎热,这种体力劳动变得更加难以忍受。在附近城市的工厂工作可以带来稍微高一点的工资,但意味着每天乘坐不可靠和价格昂贵的公交车上下班,离开他习惯的生活环境,住在城市的宿舍里。
在Karya,卡纳卡拉杰一个小时的收入比他在田里一天的收入还要多。“工作很好。”他说,“而且很轻松。”乔普拉说,这是村民的典型说法。“他们很高兴我们支付给他们很多钱。”他说,但更重要的是,“这不是辛苦的工作。这不是体力劳动。”当卡纳卡拉杰看到第一笔工资进入银行账户时,他感到很惊讶。“我们被骗了很多钱。”他向记者解释,村民常常收到利用他们绝望心理的短信,承诺将他们的存款增加10倍。当有人第一次告诉他Karya时,他以为这是一个类似的骗局。
由于储蓄很少,当地人经常不得不贷款支付紧急费用。这些掠夺性机构往往对这些贷款收取高利率,导致一些村民陷入债务循环。例如,钱德里卡利用她在Karya的工资帮助家人偿还一笔巨额医疗贷款,这笔贷款是她25岁的妹妹治病时产生的。其他Karya工人也面临类似的情况。25岁的阿贾伊·库马尔(Ajay Kumar)陷入了为治疗母亲严重背部伤病而产生的医疗债务中。38岁的希瓦纳(Shivanna N.)在小时候因燃放鞭炮而失去了右手。尽管他没有债务,但残疾意味着他很难谋生。
Karya的工人、38岁的Shivanna N在8岁时因意外失去了右手。
这些村民正在参与Karya在卡纳塔克邦推出的一个新项目,该项目是为一家印度医疗非政府组织进行的,该组织正在寻求关于结核病的语音数据,结核病每年导致约20万印度人死亡。这些语音录音,收集了卡纳达语的10种不同方言,将帮助训练一个人工智能语音模型,以理解当地人的肺结核问题,并回答旨在减少疾病传播的信息。当这个应用完成时,它希望能够让不识字的人更容易获得可靠的信息,而不用让肺结核患者寻求帮助时承担经常遭受的污名。这些录音还将作为卡纳达语数据集的一部分,在Karya的平台上转售给许多AI公司。这些公司对训练数据的内容不太在意,而是更关注它对语言整体结构的编码。每次转售,100%的收入都将分配给参与数据集的Karya工人,并按照他们投入的时间比例分配。
19岁的Madhurashree说,她在Karya的工作帮助她了解了结核病的症状和预防措施。
虽然规模较小,但Karya已经拥有一系列知名客户,包括微软公司、麻省理工学院和斯坦福大学。今年2月,该公司为比尔与梅琳达·盖茨基金会开展了一个新项目,旨在为10亿印度人口使用的5种语言(马拉地语、泰卢固语、印地语、孟加拉语和马拉雅拉姆语)构建语音数据集,最终目标是建立一个可以用母语和方言回答印度农民关于医疗保健、农业、卫生、银行和职业发展等问题的聊天机器人。这项技术可以被视为致力于消除贫困的ChatGPT,有助于传播改善印度人生活质量的知识。
“我认为应该有一个世界,语言不再是使用技术的障碍,这样每个人都能使用技术,无论他们说什么语言。”微软研究中心的语言学家和首席研究员卡利卡·巴利(Kalika Bali)说。她与盖茨基金会合作进行该项目,并担任Karya监督委员会的无薪酬成员。Karya相对较高的工资“渗透到数据的质量上”,巴利说,“这将立即提高系统输出的准确性。”她说她通常从Karya那里得到的数据错误率不到1%,这在构建AI模型时几乎从未发生过。
特殊的公司结构
乔普拉说,最初他和他的团队向任何人开放应用程序,结果发现最早的100个注册用户都是占主导地位的高种姓男性。这一经历让他认识到“知识是通过权力渠道传递的”。为了接触到最贫困的社区,以及边缘化的种姓、性别和宗教,他很早就意识到必须与在农村地区有基层影响力的非营利组织合作。这些组织可以代表Karya按照收入和多样性的要求分发访问码。“他们知道对于谁来说,这笔钱是锦上添花,对于谁来说,这笔钱是改变命运的。”他说,这个过程也确保了工人最终生成的数据有更强多样性,这有助于减少AI偏见。
“我们需要的是让更多人意识到,大多数数据公司是不道德的。”他说,“而且有一种道德的方式。”为了让这个应用发挥出他认为能够发挥的影响力,他需要赢得更多的客户——说服更多的科技公司、政府和学术机构从Karya获取他们的AI训练数据。
但在追求新客户的过程中,即使是自诩为“有道德”的企业,最终也可能妥协。那么,什么能阻止Karya陷入与Sama公司同样的境地呢?乔普拉说,答案的一部分在于Karya的公司结构。Karya在美国注册为非营利组织,控制着印度的两个实体:一个非营利组织和一个营利组织。这个营利组织在法律上有义务将它赚取的任何利润(在支付工人之后)捐赠给非营利组织,后者再将它们用于再投资。他说,这种安排的好处在于,消除了他或联合创始人为了有利可图的合同而牺牲工人工资或福利的任何动机。目前,这是一个有效的模式,但如果慈善资金枯竭,这个模式可能会崩溃。
奇鲁卡瓦迪和阿拉哈利村的村民对人工智能的了解有限。乔普拉表示,向工人们解释他们正在做什么时可能存在挑战,最成功的方法是告诉工人们他们正在“教计算机说卡纳达语”。那里没有人知道ChatGPT,但村民们知道Google助手,他们称之为“OK Google”。35岁的失业父亲思达拉久(Siddaraju L.)表示,他不知道什么是人工智能,但如果计算机能说他的语言,他会感到骄傲。“我对我的母语像对我的父母一样尊敬。”
人们希望,通过Karya等项目的努力,印度语言的人工智能项目能够从英语人工智能的错误中吸取教训,并从一个更可靠和无偏见的起点开始。“直到不久前,英语的语音识别引擎甚至都不能理解我的英语口音。”微软研究中心的语音研究员巴利谈到她的口音时说,“如果人工智能技术不满足它们的受众,那么这些技术的存在有什么意义呢?”