ITDaily & AI 中国
每日最新 IT 圈 AI 圈新鲜事吐槽 给你想看的
科技巨头主导研究,但真正的突破和产品展示之间的界限可能是模糊的。一些科学家已经受够了。
上个月,《自然》杂志发表了31位科学家写的一篇针对谷歌健康公司今年早些时候出现在该杂志上的一项研究的严厉回应。谷歌当时描述了对一种人工智能的成功试验,这种人工智能可以在医学图像中寻找乳腺癌的迹象。但根据其批评者的说法,谷歌团队提供的关于其代码和测试方式的信息太少,以至于这项研究只相当于推广专有技术。
"我们不能再忍受了,"回应的主要作者Benjamin Haibe-Kains说,他在多伦多大学研究计算基因组学。"这不是关于这项研究的特别之处--这是我们多年来一直目睹的趋势,已经开始真正困扰我们。"
Haibe-Kains和他的同事是越来越多的科学家之一,他们对人工智能研究缺乏透明度的看法进行了反击。"当我们看到谷歌的那篇论文时,我们意识到这是一个非常高调的期刊发表一项非常令人兴奋的研究的又一个例子,但它与科学无关,"他说。"这更像是一个酷炫技术的广告。我们真的不能用它做任何事情。"
科学是建立在信任的基石上的,这通常包括分享关于如何进行研究的足够细节,使其他人能够复制它,为自己验证结果。这就是科学如何自我修正,剔除不成立的结果。复制还可以让其他人在这些结果的基础上,帮助推动该领域的发展。不能被复制的科学就会被淘汰。
至少,这是个想法。在实践中,很少有研究可以完全复制,因为大多数研究人员更感兴趣的是产生新的结果,而不是复制旧的结果。但在生物学和物理学等领域--以及计算机科学整体上--研究人员通常会提供重演实验所需的信息,即使这些重演是罕见的。
雄心勃勃的菜鸟
AI感受到了热度,有几个原因。首先,它是一个新来者。它只是在过去十年才真正成为一门实验科学,Facebook人工智能研究和麦吉尔大学的计算机科学家Joelle Pineau说,他是该投诉的共同作者。"它过去是理论性的,但我们越来越多地在运行实验,"她说。"而我们对合理方法论的投入正在落后于我们实验的雄心。"
这个问题并不是简单的学术问题。由于缺乏透明度,新的人工智能模型和技术无法得到正确的稳健性、偏差和安全性评估。AI迅速从研究实验室走向现实世界的应用,对人们的生活产生直接影响。但是,在实验室中运行良好的机器学习模型可能会在野外失败--带来潜在的危险后果。由不同的研究人员在不同的环境中进行复制,会更早地暴露出问题,使人工智能对每个人都更强大。
人工智能已经受到了黑箱问题的困扰:可能无法准确地说出机器学习模型如何或为什么会产生这样的结果。研究缺乏透明度会让事情变得更糟。大型模型需要尽可能多的人盯着它们,需要更多的人测试它们,并弄清楚是什么让它们打勾。这就是我们如何让医疗领域的人工智能更安全,让警务领域的人工智能更公平,让聊天机器人不那么可恶。
阻止AI复制如期发生的是缺乏对三样东西的访问:代码、数据和硬件。根据投资人Nathan Benaich和Ian Hogarth对该领域的年度分析--《2020年人工智能现状报告》,只有15%的人工智能研究会分享他们的代码。行业研究人员比那些隶属于大学的研究人员犯规更大。报告特别指出,OpenAI和DeepMind将代码保密。
还有就是在人工智能的两大支柱--数据和硬件方面,有钱人和没钱人之间的差距越来越大。数据往往是专有的,比如Facebook收集的用户信息,或者是敏感的,比如个人医疗记录。而科技巨头们在巨大、昂贵的计算机集群上进行越来越多的研究,很少有大学或小公司有资源进入。
举个例子,训练语言生成器GPT-3估计花费了OpenAI 1000万到1200万美元--这还只是最终模型,不包括开发和训练其原型的成本。"你大概可以将这个数字至少乘以一到两个数量级,"贝纳奇说,他是投资人工智能初创公司的风险投资公司Air Street Capital的创始人。他说,只有极少数的大型科技公司能够负担得起这样的工作:"没有人能够随便把庞大的预算投给这些实验。"
进展速度令人眼花缭乱,每年都有数千篇论文发表。但除非研究人员知道哪些论文值得信赖,否则该领域很难向前发展。复制可以让其他研究人员检查结果是否被挑剔,新的人工智能技术是否真的如描述的那样工作。"要分辨哪些是可靠的结果,哪些是不可靠的结果,越来越难了。"Pineau说。
能做什么呢?像许多人工智能研究人员一样,Pineau在大学和企业实验室之间分配时间。在过去的几年里,她一直是改变人工智能研究发表方式的推动力。例如,去年她帮助引入了一份清单,研究人员在向NeurIPS(最大的AI会议之一)提交论文时必须提供的东西,包括代码和实验的详细描述。
复制是自己的奖励
皮诺还帮助发起了一些重现性挑战,研究人员试图复制已发表的研究结果。参与者选择已被会议接受的论文,并竞争使用提供的信息重新运行实验。但唯一的奖品是嘉奖。
这种缺乏激励的做法是整个科学领域这种努力的障碍,而不仅仅是在人工智能领域。复制是必不可少的,但它没有得到奖励。一个解决方案是让学生来做这些工作。在过去的几年里,Yoshua Bengio在蒙特利尔创立的研究机构Mila的博士生Rosemary Ke组织了一个可复制性挑战,学生们尝试复制提交给NeurIPS的研究,作为他们机器学习课程的一部分。而一些成功的复制则会经过同行评审,并发表在ReScience杂志上。
"从头开始复制另一篇论文需要相当大的努力,"Ke说。"可复制性挑战承认这种努力,并给那些做得好的人以荣誉。" Ke和其他人还在人工智能会议上通过设立的研讨会传播信息,鼓励研究人员使他们的工作更加透明。今年,Pineau和Ke将可重复性挑战扩展到了7个顶级AI会议,包括ICML和ICLR。
另一个推动透明度的项目是由AI研究者Robert Stojnic在剑桥大学时设立的Papers with Code项目。(Stojnic现在是Pineau在Facebook的同事。)作为一个独立的网站推出,研究人员可以将一项研究链接到与之相关的代码,今年Papers with Code开始与流行的预印本服务器arXiv合作。自10月起,arXiv上所有的机器学习论文都带有Papers with Code部分,直接链接到作者希望提供的代码。目的是让共享成为常态。
这样的努力是否能带来改变?Pineau发现,去年,当检查表被引入时,研究人员在提交给NeurIPS的论文中包含代码的数量从不到50%跃升至75%左右。数千名审稿人表示,他们使用代码来评估提交的论文。而参与重现性挑战的人数也在不断增加。
令人吃惊的细节
但这只是一个开始。Haibe-Kains指出,仅靠代码往往不足以重新运行一个实验。构建人工智能模型需要做很多小的改动--这里添加参数,那里调整数值。其中任何一个都可能使模型工作和不工作之间产生差异。如果没有描述模型如何训练和调整的元数据,代码可能毫无用处。"魔鬼真的在细节中,"他说。
首先也不一定清楚到底要分享什么代码。许多实验室使用特殊的软件来运行他们的模型;有时这是专有的。Haibe-Kains说,很难知道有多少支持代码也需要共享。
Pineau并不太担心这样的障碍。"我们应该对共享代码抱有非常高的期望,"她说。共享数据比较棘手,但这里也有解决办法。如果研究人员不能分享他们的数据,他们可能会给出方向,以便其他人可以建立类似的数据集。或者你可以有一个过程,让少数独立的审计人员获得访问数据的权利,为其他人验证结果,Haibe-Kains说。
硬件是最大的问题。但DeepMind声称,像AlphaGo或GPT-3这样的大项目研究会产生涓滴效应,富人实验室花的钱最终会带来惠及所有人的结果。在早期阶段,由于需要大量的计算能力,其他研究人员无法获得的人工智能,往往会随着发展而变得更高效--从而更容易获得。"AlphaGo Zero超越了最初的AlphaGo,使用的计算资源要少得多,"DeepMind研究副总裁Koray Kavukcuoglu说。
从理论上讲,这意味着即使复制被延迟,至少也是可能的。Kavukcuoglu指出,Mozilla公司的比利时编码员Gian-Carlo Pascutto在空闲时间编写棋类和围棋软件,他能够使用DeepMind在论文中概述的算法,重新创建一个名为Leela Zero的AlphaGo Zero版本。Pineau还认为,像AlphaGo和GPT-3这样的旗舰研究是罕见的。她说,大多数人工智能研究都是在普通实验室可用的计算机上运行的。而这个问题并不是AI独有的。Pineau和Benaich都指出,在粒子物理学中,有些实验只能在大型强子对撞机等昂贵的设备上完成。
但在物理学中,大学实验室会在大型强子对撞机上进行联合实验。大型人工智能实验通常是在公司拥有和控制的硬件上进行的。但即使是这种情况也在改变,皮诺说。例如,一个名为Compute Canada的团体正在将计算集群放在一起,让大学运行大型AI实验。包括Facebook在内的一些公司也让大学有限地使用他们的硬件。"还没有完全实现,"她说。"但有些门正在打开。"
Haibe-Kains不太相信。当他要求谷歌健康团队分享其癌症筛查人工智能的代码时,他被告知需要更多测试。该团队在对Haibe-Kains批评的正式答复中重复了这一理由,该答复也发表在《自然》杂志上。"我们打算在临床环境中使用我们的软件之前,对其进行广泛的测试,与患者、供应商和监管机构一起工作,以确保疗效和安全性。" 研究人员还表示,他们并没有得到允许分享他们使用的所有医疗数据。
这还不够好,Haibe-Kains说。"如果他们想以此为基础开发产品,那么我完全可以理解他们不会公开所有的信息。" 但他认为,如果你在科学期刊或会议上发表文章,你有义务发布别人可以运行的代码。有时,这可能意味着分享一个在较少数据上进行训练或使用较便宜硬件的版本。它可能会给出更糟糕的结果,但人们将能够对它进行修补。"构建产品与做研究之间的界限正变得越来越模糊,"Haibe-Kains说。"我认为作为一个领域,我们将会失去。"
研究习惯是会死的
如果企业要被批评发布,为什么还要做呢?当然有一定程度的公共关系。但最主要的原因是,最好的企业实验室里都是来自大学的研究人员。在某种程度上,Facebook AI Research、DeepMind和OpenAI等地方的文化是由传统的学术习惯形成的。科技公司也是通过参与更广泛的研究社区取胜的。所有私人实验室的大型AI项目都是建立在层层公共研究的基础上。而很少有AI研究人员没有利用开源的机器学习工具,比如Facebook的PyTorch或谷歌的TensorFlow。
随着越来越多的研究在巨型科技公司内部进行,商业和研究的竞争需求之间的某些权衡将变得不可避免。问题是研究人员如何驾驭它们。Haibe-Kains希望看到像Nature这样的期刊将他们发表的内容分成不同的流:一方面是可复制的研究,另一方面是技术展示。
但皮诺更乐观。"如果Facebook没有开放的研究方法,我就不会在Facebook工作,"她说。
其他大型企业实验室也强调他们对透明度的承诺。"科学工作需要该领域的其他人进行审查和复制,"Kavukcuoglu说。"这是我们在DeepMind研究方法的关键部分。"
"OpenAI已经成长为与传统实验室截然不同的东西,"该公司发言人Kayla Wood说。"这自然会引起一些问题。" 她指出,OpenAI与80多个行业和学术组织合作,在 "AI伙伴关系 "中思考研究的长期发表规范。
Pineau认为,这是有道理的。她认为AI公司正在展示第三种研究方式,介于Haibe-Kains的两股之间。她将私人人工智能实验室的智力输出与制药公司的智力输出进行了对比,例如,制药公司在药物上投资数十亿美元,并将大部分工作关在门外。
皮诺等人介绍的做法的长期影响还有待观察。习惯是否会被彻底改变?这对AI在研究之外的吸收会有什么不同?很多事情都挂在人工智能的发展方向上。例如,越来越大的模型和数据集的趋势--受到OpenAI的青睐--将继续使大多数研究人员无法获得人工智能的前沿技术。另一方面,新的技术,如模型压缩和少数镜头学习,可能会扭转这一趋势,让更多的研究人员能够使用更小、更高效的AI。
无论哪种方式,人工智能研究仍将由大公司主导。如果做得好,这不一定是坏事,Pineau说。"AI正在改变关于行业研究实验室如何运作的对话。" 关键将是确保更广泛的领域有机会参与。因为人工智能的可信度,在很大程度上取决于人工智能,从最前沿开始。
原文标题:AI is wrestling with a replication crisis | MIT Technology Review
原文链接:www.
原文作者: Will Douglas Heaven
编译:张亚飞