两个百万富翁在街上相遇,他们都想知道谁更富有,但又不愿意让对方知道自己拥有的真正财富。如何在没有第三方的情况下,让对方知道谁更有钱?
这是姚期智院士在 1982 年提出的“百万富翁”设想。看到这里,不要认为这个设想和你没有任何关系。
因为,这个设想的背后,本质上反映了基于用户数据挖掘的服务(目前大多数互联网公司提供的服务都涉及用户数据挖掘)数据的使用权、所有权之间的矛盾:服务提供者必须得到你的数据才能提供服务。放到这个“百万富翁”设想中,即互联网服务一定要拿到两位富翁的财产数据,才能计算出“谁更有钱”。
有没有一种技术,可以实现数据使用权、所有权的分离,生产方保有数据的所有权而不影响数据需求方提供服务?简而言之,可以基于加密的数据进行计算。
图丨Protocols for Secure Computation 论文(来源:DeepTech)
在密码学领域,这个问题可以描述成,“一组互不信任的参与方之间在保护隐私信息以及没有可信第三方的前提下的协同计算问题”。也正是在《安全计算协议》(Protocols for Secure Computation)发表的一篇文章里提出“百万富翁”设想的同时,姚期智发布了一个名为“多方安全计算”(Secure Multi-Party Computation,简称MPC)的理论框架。
在不久前接受《人民日报》采访时,姚期智如此解释 MPC:“我们两个人中每个人有一个数据,想要两个人数据合起来,但不想把数据交给对方。我们希望使这个计算实现,但是完全不透露我们的数据是什么。我提出这个概念的时候,完全出于科学的好奇心。现在,这个方向成为密码安全领域的一个大方向。”
姚期智认为,多方安全计算会在金融科技甚至人工智能、医药保护共享数据等方面发挥重要作用。值得一提的是,姚期智在当时的采访中表示,MPC 也将是中国贡献给世界的一个原创关键技术。
图丨姚期智,第一位也是唯一一位获得图灵奖(计算机领域最高荣誉)的华人计算机科学家,曾经任教于美国麻省理工学院、斯坦福大学、加州大学伯克利分校及普林斯顿大学,是公认的算法、密码学及量子计算专家。2004 年,他全职回国加入清华大学,目前是中国科学院院士、美国科学院外籍院士、清华大学交叉信息研究院院长(来源:人民直播截图)
走出实验室,MPC 的两大应用价值
20 世纪 80 年代初,即 MPC 诞生的早期,研究者的关注点主要在于验证这项技术的可行性上。
提出 MPC 的 4 年后,姚期智于 1986 年提出了基于混淆电路的通用解决方案,进一步验证了多方安全计算的通用可行性,同时也奠定了现代计算机密码学的理论基础。此后,经 Oded Goldreich、Shafi Goldwasser 等密码学学者进一步的研究和创新,多方安全计算逐渐发展成为现代密码学的一个重要分支。
姚期智解释,初期由于计算机的算力无法实现相应的计算,MPC 并没有真正运作起来,但是现在,经过了三十多年的发展,“计算机终于足够快,能够把这三十年大家不断改进的方案开始运作起来”。
今年 6 月,蚂蚁金服算法专家李漓春在公开场合表示,“了解到这个技术的时候,我就知道这个技术在大数据的时代特别有用。当年对这个技术了解的非常少,在业界应用也非常少。7年之后,现在我们看到很多公司都在做这方面的研究和探索,业界已经在落地”。
MPC 之所以近几年开始受到关注,一方面是因为产业互联网、AI 等关键领域的发展越来越离不开数据上云、离不开数据挖掘,数据隐私问题的解决迫在眉睫。今年早些时候,加州大学伯克利分校(UC Berkeley)研究就发现,AI 的发展已经对健康数据的隐私造成新的威胁,但是目前的法律远不足以保护个人健康数据的隐私性。
另一方面也在于,MPC 已经成长到了一定的阶段,其产业价值潜力开始彰显,特别是在涉及隐私敏感型输入数据(如客户行为信息、身份信息、金融信息、征信信息、医疗信息)的应用场景。
拥有隐私敏感型数据的金融、物流、供应链、物联网、汽车业,都会是 MPC 很有应用价值的地方。而且,在解决数据隐私问题的同时,数据孤岛的困境也能得到缓解,因为一部分数据孤岛现象存在正是基于数据隐私的考量。
尤其对于以海量数据作为训练根基、正在隐私保护合规中寻求落地的 AI 技术来说,这将是一个好消息。
(来源:互联网)
以医疗场景中的基因数据为例,基因数据具有隐私性要求高、数据体量大的特点。此前就有业内人士表示,“生物信息是个人信息安全的最后一道防线”。目前,基因数据一般会保存在研究机构或者医疗公司的本地系统中,但这些“新石油”处于共享、流通的状态其实才更利于生物医疗技术的发展,例如基于基因数据挖掘研究某种疾病,开发出更有针对性的药物等等。
如果不同的机构能够部署 MPC 节点,那么,这些数据就可以通过 MPC 协议间接实现数据共享:基因数据仍保留在本地,但是不同的机构可以共同实现计算出需要的数据结果。
类似的项目已经在国内出现。2018 年,民生健康(万向区块链和民生人寿保险有限公司共同成立)就和宁波保险行业协会合作,以健康险为业务场景,模拟联盟内保险公司之间的数据查询,证明了 MPC 在建立共享价值网络上是完全可行的。不过,需要指出,由于模拟的数据规模较小,那个项目并没有产生实际的商业价值。
而作为 MPC 的提出者和重要奠基人,姚期智所在的清华交叉院,也有一支团队正在探索 MPC 的实际应用。据 DeepTech 了解,2018 年 6 月,一支清华交叉院背景的团队成立了华控清交信息科技(北京)有限公司(下称“华控清交”)。
(来源:华控清交)
华控清交由清华大学、清华大学交叉信息研究院和清华五道口金融学院联合发起,专注于研究、开发和营运基于密码学的MPC技术、标准和基础设施,公司 CEO 为前高盛全球合伙人张旭东,团队的大部分成员是清华交叉院背景。
这个团队通过综合运用密码学混淆电路、不经意传输、秘密分享、同态加密、同态承诺、零知识证明等多种理论和协议,结合计算机工程技术,研发出了一个软硬件结合的多方安全计算平台。据介绍,这个计算平台可以在多方输入且不暴露输入信息的情况下进行密文计算,最终得出与明文一致的密文计算结果,可支持涵盖AI算法训练在内的几乎全部计算类型和多种数据格式。目前,华控清交已经在金融行业多方联合风控、多方联合建模,能源行业风电效率优化、政府领域电子政务等场景有具体落地和试点项目。
(来源:华控清交)
除了华控清交以外,国外公司如麻省理工学院背景的初创公司 Enigma,国内公司如蚂蚁金服、ARPA 等,也已经在探索 MPC 和产业的结合,今年都已经一些阶段性成果发布。
以蚂蚁金服为例,早在 2012 年,蚂蚁金服就开始研究 MPC。今年 5 月,蚂蚁金服推出其基于 MPC 的安全计算平台“摩斯”,据称提供了一种全新的安全和保护隐私的数据合作方式,能够在本地数据不泄露、原始数据不出域的前提下,通过密码学算法,分布式执行既定逻辑的运算并获得预期结果,高效、安全地完成数据合作。目前,“摩斯”已广泛应用于联合金融风控、保险快速理赔、民生政务、多方联合营销、多方联合科研、跨境数据合作等多个领域。
(来源:蚂蚁金服)
与区块链互补的天然属性
有意思的是,关于 MPC 的应用,谈论最多也最被看好的一个方向就是它和区块链相结合。
MPC 本身和区块链颇有渊源。两者本质上都属于密码学领域的技术。不过,MPC 是通过一系列的数学函数来实现输入数据的加密、保护数据隐私而不影响计算结果,其基本思想包括混淆电路、秘密分享、同态加密等。
乍看之下,MPC 似乎与区块链非常相似:两者的目标都包括保护数据、理论根基是密码学、实际部署采用多节点分布……但事实上,两者有非常大的不同。
最大的区别就在于,区块链的计算过程中并不考虑输入数据的保密性,这些输入数据在链上都是透明的、可追溯的,这在追求数据透明的应用场景如食品安全溯源自然是常规操作,但在某些场景下,输入数据有一定的机密性,不透明反而是需求。而MPC强调计算过程中输入数据的保密性,输入数据被锁在“黑箱”里。
也正因为两者在输入数据上的这种互补属性,两者的结合是一种新的技术趋势:区块链经过 MPC 获得数据保密能力,可以覆盖更多的应用场景;MPC借助区块链技术实现冗余计算变得可验证。蚂蚁金服副总裁总经理刘伟光就曾在接受媒体采访时称,区块链技术如果不和 MPC 结合,还不足以支持金融场景。
目前一些区块链初创公司也在研究 MPC 和区块链的结合,例如共识数信。现实中已经出现了一些 MPC 和区块链结合的应用。例如 ZCash 通过零知识证明的手段在 Bitcoin 上添加了保护交易隐私的功能。在加密货币之外的领域,比如联合征信、医疗数据联合建模、拍卖清算、广告推荐等应用场景,区块链做存证+MPC做隐私保护就是一个很好的解决方案。
但需要指出,作为一种新的密码学协议和工具,MPC 近几年才开始走出实验室,有了非常小规模的应用案例,现在仍处于一个非常早期的阶段,尚无特别成熟的产品,实际落地的过程中,其商业可用性还有待持续验证。因为,一种新的技术必须要结合场景工程化才能发挥作用。
另外,由于 MPC 的分布式计算环境涉及非常多的计算和交互,MPC在实际应用的过程中,还需要进一步提升性能和效率。
隐私计算技术将是下一个产业热点?
MPC 走出实验室、受到产业关注背后,一个更大的行业趋势是“隐私计算”的兴起。
图丨隐私计算主要技术方向(来源:通证通研究院)
隐私计算,广义上指的是面向隐私保护的计算系统,涵盖数据的生产、存储、计算等信息流通过程。隐私计算的发展驱动力,很大一部分来自外部的监管环境(因为去年 3 月的数据滥用丑闻,Facebook 被罚了50亿美元)。换句话说,各国政府的监管越严格,隐私计算的市场就越大。从行业趋势上来看,Gartnre 已经将数据隐私列为 2019 年十大战略技术趋势之一。
不如看看隐私罚单下的硅谷科技巨头们正在做什么吧。今年 6 月,作为支持用户隐私和安全的一部分,谷歌就发布开源 MPC 工具 Private Join and Compute,以帮助组织机构更好地处理机密数据集。
谷歌工程总监 Sarvar Patel 、研究科学家 Moti Yung 在公开文章中表示,还会继续投入新研究促进在有价值的数据洞察的同时保留个人隐私,“通过更加广泛地分享技术,我们希望能够扩展安全计算的使用案例。而这不过是一切可能性的开始阶段”。
而据第一财经的报道,前阵子推出了轰动全球的数字货币“Libra”的 FaceBook,很有可能也在押注 MPC。据报道,目前 Libra 已经公布的内容尚不包括这部分内容,但 从Facebook 多位核心工程师的简历来看,Facebook 也正在进行相应的研究和开发工作。这项技术在未来的数字经济版图中将属于具有战略意义的技术。
近期,麻省理工学院数字货币计划区块链研究高级顾问 Michael J Casey 也在 CoinDesk 发文称:“密码学的一个非常重要的领域——MPC——取得了一些重大进展,这表明在分散系统中,可用性和安全性都是一个潜在的圣杯”。他所提到的进展,指的是区块链公司 KZen 公布的新款 ZenGo 钱包,该钱包使用 MPC 和其他复杂的加密工具(如零知识证明和阈值加密),在一组不信任的实体之间共享对特定加密货币地址的签名责任。
不过,在这篇名为《MPC 阐释:保护加密货币的大胆新愿景》的文章中,Michael J Casey 也强调,认为 MPC 或任何相关技术可以为安全问题提供完美、完全无误的解决方案是不明智的,“当人们自满地认为安全不是威胁时,安全威胁就会出现”。
现在,企业的数字化转型、行业的智能化转型还在轰轰烈烈地发展,挖掘更高维度的数据价值以及数据上云的过程中,数据隐私的担忧大概率只增不减,以 MPC 为典型的隐私计算技术值得关注,亦值得布局,尤其是中国企业。正如姚期智院士所期望,MPC 也将是中国贡献给世界的一个原创关键技术。