无论我们去哪里,都会留下一点自己的DNA碎片。现有的科技已经可以让我们用这些DNA残留预测眼睛颜色、发色、肤色等外貌特征,也许在不久的将来甚至能够利用这些特征进行精确的脸部重建。
我们已经进入了“表型预测(DNA phenotyping)”的时代——可以利用基因数据重建体貌特征。类似于23andMe这样的公司和科学研究单位有时候会共享一些隐藏提供者的名字的“匿名化”基因数据。但是如果我们能够利用这些数据实现面部重建,我们的隐私还能得到保障吗?
在这里,我们将简述现有的表型预测技术及其发展前景。
基于DNA预测眼色、肤色和发色
近年来,表型预测已经成为了一块十分活跃的研究领域。包括Manfred Kayser和Susan Walsh在内的法证生物学家开创了数种可用于法证调查的表型预测技术。
2010年,他们开发出了IrisPlex系统。该系统可以利用6个DNA标记(DNA marker)的信息来推断一个人的眼睛是蓝色还是棕色。2012年,他们又添加了新的DNA标记来推断发色。去年他们又新增了肤色。这些测试已经被研究组发布在了网站上,任何持有自己基因信息的人都可以尝试一下。
体貌特征的预测正被运用于解决各类问题。例如,最近该技术的预测结果显示“切达人(Cheddar Man,英国最古老的完整人类骨架)”有可能有深色或深色到黑色皮肤和蓝/绿色眼睛。然而这些类预测模型大多数都是基于现代欧洲人群开发的,所以把这项技术运用到其他人群(尤其是远古人类)时需要格外谨慎。
表型预测大观
随着机器学习(machine learning)手段的应用,表型预测研究在过去的一年里飞速发展,然而对于现今我们到底能够做到哪一步仍然存在着极大的争议。
去年,Human Longevity公司的研究学者们细致地测量了大约1000名参与者的体貌特征,并做了基因组(全套遗传信息)测序,利用得到的数据建立模型来预测脸部的立体特征、嗓音、生理年龄、身高、体重、身体质量指数(BMI)、眼睛颜色以及肤色。该公司由美国遗传学家Craig Venter创办。
这项研究受到了不少资深科学家的抨击,这其中就包括绰号为“基因组骇客”的Yaniv Erlich,因为该研究只能基于性别和祖源重构出大众化的面孔,而不能针对个人预测出确切的脸部特征。同时他们对混血人群外貌特征预测的判别方法也饱受诟病。
即使我们可以做到准确地预测面貌特征,Erlich指出:如果想要鉴别现实世界的个体,“这项技术的一大瓶颈……是必须要建立一个符合人口数量级的数据库,里面包含所有他们想要鉴别的候选人的身高、脸部特征、数字声纹以及人口统计数据。”如果没有一个详细的生物识别数据库,把外貌特征和身份信息匹配起来是不可能的。
一个满足要求的数据库?
事实上,澳大利亚政府正在建立这样一个数据库——“The Capability”生物识别与脸部识别系统,该系统可以将监控录像提供的体貌特征与护照和驾照上的身份信息相匹配。尽管该项目最初作为反恐措施立项,但是已经有报道称企业可以付费购买这项服务。
与此同时,澳大利亚税务局刚刚发布了一项语音识别服务。不难想象这套系统也可以整合到“The Capability”之中。
澳大利亚并不是唯一一个正在研发基于生物与脸部识别的监控技术的国家。印度正在部署Aadhar系统,而中国正走在脸部识别技术应用的前列。
DNA档案照
如今,大多数DNA法证侧写依赖于利用“匿名”DNA标记信息。从数据库里能搜索匹配的嫌疑人,但这种方法不能提供嫌疑人本身的其他情况。随着基因技术的发展,法证遗传学测试正在逐渐进化,将能够提供更多个人信息。
现在已经有数家公司提供有偿表型预测服务。其中一家公司Parabon NanoLabs宣称他们可以利用DNA准确预测一个陌生人的外貌。警方已经在执法时使用了这项服务,例如最近昆士兰警署运用了该技术预测黄金海岸(Gold Coast)连环强奸犯的外貌。
Parabon的系统的工作原理也是基于一个预测模型。该模型是由机器学习工具分析他们提供的基因/体貌参考数据库发展完善的。利用该系统,Parabon NanoLabs可以从DNA样本预测出肤色、眼睛颜色、发色、是否有雀斑、祖源和脸型。结合这些预测结果、它们的可信度以及法证艺术家的重构,我们就可以得到嫌疑人的一张“快照”
Parabon的预测能力同样受到了质疑。他们不公开程序代码,预测外貌的方法没有经过同行评议发表,所以很难评估Parabon系统到底怎样。
就如其他任何类型的DNA证据一样,表型预测也存在着误判的风险,尤其是当它被作为孤证呈现的时候。就现在的情况来看,运用表型预测依靠的更多是其排除能力而非预测能力。Parabon表示,“快照”预测手段旨在通过与其他调查获得的信息结合来缩小嫌疑人的范围。
表型预测会有怎样的发展?
只要看一看同卵双胞胎的脸,我们就能知道DNA在多大程度上决定了我们的外貌。现在的问题是:我们在未来到底能够解锁多少DNA与体貌特征的联系,而发现这些联系将会花费我们多长时间?
有一些外貌特征很容易预测。例如眼睛的颜色就可以由相对而言少数几个基因位点的不同推断。另一些特征则更加复杂,因为他们是由许多基因共同调控的。例如最近一项关于发色的遗传学研究检测了300000名祖源在欧洲的受试者。研究者们发现了110处新的基因标记与发色有关,但是就预测而言,对某些发色(黑色或红色)的预测比另一些颜色(金色或棕色)更准确。
拥有不同祖源的人其DNA控制外貌特征的机制有可能也不尽相同。目前,我们对现代欧洲人外貌的预测能力要好于其他人种——因为我们的基因数据库里的欧裔数量占据压倒性的优势。当我们用更复杂的机器学习方法分析更大(也更具有种族代表性)的数据库后,我们利用DNA预测长相的能力很有可能会得到显著的提升。
Parabon的服务附带一条免责声明:表型预测重建结果不能用于脸部识别系统。然而在未来整合这些技术并不是不可能。这也引发了关于范围蔓延(scope creep,在项目管理中是指不受控制的变化或持续增长的项目范围,是多数项目的风险——译注)的问题。
表型预测对维护基因隐私意味着什么?
尽管表型预测现在达到了什么水平还存在争议,但不可否认这项技术只会越来越完善。
表型预测领域的飞速发展表明我们的基因数据中包含大量身份信息。如果能够从基因信息重构面部特征,那么只去掉名字就不能完全防止有人重新匹配身份信息。
未来如果想要维护遗传信息的隐私,我们可能要开创一些新颖的方法来掩饰基因数据,例如“基因组遮蔽法(genome cloaking)”、“基因组加噪(genome spiking)”、基因组加密以及运用基于区块链技术的平台。
我们对于基因密码了解得越多,维护遗传信息的隐私就越困难。
作者简介:
Caitlin Curtis
昆士兰大学未来政策中心(基因组学)研究员
Caitlin Curtis 博士是昆士兰大学的一名研究员。她在保护遗传学、古DNA、DNA法证学以及载体基因组学方面有着广泛的知识。Caitlin对基因组学与科技的交叉和随之而来的数据与隐私维护问题十分感兴趣。
James Hereward
昆士兰大学研究员
James的研究涉及食品安全领域,他正试图从群体遗传学理解农业有害生物(主要是野草和昆虫)的进化。
翻译:王适远 审校:顾金涛
本文来自:环球科学
特别声明:本文转载仅仅是出于科普传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或其它相关事宜,请与我们接洽。
收藏:0