(原标题:得意音通郑方:对声纹认证的三类攻击可以防范)
中国电子银行网讯 2016年12月8日,由中国金融认证中心(CFCA)举办的2016“科技+金融,启创银行未来”高峰论坛暨第十二届中国电子银行年会在北京举行。近四百位商业银行电子银行的负责人莅临此次年会,就区块链、金融大数据、银行机器人、移动金融、直销银行新业态等热点进行深入探讨与交流。《2016中国电子银行调查报告》和中国电子银行金榜奖同步对外公布。
郑方 北京得意音通技术有限责任公司董事长(图左)
北京得意音通技术有限责任公司董事长、清华大学语音和语言技术中心主任郑方,于论坛就声纹识别领域有关问题,接受了中国电子银行网记者的专访,以下为详细访谈内容:
记者:郑老师您好,非常感谢您能够莅临本次电子银行年会,并奉献了一场精彩的演讲。声纹技术如今在您的带领下已经发展得非常成熟了,我有几个问题想请教您,首先在银行领域,声纹技术如何与应用场景相融合,将带来怎样的智能体验?
郑方:声纹识别用在银行领域,其实主要是用于远程身份认证。因为现在从信息安全角度讲,像数据安全(如存储、传输)、网络安全(如防火墙)等等安全技术,都已经比较成熟了,一些保障也做得比较好。但是在移动金融领域,对身份认证就有点束手无策了,目前流行的短信验证码又比较依赖于你所用的手机,手机一旦丢失,别人也可以用短信验证码找回各种信息,所以它就不是解决问题的最好方法。声纹刚好可以在远程场合下,通过声音来验证身份,解决身份认证问题,相对比较方便。
我们现在提出了一个方案,把短信验证码和声纹结合起来。结合以后,在严重时它既把验证码验证了,也把你的声纹验证了,达到双重的安全保障目的。声纹识别作为人工智能技术的一种,在移动金融领域的远程身份认证场合就能够用得比较好。
记者:声纹技术可以帮助银行提升哪些风险防控能力?
郑方:刚才讲的问题,跟这个问题是比较类似的,它也就是在风险防控方面的。在风险防控方面,我不是专攻这个领域的,我不敢讲;但我作为一个用户,我的体会是,进行账户操作,可以对某些账户进行存取或者不能对有些账户进行存取,这就需要合法性验证。
第二,用户的资金数据存取或者资金转账,这两种里边都涉及到。一是可能设置有不同的权限,权限级别高的人可以把所有的金融数据都看到,但是低的就看不了那么多。如果能把身份认证好,在这方面可以有很好的把控。我们原先也跟中国移动做过类似的项目,他们就是在权限的限定方面,通过声纹的身份认证来实现。另一个问题是资金的取款、汇款、转账、支付等等,我认为关键也是跟身份验证相关。身份如果能够验证清楚,即使别人窃取了你的密码,窃取了你的账户信息,它可以都不太可能起很大作用。所以我认为,风险防控还是跟身份认证是相关的。
记者:利用声纹技术进行用户身份认证,具备怎样的安全性?指纹、人脸、虹膜等生物识别技术快速发展背景下,声纹技术有哪些核心竞争力?
郑方:你这个问题非常好,很多人问过我类似的问题。指纹也好,人脸也好,这个大家都知道,很多场合已经应用了。人们为什么对它比较熟悉,比较了解,而且也比较认可呢,关键就是它是有形的,能看得见、摸得着。声音是看不见的,摸不着的,所以声纹给用户使用的时候,用户接受起来就存在一些障碍。但是我觉得声音在远程身份认证时是最好的生物特征,尤其在防假冒攻击方面,当然现在有好多单位在做这方面的研究,如人脸、指纹等,再加一维,维度增加以后,变成三维的识别,可以做到很好的活体检测来防止假体攻击,对这个方面的尝试和取得的效果我都是认可的。
但是我们真正给用户用的话,最终是要看用户的接受程度的。用户接受程度的因素有很多:第一,它会不会觉得这个安全,这是感觉问题;第二,你这个产品的成本会怎么样。比方说声音,在建行手机银行用的时候,它能够很快地呈指数级增长,这是因为,手机随处可见,手机App一安装,声纹识别的开关一打开,就可以用了,不需要加额外的硬件,也不需要占用额外的带宽;其他技术可能会做得很好,但或许要增加额外的硬件,特殊的硬件,但像建行这样有两亿的电子银行用户的情形,你都分发一遍这些额外硬件,让用户换手机或者升级换代,它就很难,做不到。用户也会问这个钱是银行付还是用户付,如果银行付,这个可以,但是银行分发需要时间,如要让用户付,对不起,用户不一定愿意付。
还有,这些特征都是静态的生理特征,静态的最大特点就是不变,相对来讲不变。现在的人工智能技术发展很快,你只要不变,我就能够想出办法模拟出来,或者说,你也可以变,比如像人脸,可以要求用户眨眨眼睛、张张嘴巴、摇摇头,但是变化的种类太少,机器就可以模仿。语音就不是这样了,全球那么多种语言,举例说即使只考虑汉语,汉字就超过五千多,可以组合成不同的句子,变化就多了;这么多的组合,要都把它们录下来去模仿,实在太难,这个特点在防攻击方面就有天然的优势。其他生物特征我不否认它们是很好的特征,但是声音与它们相比可能就更好甚至是最好的。前面一段时间我只是进行理论分析,后来在跟建行、银联、国家信息中心等合作时,看着用户量飞速增长,我认为时间验证前面这个分析还是对的。
记者:如何看待高真语音模拟对声纹技术应用的影响?
郑方:现在对声纹认证的攻击,大概分成几类,第一类是模仿,第二类是语音合成或者语音转换,第三类是录音重放。这三类都是比较常见的。
先说模仿,实际我们人的感觉是(模仿)真像,比如赵本山模仿谁,人一听怎么那么像,在比如前一段时间有个有名的藏族小伙子叫洛桑尼瓦,他模仿别人的声音也都模仿得很像。但是我把它叫做“听觉欺骗”,人听东西其实很容易被欺骗的,就跟视觉欺骗类似,比如一组平行的直线,你如果弄一些等间距的折线与它们交叉,你会发现这些线貌似不平行,但实际上是平行的,这就是视觉欺骗。听觉也会被欺骗,容易被声调、语调等欺骗。
我们如果用机器去判断,会发现这些模仿(与原声)差别太大了,赵本山也好,洛桑尼瓦也好,(与真人的声音)其实差别很大,它们只是语调、抑扬顿挫的习惯相似。有一个数据可以说明问题。2004年山西省公安部门邀请我去参加公安部《双胞胎语音的声纹鉴定研究》课题验收鉴定会,他们找了23对双胞胎,而且是同卵双胞胎的语音数据,专家去听,大概分辨准确率是85%,我当时要了数据,拿来到机器上试试,结果发现100%全区分开了。人去听模仿声音,一般听的是调,语调是否像,韵律是否像,很容易欺骗。
第二是合成的问题。现在一些语音合成技术包括语音转换技术已经比较不错了。听了奥巴马的一些语音数据,学一些模型参数,就可以对一些新的文本合成或转换出语音,的确听着比较像。现在对其他一些生物特征还是可以通过模仿进行攻击的,但是对语音至少在近一二十年内还做不到,为什么?因为声音里边含的信息太多了,上午我讲了的就有六七种,其实还有更多的信息。这么多信息,你可能模仿出中间的一两种,但不可都能都模仿出来。而我们对语音的这个检测是综合的,你所有信息中只要找到一点有合成的痕迹,马上就能知道你这语音是合成的,所以模型语音进行攻击是非常难的。就目前的实验结果来看,第二种攻击还是做不到的,系统可以轻易阻止第二种假冒攻击。
第三就是录音重放。录音重放是最难检测的,因为说句老实话它原本就是你真实的声音。但是,如果用我们的方案,即声密保方案,每次让你说的都是变化的,那你就没法弄了。当然,一旦你做了录音了,然后进行拼接,再重放,系统检测是有一点难度的。好在我们有一个专利技术,只要你录音-拼接-重放进入系统,它对语音信号就会有破坏和影响,我们就能够检测到。这是专利技术,我们也是做了好几年的研究和开发才把它成功做出来。最近某个银行做了一个测试,找了几家厂商来做录音检测,我们是100%都检测到录音了,其他厂商都做不到。
这样看的话你看,最难的(问题),我们都已经把它解决了,容易的那就更不在话下了。当然这个话也不能绝对,因为现在人工智能发展很快,也许过一二十年,声音合成或转换的技术更好了,但是那时候我们也有更好的检测方案了。
记者:谈谈您对科技+金融的看法,并憧憬未来银行。
郑方:我只谈谈其中的金融安全,金融安全是老百姓最关心的问题。钱放在你银行里边,我是对你信任,结果最后你把钱给弄没了,还说你不负责,这样的事情老百姓肯定是不接受的。这里声纹可以更好地从几个不同层面来解决用户的一些疑虑:
第一,他的心理感觉。我和很多人聊过,包括银行业、科技界的人士,还有普通用户朋友,我就说你们为什么不用手机银行,这不是很方便吗?他说你要弄个几块钱,我丢就丢吧,就像现在一些常用的支付手段,很方便,这可以用;但是数额大了,上万,上十万,甚至上百万,我就不愿意用了,因为我不敢用。我说如果安全,你敢用吗?他们说安全了,我绝对敢用,我更愿意用,因为手机太方便了,随时都在身边,你让我到柜台去,多费时间啊。声纹识别给你解决了这个(安全)问题,你觉得它安全,这是感觉。实际上这个感觉有时挺关键的,人用不用,有时候就在于这个感觉。
第二,从实际上来讲,它也真的能够解决安全问题,把身份认证做到非常高的精度。并且不像其他生理特征一旦丢了,你就会很害怕,因为别人可以在其他场合使用这些特征;对声音,它自身不容易被别人模仿,不容易被别人偷窃,所以自身的安全问题它也能做到很好。
记者:为什么说声纹识别是远程身份认证最好的解决方案?为什么你认为电子银行的声纹时代已经来临?
郑方:电子银行的声纹时代,刚开始要做报告的时候也有人说是不是不能叫声纹时代。在这里我很认真地讲一下,首先声纹时代肯定来了。这个很多专家都有共识,国际上一些科学家,产业界的一些都觉得声纹科技都开始用了,用在出入境控制,用在犯罪分子追踪,用在金融安全等。我今天加了一个定语说成“电子银行的声纹时代”,想一想这个用词还是比较严谨的,更是可以说的了。
现在我从理论上分析一下这个事情。2008年是我主导制订了中国第一个声纹识别的标准,做的时候更是很多人不相信声纹可以实用。后来我分析声音有它的特点,有它的好处,所以我觉得肯定能用。但是真正最后被实践验证是等到什么时候呢?是2014年左右,就是4G牌照发放之后,根据工信部的统计智能手机的用户数超过6亿了,基本上可以说有行为能力的人都有智能手机。这两个因素一结合,所有跟它们相关的应用都出来了,用App,用无线,加上手机你随身携带,用它进行支付,82%的用户都习惯使用,所以手机银行的时代肯定会来临。当时有的银行还用的音频盾,不知道你是否了解,就是可以插手机音频口的客户证书Key,但是所有的外接设备都有忘记携带或容易丢失的问题,肯定不方便, 而且iPhone7一出来,音频口没了,音频盾就没有用武之地了。但是如果用声纹(就没有这个问题),手机的麦克风永远不可能去掉,就可以一直使用。实践也证明,手机银行的声纹识别一推出,用户数就呈指数级增长,这个增长速度,让我很兴奋。所以,我就说在电子银行领域,声纹时代的确已经来临。
谢谢!
记者:非常感谢郑董。