在2017年10月召开的杭州云栖大会上,阿里巴巴达摩院正式亮相。这是一个被阿里巴巴董事局主席马云寄予厚望的部门,承载了阿里巴巴最顶尖的研发资源,达摩院意味着技术创新,也代表着阿里的未来。
两年过去了,达摩院究竟做了什么?7月9日下午,达摩院机器智能技术事业部首席架构师王骏、达摩院语音实验室负责人鄢志杰、达摩院语音实验室高级算法专家雷鸣等技术专家向21世纪经济报道记者介绍了阿里巴巴在AI领域的一些最新进展。
王骏表示,阿里巴巴对AI技术有非常多的需求,达摩院机器智能采用自上而下的研究体系,每一个研究小组都有灵活度,可以去做自己需要的方向,并兼顾短期、中期、长期的规划,而且最终的价值也都体现在创新技术产品上。
达摩院做了什么?
在成立达摩院时,马云表示在三年内将给达摩院投入1000亿元。但他同时也提出要求,即达摩院要学会自营自利,未来要自己挣钱。
这也使得达摩院在创办之初就与其他的研究院有了很大的不同。鄢志杰以语音实验室为例说道,“我们在建立团队时就把研究和工程放到了一起,目的就是希望新的研发能够迅速转化为产品。另外,这样也能帮助研发人员更加了解来自业务的真实需求,在选题方向上可以做出判断。”
所以,若回顾达摩院过去的两年,除了可以看到一些理论性的研究项目,还会有很多可以实际应用的技术产品。据介绍,近年来,仅阿里AI团队便在国际顶级学术会议上共发表了近400篇顶级论文,同时也在国际顶级技术赛事上斩获40余项世界第一。
比如在6月刚刚结束的第三届图像识别竞赛WebVision中,阿里AI以82.54%的识别准确率击败了全世界150多支参赛队伍获得冠军。这是一个超大规模图像识别的比赛,投资知识,它要实现的是通过拍摄一个物体的照片,然后去搜索其他图片。据王骏介绍,阿里其实很早就开始研究这个技术,并应用在淘宝的拍立淘上面,目前,阿里AI可以识别的物理实体超过100万种。
而取得这些成绩,与达摩院实力雄厚的人才储备不无关系。目前,达摩院旗下的科学家团队包括美国密歇根州立大学终身教授金榕、密西根大学终身教授施尧耘、新加坡南洋理工大学终身教授王刚等在内的20多位世界级科学家,以及10多名IEEE FELLOW。就在今年3月,原Facebook人工智能科学家贾扬清也宣布加入阿里巴巴达摩院任技术副总裁。
王骏表示,达摩院是个全球化的机构,半数以上成员都具有博士以上学位,办公室分布在四个国家的8个主要城市。其打趣的说道,“达摩院要想所有员工一起开个会,时间协调起来会很麻烦。”
将语音合成定制成本降低10倍
当天,达摩院机器智能首次向外界展示了新一代语音合成技术——KAN-TTS(TTS是Text To Speech的缩写,即“从文本到语音”)。据介绍,KAN-TTS由达摩院机器智能实验室自主研发,深度融合了目前主流的端到端TTS技术和传统TTS技术,从多个方面改进了语音合成。
雷鸣表示,TTS技术自1939年从实验室第一次发明出来以后,经历过多个发展阶段,目前所处的阶段是以2017年为节点,主要特点是合成语音已经非常接近于真人表现。
据其介绍,当前,业界商用系统的合成语音与原始音频录音的接近程度通常在85%到90%之间,这其实已经是一个很高水平,而基于KAN-TTS技术的合成语音,则可将该数据进一步提高到97%以上。
此外,达摩院语音实验室还提供了开箱即用的TTS解决方案,这主要是针对一些产品具有特定场景的需求。“比如有些产品就要讲一些儿童教育的故事,有些则是讲富有情感的故事,投资,针对这些,我们提供了通用、客服、童声、英文和方言等5个场景及34种声音供选择。”雷鸣表示。
鄢志杰告诉记者,达摩院是一个技术密集型团队,但它并不是只专注于技术的研究,同时也要把这些技术产品化。“比如语音技术,我们有各种各样语音的源头算法,这些不仅仅应用在阿里自己的业务上,同时他们也能够把这些技术放到云上,分享给他们的合作伙伴。可以说,阿里有什么,阿里云的客户就能拿到什么。”
而这实际上也是当初成立达摩院,阿里巴巴对其提出的要求。两年前,马云在谈及达摩院的发展时明确表示,达摩院不是阿里巴巴体系的达摩院,而是整个经济体的达摩院,达摩院必须要比阿里巴巴活得时间长,要影响至少20亿人。
据一位知情人士向记者透露,今年9月份将是达摩院成立两周年,以及阿里的半导体业务成立一周年,届时,阿里也将有重大的成果对外发布。