微软推TTS系统 有声书成主要场景

                                                              时间:2020-01-12 04:20:28 作者:admin 热度:99℃
                                                              天阿降临 微硬推TTS体系 有声书成次要场景

                                                                
                                                                马秀岚、张靖超

                                                                2018年10月,微硬公布了基于深度神经收集的文本到语音(text-to-speech,以下简称“TTS”)阐发运转体系。

                                                                该手艺公布一年,正在一些场景停止了降天,此中帮忙视障人群成为十分枢纽的使用场景。

                                                                正在已往,微硬战瞽者公益构造白丹丹视障文明办事中间(以下简称“白丹丹”)停止了协作,白丹丹将今朝瞽者群体所缺少的资本册本(百科常识、文教类、课本等)选择出,微硬经由过程神经收集分解语音“晓晓”去分解有声书。

                                                                10月15日是国际瞽者节,上述分解的有声书正在此日上传诚意目藏书楼——一个云真个藏书楼——能够打仗到天下105所盲校的门生。

                                                                正在此之前的10月9日,微硬亚洲互联网工程院野生智能语音组资深产物总监丁秉公正在承受《中国运营报》正在内的媒体记者采访时引见称,如许的书本来需求人去灌音,要找到灌音的人战灌音棚,耗时耗力,若是要录下量量的声响需求破费更多的本钱战工夫。可是若是经由过程TTS分解体例,能够7乘24小时分解,只需有文本内容,就能够络绎不绝天输入有声内容。“那突破了有声内容消费的壁垒。那个对视障人士群体来讲出格故意义,固然他们能够正在市道上听到一些有声书,可是数目近近少于文本数目,若是我们能够主动天把文本转化成有声,能够极年夜天丰硕视障伴侣有声浏览的滥觞。”

                                                                本钱更低

                                                                正在详细的本钱上,据微硬圆里引见,一本100页摆布的纸量册本,译成盲文册本需求400~500页,建造本钱正在80~100元摆布,本钱绝对较下。而经由过程TTS分解的有声书,均匀一本的价钱正在9000元摆布。但一本有声书做出去以后停止云端传输,笼盖到天下的盲校1万多个门生,能够一本书本钱仄摊上去才没有到1元钱,且能够做到有限量广域传布。

                                                                市道上充溢着形形色色的有声书,该项目分解的有声书比拟前者有甚么区分?

                                                                对此,白丹丹施行主任曾鑫对记者注释,那些有声书按照盲校孩子战教师的需供去做,没有是市道上已有的名著大概浅显小道类,而更多散焦正在今朝市道上贫乏的针对视障门生进修类大概生长类的有声册本。“这类书正在市场上很易找到有声版以至是电子版,以是那圆里很有需供。别的,我们也会按照青年人的进修需供,建造法令、公事员的测验课本等。市道上很易购到那类有声课本,我们会经由过程如许的手艺手腕帮门生以最疾速度完成转换,构成有声书。”曾鑫道讲。

                                                                据微硬野生智能女声晓晓语音产物卖力人刘越颖引见,该手艺今朝能够供给两种场景下的办事:一种是及时的分解,根本上是毫秒量级的,几百毫秒就可以够反应,普通用正在智能对话、语音助理等场景。另外一种长短及时的分解场景,好比一整本有声书的少文本分解,大要需求总音频时少的1/3。一个小时的音频,能够十几分钟两非常钟就可以分解出去,若是是野生灌音,能够录造一个小时的音频,频频堕落,需求不竭天来录战反复,三个小时才气录出去一个小时的音频废品,而机械十几分钟就能够,那便将人力三个小时的灌音节流到十几分钟,服从年夜年夜提拔。

                                                                曾鑫也停止了弥补:“做有声书的本钱上,我们做为一个公益机构,能够没有像贸易机构。需求动用一些意愿者的资本去做,一本有声书的录造,关于我们而行最快的速率也需求花三个月才气完成。工夫本钱会很少,借包罗职员的和谐本钱,如今用的那个手艺大要几十秒钟或几分钟就可以完成一本有声书的建造,那个本钱必定是出法比的。”

                                                                声响力求更天然

                                                                微硬语音、天然言语取机械翻译的手艺卖力人黄教东曾正在其文章中指出,TTS体系利用了深度神经收集,去克制传统“文本到语音”体系正在婚配白话的重读战腔调(称为韵律构造),和将语音单位分解为计较机音频圆里的范围性。那使得声响愈加天然。

                                                                那些有声书的语音去自微硬的声响品牌“晓晓”,据丁秉公引见,晓晓是第一个基于深度神经收集做的声响。他暗示,微硬仄台上的声响品牌良多,最后分解的声响听起去十分没有天然,一听便晓得它是机械人,少工夫听简单招致怠倦,颠末几年开展,晓晓的声响被研收回去,到达绝对天然的水平。

                                                                10月15日,记者正在“心目藏书楼”小法式中试听了上述操纵晓晓的声响分解的有声书《德国少年女童百科常识齐书——啮齿植物》那一本的开首部门,发明声响绝对普通的机械人声响天然,但正在一些断句、平息上仍旧需求提拔。

                                                                黄教东也指出,传统的“文本到语音”体系将韵律构造合成成由自力模子掌握的言语阐发战声教猜测步调。那将招致分解音频变得烦闷无趣。而“文本到语音”体系能够同时施行韵律猜测战声响分解,其成果愈加流利天然。

                                                                “读文章时有天然的换气战平息,韵律天然,听起去没有会乏。”正在采访现场,微硬语音团队播放了几段晓晓分解的有声书,刘越颖如斯引见讲。

                                                                微硬期望经由过程手艺让有声书疾速天生,经由过程手艺做差别声响战差别气概以婚配更多册本的范例。丁秉公背记者流露,今朝该体系撑持消息、感情故事、声响助理、客服等场景,差别场景下的声响力求做到天然。

                                                                别的,丁秉公借暗示,从客岁11月到本年,微硬对该项手艺停止精益求精,调劣机能,进步计较力,从非及时转化声响到变成及时,安身细节挨磨声响量量,下了很年夜工夫。“客岁我们推出那个声响时,声响很难听,但细节另有良多提拔的潜力,好比其时语音道单语不敷好,现在曾经很天然了。我们正正在逐步天拔大声音的结果。”

                                                                
                                                              声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:12966253@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。