IT之家6月24日消息微软日前发布新一代深度神经网络HiFiNet声码器,与微软上一代语音技术相比,由HiFiNet声码器合成的神经网络版声音质量再创新高,主要体现在发音更准确、韵律更自然、高保真效果更完美,更受客户青睐。自推出以来,被广泛应用到有声读物、在线教育、车载语音助手等领域。
IT之家获悉,HiFiNet是微软神经网络版语音合成技术中最新的声音编码器,是决定音频质量的关键因素。根据专业评估语音自然度的MOS测试结果显示,由HiFiNet声码器合成的语音音质可与用于训练的真人录音样本相媲美,并同时改善毛刺、噪音等音频质量问题,输出的音质具备更高保真度,更大程度还原真人录音。
(微软上一代声码器合成声音)
(微软HiFiNet声码器合成声音)
语音质量的优劣会直接影响收听者的感受,为提升用户收听的舒适度,在Azure语音合成系统中,神经网络声学模型基于深度学习网络,使用真人录音作为原始数据进行迭代训练。首先,提取真人录音的声学特征。然后,利用真人录音的声学特征自动生成两组音频:一组真实声波(原始录音)和一组伪波(合成声波)。最后,由鉴别器区分真实声波和伪波。随着训练次数的增多,声波生成器也会愈发“聪明”,直至生成鉴别器也无法区分的伪波,这意味着机器合成的声音已经和原始录音相差无几,从而给用户带来更贴近自然的体验。
(真人原始录音)
(微软HiFiNet合作声音)
由微软HiFiNet声码器合成的音频质量更接近真人原始录音。
▲HiFiNet声码器训练示意图
采样率越高,声音还原越真实。Azure神经网络版语音合成声学模型默认每秒钟采样24,000次(24千赫兹),为还原特殊场景中更为复杂、细微的声音内容,HiFiNet声码器每秒钟采样48,000次(48千赫兹),满足用户对语音质量的严格要求,让用户尽享高清语音体验。
▲音频采样频率与保真度对比示意图
除语音质量外,HiFiNet合成速度较之其他模型也有显著的提升,进一步提升了语音合成的实时率。据RTF(RealTimeFactor,实时率,用来测量语音合成速度的工具)测试结果显示,HiFiNet在GPU设备上运行的速度是第一代高性能声码器的3倍,在CPU设备上运行的速度是第一代高性能声码器的2倍。
目前,内置HiFiNet声码器的Azure认知服务神经网络版语音合成服务已支持超过70多个国家和地区的语言,提供超过170个自然逼真的音色供开发者选择。
有关HiFiNet及语音合成的更多内容:
关于HiFiNet
关于语音合成试用版
关于语音合成的更多资料
关于示例代码
(乡村振兴)搞农业的“老把式”用上了新科技
题:搞农业的“老把式”用上了新科技稻谷收割季节,在南京市六合区竹镇镇种粮大户张立友的稻田里,收割机、拖拉机等忙个不停,收割粳稻,播种小麦、油菜。“我是搞农业的‘老把式’了,现在请农机收割全部是通过手机下单,十分方便。”张立友说,他通过微信小程序“北斗智慧农服”填写了作业类型、面积、单价、总价、时间和...
6平方铜线能带多少瓦?6平方的铜线通过电流量是多少?
电线规格的选择对于家庭用电安全至关重要。其中,6平方铜线因其承载能力强、导电性能优异,被广泛应用于各种场合。那么,6平方铜线究竟能带多少瓦?通过的电流量又是多少呢?一、6平方铜线的承载能力首先,我们来了解一下6平方铜线的截面积。在电线的规格中,截面积决定了其载流量和能够承受的功率。一般来说,6平方铜...
常用的压敏电阻型号有哪些
压敏电阻主要参数1、残压:压敏电阻在通过规定波形的大电流时其两端出现的最高峰值电压。2、通流容量:按规定时间间隔与次数在压敏电阻上施加规定波形电流后,压敏电阻参考电压的变化率仍在规定范围内所能通过的最大电流幅值。3、泄漏电流:在参考电压的作用下,压敏电阻中流过的电流。4、额定工作电压:允许长期连续施...
长春新区重点企业巡礼——乾华牧业(吉林)有限公司:科技赋能 技术助力 闯出现代畜牧业发展新路
品种上,是国内第一个由企业自主培育的肉羊品种,填补了国内肉毛兼用型肉羊品种的空白;品牌上,“乾安羊肉”是国家地理标志保护产品,形成了从肉羊育种-商品羊饲养-加工销售的全封闭产业链;品质上,高蛋白、低脂肪、含有多种氨基酸;品宣上,与多家连锁餐饮、生鲜电商合作,广受消费者好评……经20余年的苦心培育,乾...