百度发布DeepVoice3：半小时可学习2500种声音--机器视觉网

　　据外媒10月24日报道，继DeepVoice 2之后，百度近日推出最新语音系统DeepVoice 3，仅半小时可学习2500种声音。而对于之前的产品而言，要达到类似的目的，每个声音至少需要接受20小时的训练。

　　第一代DeepVoice语音系统在今年年初就已出现。该系统运用人工智能技术，能深入学习，可以把文本文字转换为语音。这个版本能够转换简单的短句的，声音基本接近人声，不仔细听，几乎与真人说话无法区分。该系统可以一次学习一个声音，并需要数小时的数据输入来掌握每个声音。

　　第二代系统Deep Voice 2可以学习数百种不同的语音。从每个说话者那里吸收的数据不到半个小时，但却可以实现很高的音质。该系统可以完全凭借自己的能力找到进行训练的语音之间的共同特点，不需要接受任何事先指导。

　　近日，百度推出最终版DeepVoice 3，该版本每次只需半小时就可以学习2500个声音。百度说，“能够有效地产生各种声音，能为许多不可行的事情打开了大门。例如，该系统可运用到音频书或视频游戏中，为每个角色提供独特的声音，以提高用户体验。”

　　然而，百度从DeepVoice 3展示的合成声音与初始相同，听起来不是人类的声音，而是经过人工合成的声音。对此，百度表示，如果他们的语音系统只产生一两种声音，那么这些系统就像单个扬声器一样。但是，经证实，他们的系统能够合成非常自然，类似人类的声音。

　　百度想做的是制作一个可以掌握多重口音或人物细微差别的系统。虽然目前的上限是2,500个，但研发团队表示，使用更大的数据集的未来版本可以掌握10,000种声音以上。该团队说“这是可扩展性的初步工作。目前，我们的系统已经成功地将文字转语音做到史无前例的程度。我们相信，通过使用大量高质量的数据集训练，语音识别系统的质量在不久的将来会大大增加”。