整理 标注每个音节发音 录入不同口音 有了丰富的“食材”,烹制好这道“菜肴”还需要“配菜”。为此,许彬彬团队做了大量的整理工作。在许彬彬的电脑里储存着大量文档。“我现在有5台电脑,10个硬盘,全都装满闽南话文件。”许彬彬说,闽南话的声母有15-18个不等,韵母有73-90个不等,声调有5-8个不等,都要逐一整理,录入系统。 别以为只是简单的标注,每个音节的发音以及发音时长,都必须详细标注下来。以“他们坐车去台北”为例,许彬彬就标注了16个音素,音素与发音时长还要逐一对应。而这只是一个句子的其中一种口音。 许彬彬告诉记者,单单是厦门地区,细微的语音差别就有十几种。“思明区鹭江街道是一种口音,厦港街道又是另外一种口音,海沧东孚街道的口音又接近漳州口音,这些都要逐一标注。”她说,系统录入的不仅仅是厦门口音,还有泉州口音、漳州口音、潮汕口音等。 建模 收集十万句日常对话 邀志愿者测试 为了让这一系统的闽南方言数据尽可能全面,洪青阳团队又历时一年,先后收集近十万句闽南话日常对话。 除了许彬彬所提供的语音资料外,测试阶段,他们还邀请了几百名志愿者参与测试,让系统“学习”不同口音的闽南话。待系统基本“学会”不同口音的闽南话后,洪青阳又给系统加大了难度——文读和白读都要会。 闽南话中存在大量多音字,有着复杂的文读白读现象,以“大学”这一词为例,就有文读和白读两种读法。该团队对闽南话语音识别采取了特定规则的发音词典标注,并用革新后的算法建立了闽南话语音识别模型。 链接 将实现闽南话与 普通话无障碍沟通 当发音速度不一、吞音等情况出现时,软件如何准确识别?系统的背后还有一位“把关人”。当遇上系统无法识别的语音时,许彬彬团队就会进行分析,把新的表达整理成文档,扩充词典和句子语料。与此同时,洪青阳团队在系统后台不断完善算法,以学习到更多口音和生僻词汇。现在,系统依旧在不断完善升级。 据了解,基于深度学习方法,他们目前正在研发闽南话合成系统,最终可以实现闽南话与普通话之间的无障碍沟通。洪青阳说,该系统预计在今年上半年上线。 |
相关阅读:
- [ 12-14]闽南话人工智能语音系统开放试用 广大市民可免费尝鲜
- [ 11-26]厦门举办青少年闽南话讲古电视大赛 从小培养讲古好苗子
- [ 11-26]180名选手童声讲古 厦门市举办青少年闽南话讲古大赛
- [ 11-25]2018年厦门市青少年闽南话讲古电视大赛落幕
- [ 04-21]用正港闽南话讲新闻 理工学院副教授黄婉彬为空军宣传片配音
打印 | 收藏 | 发给好友 【字号 大 中 小】 |