2024-10-27 20:58来源:本站编辑
当马克·长谷川-约翰逊(Mark Hasegawa-Johnson)梳理他最新项目的数据时,他惊喜地发现了佛罗伦萨鸡蛋的配方。他说,仔细筛选数百小时的演讲录音将会发掘出一两个宝藏。
长谷川-约翰逊领导着“语言辅助项目”,这是伊利诺斯大学厄巴纳-香槟分校的一项倡议,旨在使语音识别设备对有语言障碍的人更有用。
在该项目首次发表的研究中,研究人员要求一个自动语音识别器收听与帕金森病有关的语言障碍患者的151小时(近6天半)录音。他们的模型转录了一个由类似录音组成的新数据集,比没有听取帕金森氏症患者录音的对照模型准确率高30%。
这项研究发表在《言语、语言和听力研究》杂志上。研究中使用的语音录音可以免费提供给研究人员、非营利组织和希望改进语音识别设备的公司。
“我们的研究结果表明,一个大型的非典型语音数据库可以显著提高残疾人的语音技术,”长谷川约翰逊说,他是伊利诺斯州电子和计算机工程教授,也是该项目所在地贝克曼高等科学与技术研究所的研究员。“我期待看到其他组织如何利用这些数据使语音识别设备更具包容性。”
像智能手机和虚拟助手这样的机器使用自动语音识别从声音中获得意义,允许人们排队播放列表,口述免提信息,无缝地参与虚拟会议,并与朋友和家人进行清晰的沟通。
语音识别技术并不适用于所有人;尤其是那些患有神经运动障碍的人,比如帕金森氏症,这种疾病会导致一系列紧张、口齿不清或不协调的语言模式,统称为构音障碍。
“不幸的是,这意味着许多最需要语音控制设备的人在使用它们时可能会遇到最大的困难,”Hasegawa-Johnson说。
“我们从现有的研究中知道,如果你对某人的声音进行ASR训练,它将开始更准确地理解他们。我们的问题是:你能否训练一个自动语音识别器,让它接触一小群语言模式相似的人,从而理解帕金森症的构音障碍患者?”
Hasegawa-Johnson和他的同事招募了大约250名患有不同程度与帕金森氏症相关构音障碍的成年人。在参加这项研究之前,潜在的参与者会见了一位语言病理学家,他评估了他们的资格。
研究小组的语言病理学家克拉里昂·门德斯(Clarion Mendes)说:“许多长期与沟通障碍作斗争的人,尤其是进展中的人,可能会退出日常交流。”“他们可能会越来越少地分享自己独特的想法、需求和想法,认为他们的沟通受到了太大的影响,无法进行有意义的对话。
“这些正是我们要找的人,”她说。
选定的参与者使用他们的个人电脑和智能手机提交录音。他们按照自己的节奏工作,在看护者的选择性帮助下,重复着“设置闹钟”等老生常谈的声音命令,背诵小说中的段落,并对“请解释一下为四个人做早餐的步骤”等开放式提示发表意见。
对于后者,一位参与者列举了制作佛罗伦萨鸡蛋的步骤——荷兰酱和所有的东西——而另一位则务实地建议叫外卖。
门德斯说:“我们听到许多参与者说,参与过程不仅令人愉快,而且给了他们再次与家人沟通的信心。”“这个项目给我们的许多参与者和他们的亲人带来了希望、兴奋和活力——人类独有的品质。”
她说,研究小组咨询了帕金森病专家和社区成员,以开发与参与者生活相关的内容。提示是具体的和自发的:例如,训练语音算法来识别药物名称,可以帮助最终用户与他们的药房沟通,而随意的谈话开始模仿日常闲聊的节奏。
“我们告诉参与者:我们知道,你可以通过全力以赴让自己的演讲更清晰,但你可能已经厌倦了为了他人的利益而努力让自己被理解。试着放松,像和家人在沙发上聊天一样交流。”门德斯说。
为了评估语音算法的听力和学习能力,研究人员将样本分为三组。第一组190名参与者,即记录的151小时,训练模型。随着其表现的提高,研究人员通过将模型引入另一组较小的录音,证实该模型正在认真学习(而不仅仅是记住参与者的回答)。当模型在第二组达到最佳表现时,研究人员用测试集挑战它。
研究小组的成员平均为每位参与者手工转录400段录音,以检查模型的工作。
他们发现,在听了训练集之后,ASR系统转录了测试集的录音,单词错误率为23.69%。相比之下,一个对没有帕金森病的人的语音样本进行训练的系统转录了测试集,单词错误率为36.3%,准确率大约低30%。
测试集中几乎所有个体的错误率也有所下降。即使是说话速度异常快或口吃等不太典型的帕金森症患者,也有了适度的改善。
长谷川-约翰逊说:“看到如此显著的效果,我很兴奋。
他补充说,参与者的反馈支持了他的热情:
“我和一位对这项技术的未来感兴趣的参与者谈过,”他说。“这就是这个项目的美妙之处:看到人们对他们的智能扬声器和手机能够理解他们的可能性有多兴奋。这正是我们正在努力做的。”