科技让失去声音的她重新拥有了声音的复制品,她用手机随身携带

(SeaPRwire) –   普罗维登斯,罗得岛州——去年夏天之前,亚历克西斯“莱克西”博根有一种热情洋溢的声音。

她喜欢在车里大声唱泰勒·斯威夫特和扎克·布莱恩的情歌。她总是笑个不停——即使是在幼儿园里管束调皮的小朋友,或与朋友在后院的篝火旁讨论政治。高中时,她是合唱团的女高音。

然后那个声音就消失了。

去年8月,医生移除了她脑后生长的致命肿瘤。一个月后呼吸管拔出时,博根吞咽困难,说出“你好”对父母来说也很吃力。数月的康复治疗有所帮助,但她的语言能力仍受影响。朋友、陌生人甚至自己的家人都很难听懂她想说什么。

今年4月,21岁的她重新获得了当年的声音。不是真实的,而是通过一个能在手机应用程序中调用的AI声音克隆技术生成的。这个人工但非常逼真的合成声音是根据博根高中时期为学校项目录制的一段15秒烹饪视频中她的青春声音“训练”出来的。现在,这个应用程序可以将她输入的任何几个单词或短句念出来。

“你好,请给我一杯大号焦糖燕麦牛奶摇摆浓缩咖啡,”博根用手机在星巴克 drive-thru窗口外说。

OpenAI公司快速发展的AI声音克隆技术确实可能助长电话诈骗,破坏社会秩序,违背从未同意过的人(生前或死后)的尊严。

它曾被用来在新罕布什尔州向选民发出模仿拜登总统的录音。在马里兰州,有人用AI技术生成校长的声音,指控该校体育主任说了种族主义言论。

但博根和罗得岛州立医院集团的一支医生团队认为,他们找到了一个值得的应用场景。博根是首个,也是唯一一个有类似病情的人,能够利用OpenAI的新声音引擎重建失去的声音。一些其他AI供应商,如创业公司ElevenLabs,也曾试验过类似技术帮助语言障碍和失语病人——包括一名现在用声音克隆在法庭上工作的律师。

“我们希望莱克西可以开创先河,随着技术的发展,”布朗大学医学院神经外科住院医生罗哈伊德·阿里说。数以百万计因中风、喉癌或神经退行性疾病导致语言障碍的人可能也会受益。

“我们应该意识到风险,但不能忘记病人和社会利益,”另一名住院医生法蒂玛·米尔扎说。“我们能帮助莱克西重新获得真实的声音,让她用最贴近自己的方式表达自己。”

米尔扎和阿里夫妇之前曾在Lifespan医院集团利用ChatGPT简化病人同意书的研究项目引起OpenAI的注意。这家旧金山公司在今年初寻找AI声音生成器在医疗领域的应用时主动联系了他们。

当时博根正从手术中缓慢康复。去年夏天,头痛、视力模糊和一边脸下垂引起了普罗维登斯儿童医院的警觉。检查发现一个大小如高尔夫球的血管瘤压迫脑干和周围血管以及颅神经。

“控制出血并成功取出肿瘤是一场战斗,”儿科神经外科医生科斯坦蒂娜·斯沃科斯说。

10小时的手术加上肿瘤的位置和严重程度损害了博根的舌头肌肉和声带,影响了她的进食和语言能力。

“失去声音时,我感觉自己的一部分个性也被夺走了,”博根说。

今年,她的营养管拔除。语言治疗继续进行,让她在安静环境下能够清晰表达,但没有迹象表明她会恢复原有声音的流利程度。

“有一段时间,我开始忘记自己原来的声音是什么样的,”博根说。“我已经习惯现在的声音了。”

每当电话响起,她都会把手机递给母亲接听。去餐厅吃饭时,她觉得自己给朋友带来困扰。她的父亲听力有损,也难以理解她说的话。

回到医院,医生开始寻找第一个试验对象,尝试使用OpenAI的技术。

“斯沃科斯医生第一个想到的人就是莱克西,”阿里说。“我们联系莱克西,询问她是否愿意试试,当时我们不知道她会如何回应。她很乐意尝试,看看效果如何。”

博根不得不回溯几年,找到一个适当的录音作为“训练”AI系统的声音样本。是她高中时为学校项目录制的一段15秒烹饪视频。

她的医生故意只提供了15秒的片段。视频中的其他部分因厨房噪音不太适合。OpenAI也只需要这么短的样本,比以前的技术要好很多。

他们也知道,对于那些没有声音样本上传到网络的患者来说,15秒的语音留言可能是唯一的资源。

第一次测试时,每个人都惊呆了声音克隆的质量。偶尔的错误——发音错误或语调不对——大多难以察觉。4月,医生给博根提供了一个定制手机应用,只有她能使用。

“每次听到她的声音,我都很难控制情绪,”博根的母亲帕梅拉·博根说,眼中含着泪水。

“我觉得能重新拥有当年的声音很棒,”莱克西·博根说,这也“在某种程度上恢复了事故前的自信心”。

她每天大约使用40次这个应用,并提供反馈以帮助未来的病人。她最初的实验之一是用它和幼儿园的孩子们说话。她输入“哈哈哈哈”,没想到声音听起来就像当年的笑声。

她在塔吉特和马歇尔斯用它询问商品位置。这也帮助她重新联系上父亲。用它下单快餐也更方便了。

博根的医生开始克隆其他罗得岛州患者愿意提供的声音,希望将这项技术带到全球各地医院。OpenAI表示,在扩大Voice Engine应用范围时会采取慎重态度,这项技术现在还未公开提供。

许多小型AI初创公司已经开始销售声音克隆服务,或使其更广泛可用。大多数声音生成供应商表示禁止假冒或滥用,但在如何执行使用条款上存在差异。

“我们想确保声音样本的提供者在持续同意的基础上提供声音,”OpenAI产品负责人杰夫·哈里斯说。“我们不希望它被用于政治领域。所以我们采取的方法是仅限于少数机构使用这项技术。”

哈里斯说,OpenAI下一步计划开发一个安全的“声音验证”工具,让用户只能复制自己的声音。“但对于像莱克西这样突然失语的患者来说,这可能会限制使用,”他说。“所以我们认为,特别是与医疗机构合作,需要建立高度信任关系,给予更大程度的使用权限。”

博根通过关注如何帮助其他语言障碍更重病人给医生留下深刻印象。

“她在整个过程中都在考虑如何改进这项技术,”米尔扎说。“她给我们带来很大启发。”

目前,她还需要操作手机才能发出声音。但医生相信,随着技术的发展,这项技术将给更多人带来帮助。

本文由第三方内容提供商提供。SeaPRwire (https://www.seaprwire.com/)对此不作任何保证或陈述。

分类: 头条新闻,日常新闻

SeaPRwire为公司和机构提供全球新闻稿发布,覆盖超过6,500个媒体库、86,000名编辑和记者,以及350万以上终端桌面和手机App。SeaPRwire支持英、日、德、韩、法、俄、印尼、马来、越南、中文等多种语言新闻稿发布。