语音引擎是什么？语音引擎可以应用在哪里？

2024-6-5 9:33

OpenAI又带来生成式AI领域的新成果，揭露一款只要15秒语音素材，就能生成与本尊相差无几声音的Voice Engine（声音引擎）。

OpenAI推新技术声音引擎，语音引擎是什么？

继前阵子端出能以假乱真生成写实影片的AI工具Sora后，OpenAI再次端出了新的研究成果，揭露一款只要短短15秒语音素材，就能生成任何与本人声音极为相似音讯的新工具。这能轻松「帮别人说话」的技术，也让他们决定在正式推出前，要好好思考如何避免潜在风险。

根据OpenAI在官网上揭露的讯息，这项技术名为「语音引擎」（Voice Engine），原先主要是用于文字转语音技术及ChatGPT朗读功能中的预设语音，提供系统约15秒的材料后，便可以让AI使用你想要的声音念出输入的各种文本。 OpenAI也在官网上提供了素材与生成结果的对照音档。

为什么OpenAI小心翼翼测试？

OpenAI表示，他们想要进一步了解这项技术的应用潜力，但也深知语音生成一旦遭到滥用，后果将不堪设想，于是从去年底开始，他们决定与一小部分的合作伙伴进行私下测试。目前获得许可的开发者包括教育科技公司Age of Learning、AI影片创作平台HeyGen、医疗软体开发商Dimagi等公司，目前只有约10间公司能够测试这项技术。

所有获得许可的合作伙伴都必须遵守其政策，代表不得以此技术冒用他人或组织身分，并且语音素材的提供者必须明确知道声音用途，同时需要告知听众这些声音是AI生成的，而非真人。

与2月揭露的影像生成AI Sora相同，OpenAI担心这些以假乱真的技术可能遭到滥用，正与合作伙伴积极测试并寻找对策。图/ OpenAI

「基于我们对AI的态度以及承诺，我们选择提供预览但不广泛发布这项技术。」OpenAI表示，他们希望Voice Engine这次预览能够突显其潜力，也能促进社会能够拥有更强大的抵御能力，面对愈来愈逼真的生成式AI技术。

语音引擎可以应用在哪里？

至于透过与合作伙伴的测试，目前OpenAI发掘了哪些应用可能性？ OpenAI也在官网上提供一些例子：

1. 语音朗读功能：可以用更自然、有情感的声音为儿童或不看书的人提供语音教学内容，让更广泛的族群能够用更轻松的方式，吸收书本内的知识。

2. 翻译影片或Podcast：创作者可以输入声音，为自己的影片生成众多语言版本，以接触到更多的潜在受众，并且在翻译时会保留母语口音。

3. 为偏远地区建立沟通桥梁：能够为偏远地区的人们提供各种即时的咨询服务，甚至是使用一些当地非正式语言进行互动式的问答。

4. 协助失声患者：让无法说话的障碍人士透过语音引擎，依然能够以语音沟通，并选择最适合自己的自然声音。目前还有研究团队测试如何利用这项技术为失语症患者提供协助。

语音引擎有哪些风险？ OpenAI怎么防范？

OpenAI表示，他们非常了解这项技术可能遭到恶意使用的可能性，正在与政府、媒体、娱乐、教育等各个领域的国内外合作伙伴一同努力，并积极接纳他们提供的回馈。

根据《Wired》报导，AI生成的逼真语言甚至得以通过银行的语音认证功能，诈骗集团也可能利用这项工具冒用亲人声音，诱使他人付款或转帐。尤其美国总统大选即将在2024年11月登场，针对政客的AI攻击更是层出不穷。

今年初，美国总统拜登的声音便被冒用在一通AI生成、呼吁选民不要参加投票的电话录音中。图/ YouTube

例如今年初，美国政府拜登的声音就遭到冒用，在捏造的电话语音中呼吁选民不要参加初选投票，也让白宫团队出面澄清这并非拜登总统的录音，是有心人士刻意破坏选举。

为了防范AI语音技术的滥用，OpenAI目前除了在使用政策上进行规范外，还实施了一套安全措施，包括：为所有生成内容添加浮水印，追踪所有生成内容的使用方式，同时还会推出禁止名单，防止部分公众人物、知名人士的声音遭到利用。