OpenAI又带来生成式AI领域的新成果,揭露一款只要15秒语音素材,就能生成与本尊相差无几声音的Voice Engine(声音引擎)。
OpenAI推新技术声音引擎,语音引擎是什么?
继前阵子端出能以假乱真生成写实影片的AI工具Sora后,OpenAI再次端出了新的研究成果,揭露一款只要短短15秒语音素材,就能生成任何与本人声音极为相似音讯的新工具。这能轻松「帮别人说话」的技术,也让他们决定在正式推出前,要好好思考如何避免潜在风险。
根据OpenAI在官网上揭露的讯息,这项技术名为「语音引擎」(Voice Engine),原先主要是用于文字转语音技术及ChatGPT朗读功能中的预设语音,提供系统约15秒的材料后,便可以让AI使用你想要的声音念出输入的各种文本。 OpenAI也在官网上提供了素材与生成结果的对照音档。
为什么OpenAI小心翼翼测试?
OpenAI表示,他们想要进一步了解这项技术的应用潜力,但也深知语音生成一旦遭到滥用,后果将不堪设想,于是从去年底开始,他们决定与一小部分的合作伙伴进行私下测试。目前获得许可的开发者包括教育科技公司Age of Learning、AI影片创作平台HeyGen、医疗软体开发商Dimagi等公司,目前只有约10间公司能够测试这项技术。
所有获得许可的合作伙伴都必须遵守其政策,代表不得以此技术冒用他人或组织身分,并且语音素材的提供者必须明确知道声音用途,同时需要告知听众这些声音是AI生成的,而非真人。
与2月揭露的影像生成AI Sora相同,OpenAI担心这些以假乱真的技术可能遭到滥用,正与合作伙伴积极测试并寻找对策。图/ OpenAI
「基于我们对AI的态度以及承诺,我们选择提供预览但不广泛发布这项技术。」OpenAI表示,他们希望Voice Engine这次预览能够突显其潜力,也能促进社会能够拥有更强大的抵御能力,面对愈来愈逼真的生成式AI技术。
语音引擎可以应用在哪里?
至于透过与合作伙伴的测试,目前OpenAI发掘了哪些应用可能性? OpenAI也在官网上提供一些例子:
1. 语音朗读功能:可以用更自然、有情感的声音为儿童或不看书的人提供语音教学内容,让更广泛的族群能够用更轻松的方式,吸收书本内的知识。
2. 翻译影片或Podcast:创作者可以输入声音,为自己的影片生成众多语言版本,以接触到更多的潜在受众,并且在翻译时会保留母语口音。
3. 为偏远地区建立沟通桥梁:能够为偏远地区的人们提供各种即时的咨询服务,甚至是使用一些当地非正式语言进行互动式的问答。
4. 协助失声患者:让无法说话的障碍人士透过语音引擎,依然能够以语音沟通,并选择最适合自己的自然声音。目前还有研究团队测试如何利用这项技术为失语症患者提供协助。
语音引擎有哪些风险? OpenAI怎么防范?
OpenAI表示,他们非常了解这项技术可能遭到恶意使用的可能性,正在与政府、媒体、娱乐、教育等各个领域的国内外合作伙伴一同努力,并积极接纳他们提供的回馈。
根据《Wired》报导,AI生成的逼真语言甚至得以通过银行的语音认证功能,诈骗集团也可能利用这项工具冒用亲人声音,诱使他人付款或转帐。尤其美国总统大选即将在2024年11月登场,针对政客的AI攻击更是层出不穷。
今年初,美国总统拜登的声音便被冒用在一通AI生成、呼吁选民不要参加投票的电话录音中。图/ YouTube
例如今年初,美国政府拜登的声音就遭到冒用,在捏造的电话语音中呼吁选民不要参加初选投票,也让白宫团队出面澄清这并非拜登总统的录音,是有心人士刻意破坏选举。
为了防范AI语音技术的滥用,OpenAI目前除了在使用政策上进行规范外,还实施了一套安全措施,包括:为所有生成内容添加浮水印,追踪所有生成内容的使用方式,同时还会推出禁止名单,防止部分公众人物、知名人士的声音遭到利用。