一家总部位于迪拜的语音合成公司发布了一份假播客对话乔·罗根和史蒂夫·乔布斯之间的对话,以两人数字复制的真实声音为特色。它发生在“播客”的“第一集”。ai,”一个由Play建立的播客系列。Ht是一家销售语音合成服务的公司。
在采访过程中,你将首先听到罗根的声音是由语音克隆技术重新制作的。深度学习技术使人工智能模型能够准确地再现独特的声音。
为了获得预期的结果,AI模型必须首先在将要克隆的现有语音样本上进行训练。由于罗根在他的播客中有很多孤独的声音,所以他是使用深度学习模型进行人工智能语音训练的热门目标。
让这个人工智能噱头案例更值得关注的是Play。他还使用了已故苹果首席执行官史蒂夫·乔布斯的声音。此外,玩。ht表示,采访记录也是由人工智能生成的,可能使用了类似GPT-3的大型语言模型(LLM)。
“文本是通过经过微调的语言模型生成的,”写玩了。在播客上。人工智能的网站。“例如,史蒂夫·乔布斯的那集是根据他的传记和我们在网上能找到的所有他的录音训练的,所以人工智能可以准确地让他复活。”
为了与LLM的起源保持一致,19分钟的面试有一定的意义。然而,过了一段时间,虚假对话的元素开始看起来像是乔布斯热门话题的概念混搭,比如美学、突破性产品、谷歌、微软和Adobe等竞争对手,以及最初的麦金塔的成功。
例如,在采访的一个片段中,假乔布斯批评微软的方式非常接近真实乔布斯在1995年《书呆子的胜利》的著名采访中所说的话。不过,它并不是一个副本;如果你比较两者,你可以知道声音是合成的。
“这是我对微软一直存在的问题,”假乔布斯说。“在很多方面,他们都是聪明人,他们的工作做得很好,但他们从来没有品味。他们从来没有任何审美意识。”
目前尚不清楚是否允许以这种方式利用乔布斯或罗根的口头陈述,主要是为商业产品做广告。然而,尽管播客的公关噱头性质,完全假的名人播客的想法激起了我们的兴趣。
随着语音合成变得越来越普遍,而且可能无法检测,我们可以期待任何时代的媒体制品都是灵活的,可以适应任何叙事。