微软推出了一款名为Deepfakes Creator的工具,被称为Azure AI Speech的文本到语音化身。这个工具可以通过文本输入生成逼真的会说话的真人视频。用户只需要上传想要化身模仿的人的照片,并写一个剧本,工具就能创建出逼真的人物化身视频,模拟人物说话。
不仅如此,这个工具还支持多种语言,并能进行实时问答互动。此外,Deepfakes Creator还提供了个性化语音功能,用户只需提供一分钟的语音样本,就能快速复制用户的声音,用于定制语音助手和内容配音。
项目地址:https://github.com/Azure/gen-cv/tree/main/avatar/video
为了确保合法和伦理的使用,Deepfakes Creator禁止使用预录制语音,并要求用户明确同意使用并通过注册使用特定的用例。另外,为了辨认AI合成语音,工具会在个人语音中自动添加水印,并要求用户同意Microsoft使用水印检测服务。
Deepfakes Creator还可以简化传统视频制作流程,适用于制作培训视频、产品介绍等各种内容。同时,它还可以用于构建对话代理、虚拟助手、聊天机器人等,提供自然的交互式对话。工具的内容生成工作流程包括文本分析、TTS音频合成和TTS化身视频合成,生成与声音同步的嘴唇动画。
除了提供即用型的预构建化身,Deepfakes Creator还提供可定制化的化身选项。用户可以通过上传的视频录像进行训练,定制出符合自己需求的化身。
为了方便用户使用,Azure AI Speech Studio提供了UI工具和API访问支持。Deepfakes Creator可以广泛应用于创建各类吸引人的视频和交互式应用,提高沟通和信息传达的效率。