微软推出文本转真人视频工具Deepfakes Creator

微软推出了一款名为Deepfakes Creator的工具，被称为Azure AI Speech的文本到语音化身。这个工具可以通过文本输入生成逼真的会说话的真人视频。用户只需要上传想要化身模仿的人的照片，并写一个剧本，工具就能创建出逼真的人物化身视频，模拟人物说话。

不仅如此，这个工具还支持多种语言，并能进行实时问答互动。此外，Deepfakes Creator还提供了个性化语音功能，用户只需提供一分钟的语音样本，就能快速复制用户的声音，用于定制语音助手和内容配音。

项目地址:https://github.com/Azure/gen-cv/tree/main/avatar/video

为了确保合法和伦理的使用，Deepfakes Creator禁止使用预录制语音，并要求用户明确同意使用并通过注册使用特定的用例。另外，为了辨认AI合成语音，工具会在个人语音中自动添加水印，并要求用户同意Microsoft使用水印检测服务。

Deepfakes Creator还可以简化传统视频制作流程，适用于制作培训视频、产品介绍等各种内容。同时，它还可以用于构建对话代理、虚拟助手、聊天机器人等，提供自然的交互式对话。工具的内容生成工作流程包括文本分析、TTS音频合成和TTS化身视频合成，生成与声音同步的嘴唇动画。

除了提供即用型的预构建化身，Deepfakes Creator还提供可定制化的化身选项。用户可以通过上传的视频录像进行训练，定制出符合自己需求的化身。

为了方便用户使用，Azure AI Speech Studio提供了UI工具和API访问支持。Deepfakes Creator可以广泛应用于创建各类吸引人的视频和交互式应用，提高沟通和信息传达的效率。

最新资讯