比对口型还牛！instructavatar：实现文字生成指定面部的表情和动作-pg官网是哪个

划重点:
🔍 最新的对话形象生成模型在实现与音频的逼真准确的唇同步方面取得了进展，但在控制和传达形象的细节表情和情感方面仍有不足。
🔍 instructavatar 提供了对情感和面部动作进行细粒度控制的文本引导方法，为生成具有情感表达的2d 虚拟形象提供了改进的互动性和泛化能力。
🔍 实验结果表明，instructavatar 在细粒度情感控制、口型同步质量和自然性方面优于现有方法，能指定面部的表情和动作。

站长之家(chinaz.com) 5月28日消息:最近，对话形象生成模型在实现与音频的逼真准确口型同步方面取得了进展，但在控制和传达形象的细节表情和情感方面仍有不足，使生成的视频缺乏生动性和可控性。

因此，北京大学的研究团队提出了一种名为 instructavatar 的新颖方法，通过自然语言界面来控制虚拟形象的情感和面部动作，从而提供了对生成的视频进行细粒度控制的能力。instructavatar可实现的效果包括：

通过自然语言输入控制头像的情绪和面部动作。
利用一个自动注释管道构建训练数据集，使得头像可以根据文本指令和音频进行生成。
生成的头像能够准确同步口型，表情自然且生动。
相比于现有方法，在细粒度情绪控制、口型同步质量和自然度方面有更好的表现。

instructavatar 的框架包括两个组件:变分自动编码器（vae）和基于扩散模型的动作生成器。vae 用于将动作信息从视频中解耦，并根据音频和指令生成器生成的动作潜变量来生成最终的视频。在推理过程中，通过迭代去噪高斯噪声来获取预测的动作潜变量，并结合用户提供的肖像，使用 vae 的解码器生成最终的视频。

通过与基线模型的定性比较，可以看出 instructavatar 在唇同步质量和情感可控性方面取得了良好的效果。此外，模型生成的结果具有增强的自然性，并有效地保留了身份特征。

值得一提的是，该模型仅基于文本输入推断说话的情感，这在直观上提出了一个更具挑战性的任务。模型支持更广泛的指令范围，超出了大多数基线模型的范围。

此外，该模型展现了精确的情感控制能力，并生成了自然的结果。instructavatar 具有细粒度的控制能力，并在领域之外的场景中表现出良好的泛化能力。

项目入口：

stability ai 推出stable artisan discord 机器人服务让用户使用sd3、svd功能

2024-05-101.7万阅读

pg官网是哪个-pg网赌游戏

it业界

热点视频

站长资讯

好物榜

更多分类

更多主题

比对口型还牛！instructavatar：实现文字生成指定面部的表情和动作-pg官网是哪个

推荐关键词

24小时热搜

大家正在看

ai日报：coze海外版支持gpt-4o；星火大模型今年7月将达gpt-4水平；domo ai上线对口型视频功能；animatediff魔法视频外网爆火

uiuc发布starcoder2-15b-instruct代码大模型无需openai数据登上性能榜单

英国ai初创公司stability ai或将面临出售

最低9美元/月！stability ai推stable assistant 可用sd3生成图片

meta被曝使用instagram等照片训练ai模型引发隐私争议

ai风投基金openai startup fund额外筹集500万美元资金

报道称：stability ai 面临资金危机，考虑出售

agent hospital：一个先进的虚拟ai医院模拟平台

meta 将推出付费版 ai 助手

stability ai 推出stable artisan discord 机器人服务让用户使用sd3、svd功能

truecaller与微软合作，允许用户克隆自己的声音，让ai帮你接听电话

meta 发布新多token预测技术，使ai模型速度提升3倍

「代理人战争」！微软、openai 、谷歌、meta用ai agent疯狂搞钱

ai日报：确认！ios18将用上chatgpt；suno又将推王炸级功能；谷歌ai搜索遭遇滑铁卢；stable assistant 可用sd3生成图片；

曝苹果ios 18集成ai：目前仍然是beta版

meta 推出新的 ai 工具，帮助品牌提升广告效果

stability ai与facebook前总裁等投资人进行筹款谈判

stack overflow 用户抗议不愿将其知识用于 ai 训练

法国ai初创公司 mistral ai 估值 60 亿美元

pg官网是哪个-pg网赌游戏

it业界

热点视频

站长资讯

好物榜

更多分类

更多主题

比对口型还牛！instructavatar：实现文字生成指定面部的表情和动作-pg官网是哪个

推荐关键词

24小时热搜

大家正在看

ai日报：coze海外版支持gpt-4o；星火大模型今年7月将达gpt-4水平；domo ai上线对口型视频功能；animatediff魔法视频外网爆火

uiuc发布starcoder2-15b-instruct代码大模型 无需openai数据登上性能榜单

英国ai初创公司stability ai或将面临出售

最低9美元/月！stability ai推stable assistant 可用sd3生成图片

meta被曝使用instagram等照片训练ai模型引发隐私争议

ai风投基金openai startup fund额外筹集500万美元资金

报道称：​stability ai 面临资金危机，考虑出售

agent hospital：一个先进的虚拟ai医院模拟平台

meta 将推出付费版 ai 助手

stability ai 推出stable artisan discord 机器人服务 让用户使用sd3、svd功能

truecaller与微软合作，允许用户克隆自己的声音，让ai帮你接听电话

meta 发布新多token预测技术，使ai模型速度提升3倍

「代理人战争」！微软、openai 、谷歌、meta用ai agent疯狂搞钱

ai日报：确认！ios18将用上chatgpt；suno又将推王炸级功能；谷歌ai搜索遭遇滑铁卢；stable assistant 可用sd3生成图片；

曝苹果ios 18集成ai：目前仍然是beta版

meta 推出新的 ai 工具，帮助品牌提升广告效果

stability ai与facebook前总裁等投资人进行筹款谈判

stack overflow 用户抗议不愿将其知识用于 ai 训练

法国ai初创公司 mistral ai 估值 60 亿美元

uiuc发布starcoder2-15b-instruct代码大模型无需openai数据登上性能榜单

报道称：stability ai 面临资金危机，考虑出售

stability ai 推出stable artisan discord 机器人服务让用户使用sd3、svd功能