企业网站建设 建立作用医院英文网站建设

张小明 2025/12/29 10:39:50
企业网站建设 建立作用,医院英文网站建设,app在线生成网站,闵行区最新消息code#xff1a;UniAVGen - Unified Audio and Video Generation 介绍 解决的问题#xff1a;现在很多开源“音频-视频生成”要么是两段式#xff1a;先出视频再配音#xff08;或反过来#xff09;#xff0c;要么是“端到端”但对人声#xff08;尤其是说话、情绪、…codeUniAVGen - Unified Audio and Video Generation介绍解决的问题现在很多开源“音频-视频生成”要么是两段式先出视频再配音或反过来要么是“端到端”但对人声尤其是说话、情绪、音色很弱。两段式最大毛病是生成时模态是解耦的视频在“听不见”的环境里生成音频在“看不见”的环境里生成于是常见问题是口型对不上lip sync语气/情绪和表情/动作不一致音色/身份信息不稳这人看起来像 A说出来像 B他们要做的是一个统一模型同时支持三类关键任务图1文本 人脸参考图 → 同时生成音频和视频给定视频 → 配音dubbing给定音频 → 音频驱动视频talking / motion方法总体框架Dual-Branch Joint Synthesis双分支联合合成一条视频分支、一条音频分支两条都是 DiT 流并且强调对称设计结构一样或尽量对应这样两边的特征层级、token 语义更容易“对齐”为跨模态交互打地基。视频分支建模视频先按 16 fps 处理用预训练 VAE 编到 latentzv参考人脸图 Iref和条件视频也编码成 zvref,zvcond输入拼成[z0vref,z0vcond,ztv]文本视频描述 Tv​ 用 umT5 编码成 ev通过 cross-attn 注入训练用 Flow Matching损失是预测向量场音频分支建模音频 24kHz转 Mel 频谱作为 latent za可选参考音频 Xaref、条件音频 Xacond 也转成 zaref,zacond输入拼成[z0aref,z0acond,zta]语音内容文本 Ta 经 ConvNeXt V2 blocks 提特征 ea也通过 cross-attn 注入同样 Flow Matching损失是Asymmetric Cross-Modal InteractionATI到底“非对称”在哪论文专门用图3对比三种交互方式SGI全局互看每个 token 看对方所有 token。简单但训练难收敛因为没有显式时间对齐。STI对称时间对齐按时间段一一对应互看收敛快但上下文太窄信息不够。ATI本文时间对齐但 A→V 与 V→A 用不同策略各取所长。A2VAudio → Video 对齐器为什么要“窗口”上下文口型/表情不是只由“这一瞬间的音素”决定还受前后音素影响。做法是把 video tokens reshape 成按帧的 Hv音频也 reshape 成 Ha。对第 i 帧视频不只看 i 帧音频而是拼一个窗口然后做 frame-wise cross-attn让视频帧去 query 这个音频上下文直觉视频每帧需要“听到附近一小段”这样更容易学到口型-发音的对应。3.2 V2AVideo → Audio 对齐器为什么要“插值”音频 token 时间分辨率通常更细一个视频帧对应一段音频 token。若硬对齐会很粗。他们令每个音频 token jjj 对应视频帧 i⌊j/k⌋i\lfloor j/k\rfloori⌊j/k⌋并用相邻两帧做线性插值再让音频 token 去 query 这个“平滑的视觉上下文”直觉音频是连续流视频帧是离散采样插值能把“嘴巴从帧 i 到帧 i1 的过渡”传给音频帮助音色/情绪/身份线索更稳。一个很关键但容易忽略的训练技巧他们把交互输出的线性层 Wo 零初始化避免一开始跨模态信息太强把各自生成能力“带崩”。Face-Aware ModulationFAM为什么能帮口型对齐作者认为 joint AV generation 里真正需要强耦合的是脸部区域。让跨模态交互去处理整张图会浪费容量早期训练把背景也“搅乱”引入伪相关所以他们做了一个 动态人脸mask预测头在每个交互层输出软 mask并用人脸检测得到的 GT mask 监督更聪明的是监督权重 λm​ 逐渐衰减到 0让模型从“先盯脸学对齐”过渡到“后期放开学更全局的交互”。mask 怎么用A2V只在 mask 位置更新视频特征V2A在做插值上下文前用 mask 加权视频特征让音频主要从“脸相关”区域拿信息。MA-CFGModality-Aware CFG是在推理阶段补哪一刀传统 CFG 是单模态用“有条件输出”和“无条件输出”的差来加强条件控制。但在 joint AV 里如果只是分别对音频和视频做 CFG并不会显式加强“音→视”“视→音”的依赖。提出 MA-CFG先做一次 forward 得到“无跨模态交互”的 unimodal baseline uθa,uθv​​再用“有跨模态交互”的 uθa,v​​ 去引导两个模态可以理解成把 CFG 的“强化差分”从文本条件挪一部分给跨模态相关性。实验训练流程三阶段先单训音频分支Emilia 英文子集160k steps再端到端联合训练内部真人 AV 数据集30k steps最后做多任务训练10k steps五任务比例 4:1:1:2:2指标设计音频质量PQ、CUAudioBox-Aesthetics以及 WERWhisper-large-v3视频质量VBench 的 SC/DD/IQ跨模态一致性LSSyncNet 置信度TC、EC用 Gemini-2.5-Pro 打分0~1三次评估取平均主结果表1训练样本 1.3M vs Ovi 30.7MUniAVGen 在 TC/EC 上更强LS 也接近最强视频动态DD和画质IQ也领先或持平。消融ATI 与 FAM 是否真有用交互机制消融表2从 SGI → STI → ATIATI(双向)最好TC/EC 提升最明显。FAM 消融表3带监督的 FAM 明显好于不带衰减 λm\lambda_mλm​ 的设置最好TC/EC 最优。MA-CFG图6加了之后情绪与动作更“跟着声音走”。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站上的个人词条怎么做的如何做网页设计视频播放

LobeChat 能否集成 Sentry 错误追踪?异常捕获与告警 在今天,越来越多的开发者开始将 AI 对话能力嵌入到自己的产品中。LobeChat 作为一款开源、现代化且高度可扩展的 ChatGPT 替代方案,凭借其优雅的设计和强大的插件系统,迅速在个…

张小明 2025/12/27 1:08:35 网站建设

西樵网站制作公司怎样制作html个人网站

生成式人工智能的浪潮正引发各领域的颠覆性变革,在学术研究这一知识生产的前沿阵地,其影响尤为显著。文献检索作为科研工作的基石,在AI技术的赋能下各大学术数据库已实现智能化升级。小编特别策划"AI科研导航"系列专题,…

张小明 2025/12/27 1:08:02 网站建设

青岛响应式网站建设部设计院网站

BG3Mod管理器深度配置指南:从基础设置到高级优化 【免费下载链接】BG3ModManager A mod manager for Baldurs Gate 3. 项目地址: https://gitcode.com/gh_mirrors/bg/BG3ModManager 《博德之门3》的模组管理器是每位玩家提升游戏体验的必备工具。通过精准的路…

张小明 2025/12/27 1:06:56 网站建设

有域名有网站怎么解决办法如何做好互联网营销推广

ViGEmBus虚拟手柄驱动技术深度解析 【免费下载链接】ViGEmBus 项目地址: https://gitcode.com/gh_mirrors/vig/ViGEmBus 游戏兼容性困境与虚拟手柄解决方案 在当今游戏生态中,玩家和开发者常常面临一个令人头疼的问题:不同类型的手柄设备在PC平…

张小明 2025/12/28 9:28:11 网站建设

自适应式网站如何用ppt做网站

TranslucentTB开机自启动终极解决方案:彻底告别启动失败困扰 【免费下载链接】TranslucentTB 项目地址: https://gitcode.com/gh_mirrors/tra/TranslucentTB 在现代桌面美化工具中,TranslucentTB作为一款轻量级的Windows任务栏透明化工具&#x…

张小明 2025/12/27 1:05:49 网站建设