一句话就能魔改视频主角,谷歌新「ai导演」引网友热议( 二 )


扩散模型 , 也是火出圈的AIGC作画神器DALL·E2的核心 。
谷歌研究人员指出 , 其实之前已有类似的“文字生成视频”AI了 , 但若仅仅在输入视频上对视频扩散模型进行微调 , 会限制运动变化的程度 。
而此AI与众不同之处在于:
团队使用了一个“混合目标” , 除了对原始目标进行微调外 , 还会对无序帧集进行微调 。
他们采用了一种深度学习中专门的注意力机制:MaskedTemporalAttention , 帮助模型专注于输入信息的特定部分 , 忽略其他无关的部分 。
——这提高了模型处理序列数据的能力 , 生成视频中的动态更多样化 , 且效果也比较自然 。
一句话就能魔改视频主角,谷歌新「ai导演」引网友热议
文章图片
在扩散模型和MaskedTemporalAttention的加持下 , 对于更换视频主角来说 , 输入其实已经被省略了——只需进行微调 , 结果的保真度也相当不错 。