深圳市罗湖区人民政府

知识科普:Seaweed-7B视频生成模型

来源:罗湖区桂园街道办事处 发布时间:2025-05-26

扫一扫在手机上打开当前页

  2025年4月,字节跳动发布的Seaweed-7B视频生成模型在AI领域引发震动。这款仅70亿参数的模型以低成本、高效率实现了音视频同步生成、多镜头叙事等高阶功能,其核心架构采用变分自编码器(VAE)与扩散变换器(DiT)的混合设计:VAE将像素压缩到潜在空间,提升计算效率;DiT通过对抗后训练优化生成质量,单次推理即可生成2秒的720p视频,速度比同类模型快62倍。其突破性在于多模态生成能力——用户输入文本或图片后,模型不仅能生成动态视频,还能同步合成与画面匹配的音频,例如虚拟主播的唇部动作与语音节奏高度一致,甚至能根据背景音乐生成舞蹈动作。技术团队通过合成CGI视频的后训练强化了物理一致性,使得复杂动作(如人物转身、物体碰撞)更自然,同时采用分块打包(Patch n’ Pack)技术支持不同宽高比的视频联合训练,确保多镜头切换时角色、场景风格连贯。在应用层面,Seaweed-7B已通过即梦AI平台开放试用,电商品牌可快速生成产品演示视频,教育机构能制作沉浸式动画课程,而影视团队则利用其多镜头叙事功能构建短剧分镜脚本。与OpenAI的Sora相比,Seaweed-7B仅消耗66.5万H100 GPU小时(约为Meta同类模型资源的1/3),却在人类评估中胜率达58%,超越HunyuanVideo(43%)和Sora(36%)。这一技术突破不仅降低了视频创作门槛,更通过开源潜力激发全球开发者的创新热潮,标志着AI视频生成从“单一模态”向“全感官交互”的跃迁。


知识图谱

相关信息和服务

当前展示专题专栏信息类别内容 返回

点击标签名称查看更多信息