#569. 深入 xAI：三个月打造 Grok Imagine、视频生成与世界模型之争，以及视频智能体

June 3, 2026·1h 29m

Episode Description from the Publisher

📝 本期播客简介本期我们克隆了：Latent Space: Inside xAI: Building Grok Imagine in 3 Months, Videogen vs World Models, and Video Agents— Ethan He原内容更新时间：2026-06-01本期节目是一场关于视频生成、世界模型和 Video Agent 的高密度技术访谈。嘉宾 Ethan He 曾在 Nvidia 参与 Cosmos world model，后来加入 xAI，从零参与 Grok Imagine、音视频联合生成、reference video、视频延展和 world model 相关工作。他在节目中复盘了 xAI 如何在短短三个月里，从没有基础设施、没有数据、没有模型的状态，快速做出 Grok Imagine 0.9；也详细解释了视频模型从数据、caption、VAE、diffusion transformer 到 distillation 的完整训练链路。更重要的是，Ethan 提出了几个非常有判断力的观点：视频模型的很多进步，其实来自语言模型，而不是视频 diffusion 本身；world model 在他看来就是“实时、可交互、长时程的视频”；未来的 Video Agent 会像人类创作者一样，调用视频模型、图像编辑器、FFmpeg 和各种确定性工具，迭代生成真正可用于广告、创作和生产环境的视频内容。这期不仅适合想理解视频生成技术路线的人，也适合想提前看懂 AI 交互界面、生成式媒体和 Agent 未来趋势的听众。👨‍💻 本期嘉宾Ethan He，曾在 Nvidia 参与 Cosmos world model 和 Megatron-LM MoE 等工作，后加入 xAI，参与 Grok Imagine、视频生成、音视频联合生成、reference video、视频延展和 world model 相关研发。他的研究经历横跨计算机视觉、自监督学习、大规模 MoE、视频 diffusion、world model 和 LLM Agent。⏱️ 时间戳00:00 开场 & 播客简介从 Cosmos 到 xAI：三个月做出 Grok Imagine02:42 嘉宾登场：Ethan He 与 Latent Space 社区的缘起04:14 为什么离开 Nvidia：视频模型也有 scaling law，需要更大算力05:43 xAI 从零起步：三个月做出 Grok Imagine 0.906:15 快速迭代的秘密：人才、infra、compute 与低沟通成本08:23 模型质量提升的真相：很多突破来自数据和训练 pipeline 里的小 bug08:37 Coding model 如何改变研究节奏：代码更快，compute 再次成为瓶颈09:54 高压研发文化：算力昂贵，但这是一场马拉松视频模型是怎么训练出来的11:46 为什么做视频模型之前，通常要先做图像模型12:50 数据从哪里来：人工详细标注与 VLM 生成 synthetic caption14:12 训练视频模型为什么既需要配对数据，也需要无标签数据15:07 VAE / tokenizer：为什么不能直接在像素上训练17:08 Diffusion transformer：从噪声一步步去噪生成图像和视频17:27 图像模型如何 bootstrap 视频模型：语言与图像连接更密集18:24 视频压缩路线：逐帧压缩 vs 时间维度压缩18:55 为什么不用 MP4 token 直接训练：latent space 必须对模型友好20:00 实时性的代价：时间压缩节省 context，但会引入响应延迟生成式 UI 与世界模型的早期形态20:51 Flipbook：像浏览器一样探索模型想象出的网页22:31 Generative UI：从用户意图直接到像素，而不是先写代码再渲染24:09 Diffusion 前端，确定性后端：未来界面可能如何被重构25:15 人机交互的带宽：人类用语音输出，用视觉输入26:15 NeuroOS：用视频模型模拟操作系统和游戏27:52 从过拟合现有界面，到想象全新交互系统28:47 为什么视频模型能生成训练集中不存在的超自然内容视频模型的成本、加速与音视频联合生成31:05 视频模型到底有多贵：训练成本接近中等规模 LLM31:52 被低估的成本：视频存储、特征存储、IO 和 egress33:29 训练规模：数十万亿视觉 token、百亿级 active 参数34:16 推理端加速：step distillation 如何把一百步变成几步36:36 Consistency model、GAN 与少步生成的关系37:48 Grok Imagine 0.9：大规模音视频联合生成模型38:00 音频为什么难：speech 更离散，music 更连续40:25 音视频对齐：模型必须理解每一秒声音和画面的关系41:20 时间感：为什么 LLM 本身并不真正感知时间Ethan 对 World Model 的定义43:47 什么是 world model：实时、可交互、长时程的视频44:03 交互性：键盘、鼠标、语音都可以成为输入模态45:00 实时性：游戏需要毫秒级响应，数字人也要接近两百毫秒46:00 长时程：世界模型不能只生成几秒，而要持续几分钟甚至几小时47:00 视频延展：通往长时程 world model 的第一步48:00 长 context 的挑战：五秒视频就可能有五六万 token49:03 为什么用户喜欢视频延展：它是通往最终目标的中间产品Reference Video 与动态上下文管理51:24 长视频里的冗余：不是所有历史都需要一直放进 context52:01 Reference video：用角色、物体、场景作为生成条件52:46 为什么 reference 是一种“作弊”，也是一种重要机制54:34 FramePack 与动态 context selection：离当前越远，信息越压缩55:52 LLM 与视频模型共享的问题：context pruning 目前仍高度依赖 heuristic56:14 Continual learning 的可能突破：让模型自己管理上下文57:00 人类注意力的启发：不是记住一切，而是动态拉取相关信息xAI 文化与生成式视频安全58:35 xAI 被低估的地方：move fast、build、宏大目标和 first principles59:30 如何倒推三个月目标：从数据、训练、人工标注、GPU 周转时间拆解60:12 Elon Musk 的工作方式：非常 hands-on，直接给反馈61:09 Grok Voice：实时语音体验、打断能力和车载场景61:56 生成式视频安全：水印、下架和社交平台治理62:19 SynthID 的局限：论文公开后，水印也可能被反向工程63:04 AI 生成内容越来越难识别：从看手指，到看逻辑是否成立视觉智能为什么来自语言64:31 核心判断：视觉智能很大程度来自语言模型65:00</

Podzilla Summary coming soon

Get Free Summaries →

Free forever for up to 3 podcasts. No credit card required.