阿里首个世界模型:快乐…生蚝

张开发
2026/5/24 13:48:56 15 分钟阅读
阿里首个世界模型:快乐…生蚝
西风 发自 凹非寺量子位 | 公众号 QbitAI什么情况世界模型成果这几天扎堆上线了。就在刚刚成立恰满一个月的阿里ATHAlibaba Token Hub事业群发布全球首个主动式实时交互的世界模型产品。名也挺有趣的叫HappyOyster快乐生蚝。据官方介绍HappyOyster搭载原生多模态架构背后是支持多模态输入与音视频联合生成的流式生成世界模型核心主打漫游Wander、导演Direct、创造Create、分享Share。怎么个漫游法请看VCR输入生成滑雪场景的PromptHappyOyster立马给你造一个可交互小世界。你用WASD和上下左右方向键就能实时控制角色位移、调整镜头视角沉浸式穿梭在雪场里。那“导演”又是什么玩法导演即实时AI视频导演引擎。传统AI视频是“输入prompt→等渲染→拿到一个固定成片”。HappyOyster让用户可以在视频生成的任意节点用文字指令实时控镜头、调角色、改剧情走向。画面即时响应实现“边拍边改”至于“创造”指的是把生成体验从“生成一段视频”进化到“创造一个世界”。你不再是旁观者而是能深度参与、全程掌控的创造者。最后你亲手创建的世界还能分享让别人进来探索、二次创作。不过有一个坏消息HappyOyster现在还需要申请邀请码才能体验。但好消息是量子位已经抢先解锁这就带大家先来尝个鲜。玩起来玩起来一张图总结Wandering漫游、Directing导演这两个核心玩法先具体来看Wandering漫游模式支持文本、图片输入。你可以直接输一句Prompt造世界也能精细化控制分别设定“角色Character”和“场景Scene”还能自由切换第一人称或第三人称。我们先浅试了一个海边小镇一起来看效果让人眼前一亮的是HappyOyster生成的世界自带BGM而且不只是能生成场景——小镇里竟然还有NPC在走动代入感拉满。P.S. HappyOyster可在你探索世界的时候自动帮你录制视频在个人主页的My videos可查看。录制好的视频支持下载。目前Wandering模式分辨率480p而且探索时长目前有1分钟限制时间到了需要重新进入。我们还试了一下像素风格HappyOyster也能轻松驾驭让你直接化身像素小人。不得不提一嘴HappyOyster生成速度是真的快be like此外Gallery画廊中还有别人分享出来的很多世界也都可以点开探索比如梵高的油画世界超梦幻下面再来看一下Directing导演玩法。Directing同样支持文本、图片多模态输入。用户可调整分辨率720p、480p设定视频画面的叙事风格与情感基调Regular、Peaceful、Dramatic控制视频的运镜方式与画面稳定度Steady、Fast。一句话总结玩法你可在任意节点用prompt改变你眼前的内容改变剧情走向。举个例子男孩正在熟睡在输入框中输入“一只猫跳到了床上男孩被吵醒”下一幕直接呈现你所描述的画面咱又找着别人造的奇幻世界了一起来探索一下吧这里还有来自官方的更多展示当然HappyOyster应用并不止屏幕里的沉浸式生成和交互。在阿里ATH团队看来HappyOyster的核心能力是对开放世界状态进行持续建模、预测与响应天生就适合延伸到需要“实时感知—实时生成—实时反馈”闭环的现实场景中。比如在文旅展陈、线下娱乐、机器人训练、数字人陪伴、教育演练、智能空间交互等方向模型都可以作为一个实时演化的世界引擎与摄像头、麦克风、空间传感器、显示终端、机械装置或可穿戴设备连接根据人的位置、动作、语言和环境变化动态生成对应的视觉内容、事件反馈或交互结果。要是再和硬件系统结合HappyOyster承载的就不只是“内容生成”而是一个能被现实输入持续驱动的生成式环境系统。只能说未来的应用场景打开了。原生多模态架构与流式生成世界模型新产品发布的同时阿里ATH事业群也向我们揭秘了其背后核心技术。阿里ATH事业群是阿里今年3月16日正式成立的创新事业群。团队打出的核心目标是“创造Token、输送Token、应用Token”。ATH旗下涵盖通义实验室、MaaS业务线、千问事业部、悟空事业部及AI创新事业部从基础模型研发、模型服务平台到个人与企业端AI应用布局得明明白白。团队表示HappyOyster的核心能力源于其背后的原生多模态架构与流式生成世界模型重点突破了三大核心技术难点才实现了“实时交互、长时连贯、音画同步”的体验。第一长时世界建模解决“生成久了就错乱”的问题。HappyOyster采用长时间跨度的世界演化建模方式靠海量长视频训练数据深度学习真实世界的运行规律捕捉世界持续运行中的状态转移逻辑能稳定输出高保真、高一致性的动态场景。针对长时间生成容易出现的内容漂移、结构退化问题团队还加入了持续状态复用机制强化时序连贯性。流式生成时模型不用每一步都重建完整上下文而是通过历史注意力状态的连续传递高效继承已生成信息、渐进更新使生成始终沿既有时序语境扩展。这种方式使其减少了上下文重建带来的不稳定性在更长时间尺度上可维持稳定的场景结构与动态连贯性。第二实时交互控制响应。HappyOyster在建模初期就设计了多样的控制信号文本、Action、图像等让世界生成和实时交互深度绑定。外部指令不再只作用于初始条件而是持续影响后续的世界演化。由此模型能够在统一的时序框架下同时实现生成质量、长时一致性与实时可控性的协同优化。团队表示这一能力让模型从“被动生成内容”升级到“主动模拟世界、让用户参与演化”也为构建可交互的通用世界模拟器提供了关键技术路径。为了解决实时性训练难题HappyOyster用流式生成框架实现实时世界演化模型通过对世界状态进行高度压缩的隐式建模将高维视频与多模态信息映射为紧凑的动态latent state大幅降低单步生成的计算开销让推理能低延迟持续推进同时文本、图像与wandering指令等控制信号被设计为可在线注入的条件变量确保模型在无需重置生成过程的情况下即可实时响应外部交互。第三音视频联合生成让世界更有“沉浸感”。针对音画协同这一训练难点团队并未采用将音视频分阶段建模的思路而是采用统一的音视频生成框架在同一世界状态下同步生成视觉与听觉信号。在该机制下音频作为世界动态的一部分参与联合生成自然建立跨模态时间对齐关系同时通过共享条件约束与协同解码机制保障音画同步与语义一致。这些技术突破让HappyOyster真正区别于传统文生视频模型。正如团队所强调的过去几年生成式AI完成了“文本→图像→视频”的跃迁但始终停留在“生成像素”的阶段用户只能观看无法真正参与其中这便是横亘在用户与数字世界之间的“第四面墙”。而HappyOyster的核心目标就是打破这道墙真正的下一代生成式AI不再仅仅是把画面生成得更清晰在那之上会进化到可以生成一个完整的、可进入的世界。这个世界有空间、有物理、有因果、有角色、有故事。你可以推门而入可以亲手改写可以离开又回来也可以带朋友进去。One More Thing为啥取快乐生蚝这么个名这背后还有小巧思呢。官方解释四百年前莎士比亚在The Merry Wives of Windsor里写下一句传世之言“The world is your oyster.Open it.世界是你的生蚝等你亲手打开.”四百年后Happy Oyster让这句话第一次成为字面意义上的现实说一句话就能拥有一个完整的、可漫游、可导演、可分享的数字世界。官网链接https://www.happyoyster.cn/OverViewhttps://www.happyoyster.cn/docs一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完— 谁会代表2026年的AI龙虾爆火带动一波Agent与衍生产品浪潮。但真正值得长期关注的AI公司和产品或许不止于此。如果你正在做或见证着这些变化欢迎申报。让更多人看见你。 https://wj.qq.com/s2/25829730/09xz/一键关注 点亮星标

更多文章