这是Genie 3世界模型的开源版本。真实 - 时间 +长
- 编辑:admin -这是Genie 3世界模型的开源版本。真实 - 时间 +长
作者:Zenan,Yang Wen
Genie 3和Kunlun Wanwei(权利保护)的内部开源版本使用1.8B模型来实现神圣的效果。
世界模型指导主要技术进步。
Genie 3本月初由Google DeepMind发布,由于结果令人惊讶,当天直接超过了当天Operai发射的GPT-5。
Genie 3提供了真实的时间互动和非常一致的一代,直接从“游戏屏幕到“现实世界”移动。您可以保持生产的一致性几分钟,更重要的是,您也可以实现真实的时间答案。
精灵3实现了有效性。
在AI领域,技术的发展总是非常快。在两周内,实时启动了世界开源模型。
在全国范围内创建的这个新的开源模型可以模拟复杂的建筑物,土地和玻璃反射,从而在整个物理逻辑中产生一种现实感。
或者您可以模拟大型地图大盗窃车(GTA)的摄入量,因此您可以自由探索。
上载了Temple Escape游戏的屏幕截图将使您可以使用这个世界模型启动游戏,并且与AI编译的图像将无限扩展到无限。
这是Kunlun Wanwei推出的交互式世界模型“ Matrix-Game 2.0”。它的参数仅为1.8B,可以在单个GPU中执行。生成的虚拟环境盒速度可以达到25 fps。在其中,您可以使用键盘的WASD键实时执行自由移动和透视控件,从而允许持续一分钟的互动。
最重要的是它仍然是开源(重量 +代码库),任何人都可以使用它并免费修改它,甚至加载图像以自己体验。
Matrix-Game 2.0是该行业的第一个开源音节,用于全球模型,该模型在常见情况下实时提供长序列和交互式生成。与上一条相比,它已成为定性的飞跃IOUS开源模型。它也已成为另一个吸引外部网络注意力的全国开源模型。
有人已经说过:“这是Genie 3的开源版本。”我们尽快执行实际测试。
手工测试
丢失照片并输入真实的虚拟世界
世界模型面临许多挑战,尤其是在复杂的环境,真实的时间交互和高度动态的变化方面。传统的世界模型通常取决于大量的高质量数据,这使得很难推断和响应缺乏预先建立的情况。同时,此Tmodel IPO需要庞大的计算机资源来生成和更新,并且有限的实际时间反馈效率使实施确实很难实现。
Kunlun Wanwei的Matrix-Game 2.0推出已在这一领域引起了新的进步。这种互动世界模型结合了极其自由的一代特征和实时的特征提供独特的游戏体验。
当它加载静态图像时,货物模型并根据图像生成虚拟世界。玩家可以通过箭头键或WASD键来控制虚拟世界中角色的运动,每个角色的运动实时影响环境并生成新的视频内容。
例如,该模型生成的视频显示出非常微妙的自然景观,以方向和观点的变化启动游戏屏幕,这是第三红死救赎和控制的杰作。从山上看,您会看到蛇和河流的流量。矩阵游戏2.0似乎能够理解高度的差异,并模拟流动的水的动态效应。这种微妙的代表无疑改善了现实主义和沉浸于虚拟世界。
以经典地图“ CS:GO” de_dust2为例,该模型不仅加载了现有方案,而且还显示了一个强烈的推论和互补特征。基于图像信息的其他视图,并且可以自然扩展详细信息,并确保与场景的一致性和时间的一致性相关的视频非常可靠。
Matrix-Game 2.0还显示了游戏场景(例如“ Minecraft”)的极高创造力。通过将静态元素转换为动态场景,该模型产生了无人机的空中观点,显示了山脉轮廓,山脉,露台水平,高树木和河流反射。
最近,《战地风云6》吸引了全球广泛的关注。提前订单启动后,他在短时间内就进入了PS5的畅销书清单,在Beta Beta Beta Beta期间与520,000 Steam在线用户打破了纪录。
矩阵游戏2.0它用于复制该游戏3a未发表的精细图,每个字符的动作和透视切换,可以实时激活新一代屏幕。高峰图片和身体一致性的ED确保了操作和图像的密切整合,完全证明了在高复制的交互式场景中的可能性。
矩阵游戏2.0的特征不仅限于游戏场景。实际模拟使您可以快速响应用户观点和移动的变化,并生成拟合物理法律的自然照片。
例如,它将成功复制骑自行车的初始视角。沥青路径在直线上延伸,每一侧的树木继续撤回,油漆具有强烈的细节和动态感,每幅画都模拟了真实驾驶的空间和现实。
一段时间以前,来自Google DeepMind的研究科学家Aleksander Holynski使用Google Genie3进行了“步行”和“步行” 1978年著名的绘画“苏格拉底死亡”。
这次还将有“著名的油漆漫游”,这将允许Matrix-Game 2.0生成视频对于梵高的“星空”。照片,颜色和气氛的变化。
同样,宫崎骏风格的乡村道路场景是通过模型产生的。更改方向键时,生成的图像也已更改,并显示了配置的图像。事实是不一致的,甚至模拟了树的阴影。
Dafter一系列测试,我认为Matrix的2.0游戏中有很大的技术潜力。作为一个开源项目,您可以实现虚拟生成互动和实时互动,为开发人员和游戏玩家提供新的可能性。当然,有很多改进的余量,例如,视觉保真度不一定与传统游戏研究的水平相当,并且很难完全处理复杂的互动。
但这是一个很好的开始。使用Matrix-Game 2.0,您可以看到虚拟世界和真实互动之间的边界逐渐破裂,并且下一代G艾姆斯和代理商是基于此的。
数据生成到模型架构
中央技术的积分进展
Kunlun Wanwei上周开源模型还发布了有关Matrix-Game 2.0的技术报告。
信息linkrme技术:https://github.com/skyworkai/matrix-game/blob/main/main/matrix-game-2/assets/pdf/pdf/report.pdf
最近,基于扩散模型的方法使我们能够看到交互式视频的产生可能性。但是,现有的交互式世界模型基于长期双向护理机制和长期推理程序,这严重限制了真实的时间性能,并且很难模拟真实的时间动态。
为了解决这个问题,Kunlun Wanwei提出了一种新的视觉驱动互动和互动建模解决方案,完全消除了基于语言指示的上一代模型,专注于通过视觉理解和学习物理来构建虚拟世界法律。
在Matrix -Game 2.0中,研究人员引入了一个有效的框架,设计用于实时模拟和互动,从而通过自我抑制传播算法的几个阶段生成了gragreal -time模拟的视频,以应对效率和可控性挑战。
重要组件中有三个矩阵游戏2.0型号。
适用于不切实际的电动机和GTA5环境的合适的可扩展数据生产管。这使您可以有效地生成大量的交互式视频数据。
根据以前的体系结构和培训机制,Matrix-Game 2.0可以在单个GPU NVIDIA H100中以25 fps速度以25 fps的各种场景生成高质量的微级视频。
在模型的构建过程中,Kunlun Wanwei设计并实施了全面的数据生产管,以接受交互式视频生成模型的大规模培训,并克服了键盘控制和图像的精确巧合。 ,dyn的改善友善的相互作用。要开发的数据的各种集合生产过程包括获取众所周知的虚幻引擎和GTA5游戏的模拟环境的静态和动态场景。
虚幻发动机数据生产管如下:
为了获得更具交互性和动态的场景,工程师在GTA5环境中开发了一个集成的录制系统。我使用脚本挂钩V扩展工具来捕获与相应的用户操作的同步视觉内容。此数据巧合过程收集了超过120万个视频剪辑,一般精度超过99%。
GTA5数据采集轨迹。
Kunlun Wanwei还为Matrix-Game 2.0的基本模型框架实施了一系列独特的设计。该模型来自WANX消除文本分支并添加一个动作模块。该模型仅基于视觉内容和Coranswers预测下表的图像。
第一个系统执行Space-T原始视频数据的IME压缩,图像的输入通过因果图像编码器VAE和3D剪辑作为条件输入处理。由用户提供的输入操作引导的DIT模型(扩散变压器)生成了一系列视觉隐藏空间,并通过VAE 3D解码器在视频中解码。
In a nutshell, this mechanismom prevents the semantic bias that comes with the pre -pre -pre -pre -pre -pre -pre -pre -funeral of language in place in the spatial structure and the dynamic patterns of images, which allows a more precise understanding and generation of the virtual world.
为了允许人们与生成的内容进行互动,矩阵游戏2.0系统集成了一个动作条件控制模块,该模块可以在表级别进入键盘交互和鼠标。在其中,连续的小鼠操作直接与入口的潜在表征连接,该特征是由多层PESCEPTRON(MLP)进行处理的,然后是DYNA通过自晶体同步层进行了微调调整。此外,键盘操作通过跨服务层咨询融合功能,从而为交互式操作提供了精确的控制能力。
矩阵游戏2.0基本型号框架。
最后,为了产生更长的视频并减少内容偏差,Kunlun Wanwei开发了一种自我回归扩散生成机制,以实现长期的真实时间视频集成。通过自我评估,基本的双向模型被转换为有效的自我回归变体,这使每张图片都可以根据先前的自我生成的输出而不是实际值来调节,从而解决了暴露偏见,从而大大减少了先前世界模型中常见错误积累的问题。
自我指导的因果扩散模型的训练过程的示意图。通过自我控制的生成机制,蒸馏过程对齐使用教师模型的学生模型分布。这种方法有效地抑制了错误的积累,同时保持生产质量。
实验有多有效?与Oasis世界模型相比,Matrix-Game 2.0长期相互作用,并且在生成视频方面更有效。产生数十个帧后,绿洲却大大减少,但Matrix 2.0游戏始终保持稳定。
矩阵游戏2.0和OASIS生成屏幕效果的比较。
从定量比较的角度来看,Matrix-Game 2.0是图像质量,时间一致性和控制精度的领导者,但保持灵活性和高效。
Kunlun Wanwei的新方法可以有效地减少绿洲模型完全改变样式的可耻情况。这对于实际应用非常重要。
Kunlun Wanwei
我们继续在开源社区努力工作
矩阵游戏2.0不是第一次kunlun w安威(Anwei)表现出了自己的力量。在开源字段中,该公司的名称最近以越来越多的频率出现。
仅在今年,Kunlun Wanwei包括Skywork-Reward-V2开源奖励模型,Skyreels-V2 Infinite Films生成模型,多模式推理模型SkyWork-R1V,Skywork-O1代码,代码和其他模型Skywork Swew Swew Swew Swew Swew Swew Swe Code代码代理商的Skywork-O1文本推理模型。
Kunlun Wanwei模型在Huggingface中非常受欢迎。
上周,在连续五天的TEC发布活动杂志上,Kunlun Wanwei还推出了一系列的AI模型和工具,包括Skyreels-A3视频生成模型,模型Model Matrix-Game 2.0,Skywork Unipic 2.0,Skywork Unipic 2.0,Skywork Unipic 2.0,Skywork 2.0,Skywork Deep Deep Agent V2,Mureka V7.5等。涵盖图像,音频,视频,音乐和代理商,这一系列组合打击展示了公司技术的不断加深。
AI领域中的许多新技术都达到了T的领先水平他的行业允许Kunlun Wanwei继续扩大技术实施范围,以及通过连续开源的研究界的食物。
当然,这种Avant -Garde技术的研究以及连续和启发性的发展也导致了定性变化和新方向的推出。
世界模型
进入实用阶段
Genie 3 Ofepmind发起后,许多人表示,世界模式不再是未来派的。我们发现它显示出巨大的应用潜力。 DeepMind表示希望直接通过机器人武器和化身的情报训练来直接协调世界模型产生的环境。
在许多情况下,基本的化身智能模型面临着诸如数据稀缺,收集困难和泛化难度等问题。世界模型生成的虚拟环境可能是完美的训练领域。世界模型学习物理定律和知识of事物之间的互动规则,然后进行预测和计划。探索它的机器人和自动驾驶汽车可以根据这些规则进行培训。
您可以看到,世界模型不仅可以在娱乐场景(例如游戏和虚拟人民)中发挥作用,而且还可以在真正的生产力物理上发挥作用。
随着诸如矩阵游戏2.0之类的开源技术的出现,实用世界模型的节奏将加速。
官方NINA Finance帐户
24-最新信息和财务视频的流离失所,以及扫描QR码以关注更多粉丝(Sinafinance)