记录虚幻精彩瞬间
洞察科技前沿资讯

做仿真的人,都懂一种“痛”——任务扎堆时,只能排队。

当你把一个包含数千实体的大规模想定提交给引擎,盯着进度条像蜗牛一样挪动,那种心急却无能为力的感觉,几乎每个仿真工程师都经历过。传统的单机仿真,就像只有一个窗口的银行,队伍再长,也得等前一个人办完业务。算力不够,硬件来凑?但CPU的摩尔定律早已放缓,堆配置的边际效应越来越低。

跑起来太慢,跑不完更糟。

UnSim Cloud 跳出传统单机仿真的性能枷锁,以云原生分布式调度重构仿真算力逻辑,从 单台机器硬扛计算升级为 全集群算力协同作战,不止实现仿真顺利运行,更实现算力按需分配、效率跨越式提升。

一、告别“单兵作战”:让整个集群为你工作

UnSim Cloud的世界里,仿真引擎不再是绑定某台物理机上的“孤岛”。我们将后台服务器集群的所有CPU/GPU资源,抽象成了一个绝大的“算力资源池”。

基于容器化技术(Docker),每一个仿真引擎节点都是一个标准化的、可以随时出生销毁的容器实例。它们安静地待命,随时准备接受任务。当一个新的服务器节点加入集群,容器化的引擎会自动注册到平台服务中心,调度系统瞬间识别并将其纳入全局资源池。算力紧张时,快速扩容;仿真结束后,闲置资源自动回收。集群可以在 3 节点的小规模测试环境与上百节点的大型战役推演环境之间灵活切换,兼容全层级的仿真场景。

这一切的背后,是一套基于 Master-Worker 主从微服务架构 搭建的调度体系。它围绕三个核心能力展开,以分层式塔式架构为支撑彻底摆脱了人工手动分配算力的传统模式。

image

分布式仿真架构

 

1. 多引擎节点自动发现与扩展

传统方式下,新增一台计算服务器,需要手动配置 IP、安装环境、对接通信,往往耗费半天时间。而在 UnSim Cloud 中,节点上线即被自动发现,容器化引擎一键部署、自动注册。调度系统能够快速识别新算力,并将其纳入任务分发的候选列表。

这意味着,当用户面临一场超大规模的联合作战推演时,可以动态扩容至上百个引擎节点协同计算;而当任务结束,这些节点又可以在几分钟内缩容,把资源释放给其他任务。弹性,不再是云原生应用的专利,而是仿真平台的标配

2. 仿真任务自动 / 手动双模式分发

任务来了,交给谁?UnSim Cloud 的调度器提供了两种灵活的选择。

自动分发:调度系统会根据想定规模、模型算力消耗等特征,自动做出最优决策。轻量化的战术仿真,分配给普通 CPU 节点;高负载的物理场解算或三维渲染,自动调度到 GPU 异构算力节点。对于可以并行拆分的任务,调度器还会将大批量子任务分发到多个空闲节点上同时执行,将串行等待变成并行冲刺

手动分发:在特定场景下,也由用户说了算。例如半实物对接、定点调试、固定席位联演等,要求某个仿真任务必须运行在某台特定的物理机上。UnSim Cloud 支持用户手动绑定任务至指定的引擎节点,满足定制化部署需求。两种模式并存,既保证了自动化效率,也保留了人工干预的灵活性。

3. 引擎节点状态实时监控

调度器做决策的依据是每个节点实时的健康状态

平台统一汇总全部引擎的运行数据,在可视化看板上清晰区分 运行、暂停、空闲、异常 四种节点状态。空闲节点持续待命,随时承接新任务;故障节点则会被自动隔离,并触发任务迁移该节点上未完成的仿真任务会自动转移至其他健康节点继续运行,保障长时间推演任务不会因单点硬件故障而前功尽弃。

用户可以随时看到:是哪个节点跑得最快,哪个节点温度偏高需要休息,哪个节点正在处理最复杂的解算。这种透明性,让集群调度不再是黑盒,而是可观测、可干预的智能系统。

4. 引擎之间的高性能、高吞吐数据通道

分布式引擎落地运行的核心基石,在于科学化任务调度分配、低时延实时任务调度执行、高并发高速数据互通三大能力。相较于通用分布式架构,分布式仿真引擎业务场景具备特殊性:系统内部承载海量仿真实体、装备部件、作战编队等多维度仿真单元,常态化产生实体间交互、部件联动、编队协同作战、多源数据融合、跨节点情报同步、指令交互等密集型数据流转与协同计算任务,海量异构数据高频交互、多主体实时协同成为制约引擎仿真精度与运行效率的关键瓶颈。在此背景下,高性能、高吞吐专用数据传输通道应运而生,其设计初衷便是针对性破解分布式仿真场景下大规模协同交互、海量数据交换的痛点,依托专用传输架构打通各仿真节点的数据链路,保障全场景数据可靠收发、实时共享,支撑多实体、多编队跨节点高效协同仿真,从底层通信层面筑牢分布式仿真引擎高性能运行底座。

二、底层技术拆解:调度器如何“防摸鱼”?

实现上述能力的关键,在于我们设计的 两级调度机制 精细化的资源监控。整套调度架构依托两大云原生技术落地:容器化部署与全维度资源监控。

1. Docker 容器化引擎节点 + 动态配置

UnSim Cloud 将所有仿真引擎以及外部模型,都封装在独立的 Docker 容器中。每个容器都是一个沙箱,互不干扰。C++PythonMatlab 等各类异构模型可以在同一台宿主机上和平共处,彻底解决了依赖报错问题

更重要的是,统一镜像可以跨 x86 ARM 异构硬件部署,配合动态配置中心,无需重新打包镜像即可在线修改引擎的运行参数。

2.全维度资源监控与智能调度策略

调度器必须基于真实的数据做决策。我们部署了 Prometheus 等监控组件,实时采集每个节点的以下指标:

l CPU 使用率 & 内存占用

l 硬件温度(防止过热降频成为性能瓶颈)

l 网络延迟与带宽

l 磁盘 I/O

这些数据不仅接入监控看板,更直接喂给调度算法。平台根据实时指标,自适应调整调度规则:

l 当某个节点的硬件温度或负载超标时,调度器停止向其分配新任务,让它冷却下来。

l 低负载的空闲节点,会自动接管积压的排队任务,实现负载均衡。

l 针对不同运行模式,调度器会启用不同的策略:实时模式下采用滞后保护,优先保障人机交互流畅;超实时模式下启用全局时间屏障,强制快节点等待慢节点,严格保证事件顺序和结果可复现。

三、谁最适用于这种“全员加速”

依托灵活的分布式调度架构,UnSim Cloud 精准匹配三大类有大规模仿真诉求的用户群体,针对性解决不同场景算力痛点。

1. 军工科研院所、联合作战仿真团队日常需要开展多席位人在回路 LVC 虚实演习、数万实体体系对抗推演,还要对接雷达、通信等实装设备开展分布式半实物仿真,分布式多引擎架构可支撑广域跨节点协同运算,打通实装设备与数字仿真的数据链路。

2. 各类装备研发与试验设计团队在装备定型阶段需要开展 DOE 正交试验、海量参数蒙特卡洛遍历寻优,单次试验动辄生成上万组仿真样本,依靠单机需要数周完成的试验,借助集群并行调度可压缩至数小时落地,同时平台自动汇总多节点试验数据,省去人工整理数据的冗余工作。

3. 仿真技术研发企业与技术团队在硬件成本日趋走高的行业环境下,用户希望最大化硬件投入回报率,通过资源池化与弹性伸缩,避免高价 GPU、服务器长期闲置,用更少硬件资源承接更多仿真项目。

四、开源时代的算力自由

值得一提的是,我们推出的UnSim Cloud2.0 开源版完整保留节点自动发现、任务智能分发、全节点状态监控全套分布式调度核心能力,任何功能删减。 

这意味着:

l 用户可以按需自由横向扩容集群节点

l 小型研发团队可以用 3~5 个节点快速搭建私有仿真环境

l 大型项目则可以按需扩展至上百个计算节点,容器开箱即用,低成本落地分布式仿真架构。

image

(开源版引擎启动界面)

五、结语

仿真的核心目标从来不止是 让模型顺利跑起来,而是高效、低成本、高可靠完成大批量推演与试验。

UnSim Cloud 所做的,就是依托云原生多引擎调度架构,打破单机算力瓶颈,构建一个足够结实的分布式地基和一个足够聪明的包工头(调度器)。我们推动仿真行业从勉强运行走向高效集约化算力使用,让用户能够专注于更有价值的业务逻辑,而不是在任务扎堆中焦虑地等待进度条走完。

用户的每一个引擎节点都跑起来,千万别摸鱼 这就是 UnSim Cloud 想带给用户的最大价值。