(一)感知训练模块
1.1设备技术参数:
1.1.1配置12个4U机架式设备;
1.1.2单套设备配置12台NF5467M7服务器,每个服务器配置2颗Intel第五代至强铂金8系可扩展处理器8558P,共计配置24颗处理器,单颗8558P CPU的主频2.7GHz,核数48,共配置24颗Intel_8558P_Xeon_2.7GHz_48C CPU;
1.1.3单节点配置16条32G DDR5 4800MHz内存,共计6144G DDR5内存;
1.1.4单节点配置配置2块1.92TB SSD硬盘,2块7.68TB NVME SSD硬盘,共计配置24块1.92TB SSD硬盘,24块7.68TB NVME SSD硬盘;
1.1.5单节点配置1张双端口100Gb/s以太高速网卡,共计配置12张双端口100Gb/s以太高速网卡;
1.1.6配置12个GPU直通板,实现CPU-训练加速模块之间免中继连接;单节点配置8块训练加速模块,共计配置96块训练加速模块,单模块Peak FP32 74 TFlops,单模块显存24GB,支持CUDA;
1.1.7单节点配置1组2+2冗余电源,单电源3000W,共计配置12组2+2冗余电源,单电源3000W;
1.1.8配备4个数据采集模块,单个模块重量498g,设备最远数据采集距离0.45km;数据采集模块支持2种数据采集模式(非重复扫描模式与重复线性扫描模式),峰值数据采集效率每分钟1440万点(24万/秒)。
1.2感知训练模块控制软件技术参数:
1.2.1 控制软件支持统一调度元语,可以实现云(Kubernetes)和超算(Slurm)等异构集群的统一管理和调度;
1.2.2 控制软件兼容主流芯片厂家软件栈生态,实现登临、曙光、天数、沐曦4家主流芯片厂家软件栈适配;
1.2.3 控制软件具备在CANN生态和CUDA生态围绕AI加速科研的算法,提供优化和开发的能力;
1.2.4 控制软件能够实现科学计算软件与人工智能算法的交互,提升科学计算软件的运行效率;
1.2.5 具备2个完整的科研大模型训练经验,且模型参数量均超过500万级别;
1.2.6 控制软件能够支持从本地资源到5家的主流云计算及超算资源的按需动态扩容,支持设置自动扩容,资源扩容完成时间不超过5分钟;
1.2.7 控制软件能够兼容5家主流云厂商的存储及镜像功能,具备自动化的存储和镜像调度、分发能力;
1.2.8 控制软件具备在处理千卡级训练任务时的单次容错能力,训练任务可以在10分钟内快速恢复;
1.2.9 控制软件能够够通过基于检查点(checkpoint)的重启机制,实现分钟级快速存储,端到端的恢复时延控制在1分钟以内;
1.2.10 控制软件支持至少100名用户同时在线进行任务管理操作。
(二)推理执行模块
2.1设备技术参数:
2.1.1 单套设备配置2颗Intel第五代至强铂金8系可扩展处理器8558P,单颗8558P CPU的主频2.7GHz,核数48;
2.1.2 单服务器配置16条32G DDR5 4800MHz内存,共计512G DDR5内存;
2.1.3 单服务器配置2块1.92TB SSD硬盘;
2.1.4 单服务器配置2块7.68TB NVME SSD硬盘;
2.1.5 单服务器配置1张双端口100Gb/s以太高速网卡;
2.1.6 单服务器配置1个GPU直通板,实现CPU-训练加速模块之间免中继连接;配置8块训练加速模块,单模块Peak FP32 74 TFlops,单模块显存24GB,支持CUDA;
2.1.7 单服务器配置2+2冗余电源,单电源3000W。
2.2推理执行模块控制软件技术参数:
2.2.1 软件具备管理19套设备的能力;
2.2.2 软件具备万卡异构资源调度能力,可同时管理和调度通用计算(CPU)资源以及不低于5种智算资源;
2.2.3 软件支持灵活的调度策略配置,支持按照用户、镜像、规格等多维度设置策略,多集群可以按照优先级、百分比、水位线等方式进行调度;
2.2.4 软件具备灵活的工作流编排能力,单工作流可支持调度超过3000个节点;支持同一个工作流任务、不同节点任务,调度多种异构资源
2.2.5 软件支持对OSS、NAS等多种类型存储介质的调度和管理;
2.2.6 软件支持docker、singularity等类型容器,确保容器格式兼容性及灵活性;
2.2.7 软件具备在任务启动时自动执行全面的硬件检查的能力,涵盖计算、通信、存储及网络等关键硬件层面,确保所有系统组件正常运行。平台具备高级错误诊断能力,能够自动检测并排查GPU卡故障、通信中断和网络问题等各类硬件故障;
2.2.8 系统数据可用性>99.99%;
2.2.9 软件能够在30秒以内开启1000个集群节点,具备卓越的架构设计和高效的资源调度策略;
2.2.10 软件提供完善的用户维度配额调控功能,可帮助管理员精细管理用户资源使用情况;
2.2.11 软件能够支撑至少10000个任务并发执行;
2.2.12 软件能够对任务进行实时监控,任务监控数据的实时更新频率达到3秒;
2.2.13 单点故障后平均恢复时间不超过1分钟;
2.2.14 软件支持分子轨迹文件dump、lammpstrj,分子结构信息 pdb、sdf、mol、mol2文件的在线预览。
无
1
| 公告名称 | 公告内容 | 发布日期 |
|---|