北京超算吴迪:做好算力选型和场景适配,为用户解决核心问题
点击图片可跳转查看报告回放
报告关键词
#算力选型 #大模型训练 #在线推理 #科学计算 #性能预测 #资源池 #弹性调度 #运维服务 #高性能计算 #模型部署 #安全隔离
报告要点回顾
01 / 在计算需求快速增长的背景下,为什么选择“算力的选型和场景的适配”作为报告主题?
吴迪:选择这个主题是因为面对多种型号的训练和推理资源时,计算前的选型至关重要。一个更高性能、更高性价比的资源能确保后期计算过程省心、高效且成本可控。同时,计算后的服务流程性能提升优化也非常重要。
02 / 算力作为底层核心生产力,在科研和大模型研发中扮演什么角色,存在哪些供需矛盾点?
吴迪:算力支撑着科学研究和大模型的研发,用户最关心的是其性能和成本。当前主要矛盾点有两个:一是随着模型参数指数增长和迭代,算力需求规模不断增大导致成本上升;二是多样化应用场景与单一资源标准化服务之间的不匹配。
03 / 针对目前多种场景下的训练和推理需求,如何解决用户的核心问题?
吴迪:核心关键是帮助用户在多种场景中做好更高性能、更高性价比的算力选型,并实现成本有效管控。为此,要梳理用户的实际需求,如大模型训练需大资源池、低延时稳定计算,线上推理则要求稳定性、弹性扩容和高效响应。
04 / 针对大模型训练、在线推理和科学计算这三种典型场景,有哪些具体需求和解决方案?
吴迪:大模型训练场景需要快速构建大资源池,保证及时、安全、稳定使用;在线推理场景则关注稳定性、高效回答问题以及资源弹性按需使用以避免利用率波动带来的浪费;科学计算场景需解决并发任务高要求和灵活弹性使用的难题。针对以上问题,北京超算提供了一种从用户需求到精准选型再到成本优化的服务框架。
05 / 如何实现精准的算力选型及后续的优化工作?
吴迪:在需求确认阶段,根据客户实际运行的场景、参数量大小等信息搭建配套环境,并明确业务目标和研究目标。接下来进行模型测试和应用运行特征分析,基于相关数据进行基础选型。最终,通过对比不同型号资源的整体性能和成本,为用户选择出更高性价比的方案,并在使用过程中动态调配资源,确保按需使用、提高效率和降低成本。
06 / 在无法逐一测试所有产品型号的情况下,如何有效预测预训练模型在新型号上的性能表现?
吴迪:通过构建性能预测模型和方法,例如以文生视频为例,先在某一款GPU卡上跑出一组性能参数数据,然后基于这些数值在其他同类型资源上做相关预测,从而得出新型号上的性能表现。这样不仅节省了大量测试成本,还能及时为用户提供最新的资源方案。
07 / 在保证预测过程可靠性的过程中,主要依赖于什么方法工具?
吴迪:我们主要依托应用运行特征分析的方法工具来保证预测过程的可靠。该工具会基于不同的作业,通过多维数据(包括CPU、GPU、内存、显存、网络存储等参数)进行智能分析,并提供科学决策所需的选型适配数据,这些数据包括峰值和均值数据,且是实时采集和分析的。
08 / 在线推理场景中,如何满足客户需求并提升效率?
吴迪:在线推理场景中,我们为一家文生视频领先企业构建了一个千卡以上的推理在线资源池,用户要求专线延迟小于20毫秒,单次推理小于20秒。通过测试发现,在模型不变的情况下,5090卡相比4090卡整体推理速度快了30%。在此过程中,我们进行了网络调优、延迟稳定性保障、弹性调度、K8S自动扩容等工作,以及端到端的交付和运维支持,极大加快了用户推理场景的落地实施。
09 / 在科研大模型场景中,你们如何满足用户的需求并保障资源高效利用?
吴迪:科研大模型场景中,我们服务于一个行业领先的研究所,为其搭建了一个支持多个研发团队高效调度和使用的弹性调度科研计算资源池。除了资源保障,我们还加速了模型发布,保障了整体资源利用率。同时,在计算服务过程中,我们通过多种型号计算基础设施、裸金属高性能集群、云主机和容器云等模式,提供从底层硬件到上层应用的全链条技术保障。
10 / 在运维服务方面,你们如何实现可观测性和高效稳定运行?
吴迪:我们构建了运维数据可视化大屏,实时展示用户任务和节点性能情况,并在出现异常时及时推送报警信息。通过与飞书等在线服务工具对接,将运营和运维数据自动推送到用户端。对于高级别问题,我们提供人工协同支持。此外,我们还加强了安全性建设,例如采用专属云、专属仓库等措施,并全面监测性能,确保从基础服务到模型部署、性能优化的全链条业务保障。
11 / 在生态建设方面,北京超算做了哪些工作来推动大模型在各行业的应用推广?
吴迪:我们最新发布的AI智算云MaaS平台集成了50余款主流开源和商用模型,方便用户调用API实现文本推理、视觉理解、图片视频生成和向量级排序等工作。通过这个平台,用户可以直接调用API使用各种模型,旨在更好地推动大模型在面向各行业的广泛应用,并与上下游产业合作,共同提升算力服务质量和大模型应用推广成效。