全球GPU缺口超40万张！算力之困，中国大模型有解了

admin · 发表于 2023-11-20 19:17:50|来自：中国浙江湖州

新智元报道
编辑：编辑部
【新智元导读】大模型时代，玩家如何掘金？最近，这套大模型智算软件栈OGAI，竟吸引了国内几十家参与「百模大战」的企业围观。
中国企业，能否赶超OpenAI？
大模型爆火之后，许多人都在追问这样的问题。
然而，这个领域的中美差异性，决定了这一事实：美国现在的格局，未必就是中国未来的格局。
美国可能只有少数的大模型企业，而中国，或许会呈现百花齐放的新格局，并不会是只剩下少数几个大模型，其他人在它们的基础上去做应用和开发。
从十年维度来看，如今的GPT-4还只是一个baby，而今天的我们，只是刚刚打开生成式AI的一扇门而已。

在这个大模型狂飙的时代，英伟达CEO黄仁勋有一句名言，「the more you buy，the more you save！」
「如果你能将一个价值50亿美元的数据中心的训练时间缩短一半，那么节省下来的费用就超过了所有芯片的成本。」

大模型，怎样才能玩得起
但问题在于，面对如此高的门槛，究竟哪些玩家才能玩得起？
目前，大模型研发已进入万卡时代，一家企业如果想自己拥有大模型，至少需要几十亿投资。
然而，即便是买下来之后，紧接着还会面临建不了的问题。
此前的云计算是把一台机器拆分成很多容器，而现在的大模型需要多台机器集群的集中力量，在较长时间内完成海量计算任务。
如何保证低时延海量数据交换？如何让多台机器均衡计算，避免冷热不均？如果硬件出现故障，算法需要重新跑一遍，又怎么办？

瓶颈之下，算力利用率变得尤为重要

不可否认，对于大模型的研发来说，最大的挑战之一，就是对庞大的算力基础设施的需求。
然而，训练大模型的算力平台并不是算力的简单堆积，随着模型的规模越来越大，单卡算力与模型总算力需求之间存在着巨大的差异。
与此同时，虽然随着硬件的改进FLOPs的成本得到了部分改善，但大模型的持续升级使得总成本一直在增加。
目前，GPT-4、PaLM-2的算力当量，已经达到了GPT-3的数十倍，相当于上万颗业界性能领先的NVIDIA Hopper架构的GPU芯片组成的AI集群，训练超过1个月的时间。
算力平台的构建之所以这么难，是因为它不止是服务器、存储、网络等硬件设备的集成，也有诸多设备软硬件兼容性和性能调教上的know-how。
而对于企业来说，由于缺乏工程实践的经验，进一步限制了硬件计算能力的发挥。这不仅让本就匮乏的算力资源雪上加霜，更是无法快速地提升模型质量来应对狂卷的竞争。

从数据到算法再到RLHF，过程冗长

在算法开发层面，PB级数据的爬取、清洗、过滤和质检，大规模预训练的算法设计、性能优化和失效管理，都面临着重重难题。
DeepMind的研究表明，想要把一个大模型训练充分，每个参数的训练量要达到20个token。因此，当前的很多千亿规模的大模型还需要多用10倍的数据进行训练，模型性能才能达到比较好的水平。
目前，国内大模型产业数据集主要还是简体中文加上少量英文为主，数据集的单词量在100亿级。相比之下，训练GPT模型的单词量级为5700亿。也就是说，单从规模上来看就是1:57的差距。
不仅如此，从设计指令微调数据集，到优化RLHF，整个开发链十分冗长，这更需要背后有诸多工程化工具。

模型训练：周期长、效率低，断点问题严峻

另外，大模型的训练过程，也比传统的分布式训练复杂，训练周期长达数月。
而集群计算效率低、故障频发且处理复杂，会导致训练中断后不能及时恢复，从而会降低成功率，也会使训练成本居高不下。
从工程角度来看，这是一个非常复杂的流程，其中的硬件、系统、软件、驱动等等都必须相互适配，才能起跑。
期间，各个部分都需要能稳定持续运转，才能保障模型训练的效率。一旦出现问题，都会让整个训练过程停摆。
比如，Meta就曾在训练OPT-175B模型的日志中提到，几乎整个训练过程都要面对不停地重启和中断。

在训练完成到30%左右处，Meta的训练日志显示，在两个星期的时间段内因为硬件、基础设施或实验稳定性问题而重新启动了40多次！
绝大多数重新启动都是由于硬件故障以及缺乏提供足够数量的「缓冲」节点来替换坏节点的能力。通过云接口更换一台机器可能需要几个小时。

在维护日志中，Meta的训练人员记录到：
总而言之，解决基础设施问题占据了团队最后两周的大部分时间，因为这些硬件问题可能会在一天中的任何时间导致训练中断几个小时。
虽然我们充分意识到这些问题会在这种规模的训练过程中反复出现，但考虑到在2021年底之前完成一个175B模型训练全部工作时间非常紧迫，我们别无选择，只能通过不停重启的方式，看看如果没有额外的训练工具的帮助我们能走多远。
在找到一个加速重启的方案并安排了更多的人手24小时轮值维护之后，Meta依然还是要面对硬件层面的各种问题。
内部训练进度的图表显示，接下来的两周之内，最长的3次连续训练时间长度只有2.8天，2天，1.5天。

不难看出，就连强如Meta这样的团队，都会或多或少地受到上述挑战的困扰。
因此，对于还处在探索阶段的国内大模型产业来说，就更加需要一套能够保障其生产力的AI基础设施。
正如浪潮信息人工智能与高性能应用软件部AI架构师Owen ZHU所说：「以前都认为，买服务器就像买手机、买电脑一样，只要开机就能用了；但实际上随着算力需求持续变大，事情变得越来越复杂，实际上买回去也不一定能用得起来。」
OGAI：你可能要踩的坑，他们都替你踩过了
为了切实地解决这些问题，近日，浪潮信息正式发布发布了大模型智算软件栈OGAI（Open GenAI Infra）——「元脑生智」。
面对各种以大模型为核心的生成式AI开发与应用场景，OGAI都提供了全栈全流程的软件，包括集群系统环境部署、算力调度保障、大模型开发管理等。
为了充分释放智算集群的能力，OGAI在每个层次上都对性能和稳定性进行了相应的优化，包括服务器BIOS的调教、大规模集群组网性能、算力调度策略等。
同时，也融合了浪潮信息在MLPerf性能评测、服务客户实际需求、开发源大模型的实践经验。
如此一来，就可以大幅降低大模型算力系统的使用门槛、优化大模型的研发效率。无论是生产，还是应用，都得到了保障。
总之，你可能会踩的坑，浪潮信息都提前帮你踩过了。

具体而言，OGAI由5层架构组成，从L0到L4分别对应基础设施层的智算中心OS、系统环境层的PODsys、调度平台层的AIStation、模型工具层的YLink和多模纳管层的MModel。
值得注意的是，OGAI软件栈的使用非常灵活。从L0到L4层的设计和实现，都是分层的。也就是说，你并不一定要用到L0到L4整体的方案去开发大模型。
因为每一层都是分层解耦的，需要哪一层的实现或对应的功能，就只用那一层就可以了。

L0层智算中心OS：面向大模型算力服务的智能算力运管平台，满足多租户以裸金属为主的弹性AI算力运管需求。

其中，高效的裸金属服务可以在几分钟内部署规模达上千的裸金属节点，并按照需求进行扩容，能够一键获取异构计算芯片、IB、RoCE高速网络、高性能存储等环境，同时实现计算、网络和数据的隔离，确保业务的安全性。

L1层PODsys：开源、高效、兼容、易用的智算集群系统环境部署方案。

这一层可以全面覆盖AI集群的部署场景，包括系统环境，从OS、驱动到系统监控可视化、资源调度等。值得一提的是，这是浪潮信息首创的一个开源项目。
下载地址：https://podsys.ai/
PODsys集成了数十个智算集群部署所需的驱动程序、软件和其他安装包，并提供了一系列脚本工具来简化部署过程，而用户只需执行两个简单的命令就能完成整个集群的部署。
就拿模型整套流程中的一环「驱动」来说，不管是上层调优，还是底层调优。
在过去就像是开盲盒一样，对于客户来说A可能适用，而对B并非适用，由此所带来的成本是巨大的。

举个栗子，某互联网客户A在使用AI集群，在对面向推荐场景的AI大模型进行训练时，却发现服务器中的CPU到GPU之间的通信带宽和存储到服务器之间的通信带宽没法同时跑满。
带来的结果就是，模型数据不能及时从存储读取，进而导致GPU空闲和训练性能低下。
面对这一难题，客户A的算法团队用了几个月的时间也没有攻克。

浪潮信息的AI团队介入后，发现客户的场景中，大模型对数据读取IO的需求远超一般的AI模型训练情况，从而导致针对普通模型训练的服务器配置在推荐场景中出现了不适配的情况。
针对这一特殊的需求，基于自身经验，浪潮信息团队对CPU BIOS中的mps等多个选项配置进行了针对性的的修改优化，很好的解决了这一问题。
再比如在环境配置中，也会遇到一些意想不到问题。
为了满足大模型算力需求，某互联网客户B购买多台高端的AI服务器，并沿用之前的使用习惯进行了操作系统和环境的部署。
然而，在运行大模型训练任务时发现，GPU掉卡，OOM等错误频频出现，导致开发人无法正常使用设备。
触发这一故障警报的主要原因就是，客户B操作系统配置中的部分pcie相关参数和当前GPU设备的需求不兼容。
对此，浪潮信息向客户提供了正确的配置参数之后，很快解决了这个问题。
可以看出，大模型算力平台并非是简单算力堆积，还需要解决训练推理效率，系统稳定性等一系列工程问题。
就像Owen ZHU谈到的一样，当智算中心的规模从十几台服务器扩展到几百台，使用难度便会呈指数级上升。
L1层PODsys就像初始化操作系统预装的驱动程序，能够高效部署AI系统，而不用重新开发组件。
它恰恰为AI集群部署提供一个完美的解决方案，即「将工程经验总结成一套工具链式的回答。」

L2层AIStation：面向大模型开发的商业化人工智能算力调度平台。

这一层主要针对大模型训练中常见的「训练中断」难题，能够训练异常快速定位，断点自动续训。
AIStation的核心能力，可以归结为以下3个方面：
1. 在开发环境和作业管理方面
AIStation实现了计算、存储、网络等训练环境的自动化配置，同时允许用户自定义基本的超参数，只需简单几步，就能完成大模型分布式训练。
并且，AIStation还集成了主流的大模型训练框架，包括Megatron-LM、DeepSpeed、HunggingFace上的诸多开源解决方案，实现了秒级构建运行环境。
这样的优势在于，能够帮助开发者在大规模集群环境下便捷地提交分布式任务。
然后，调度系统根据分布式任务对GPU算力的需求，通过多种亲和性调度策略，大大降低构建分布式训练任务技术门槛。
比如，英伟达开发的基于PyTorch框架Megatron-LM能够在AIStation上实现快速部署，训练全程都有保障。

2. 在大规模算力调度方面
能够制定合理的作业执行计划，以最大限度地利用资源，满足训练任务的时延和吞吐需求。
AIStation优化调度系统性能，实现了上千POD极速启动和环境就绪。
另外，针对大模型训练通信要求高的场景，AIStation提供集群拓扑感知能力。通过联合优化，AIStation在千卡集群中能实现90%以上的分布式计算扩展。
比如，就拿GPT-4来说，在大约25000个A100GPU上训练90-100天，算力利用率为32%至36%。
而浪潮信息所打造的「源1.0」训练算力效率则达到了44.8%。
3. 在训练稳定保障方面
健壮性与稳定性是高效完成大模型训练的必要条件。
利用AIStation内置的监控全面的监控系统和智能运维模块，可以快速定位芯片、网卡、通讯设备异常或故障。
进一步，通过对训练任务进行暂停保持，然后从热备算力中进行自动弹性替换异常节点，最后利用健康节点进行快速checkpoint读取，让大模型断点自动续训成为可能。
比如，之前提到Meta在训练OPT-175B模型时反复遇到的训练中断问题。
AIStation就能提供一整套的解决方案，避免类似情况的发生，或者将训练中断造成的影响控制到最小。

L3层YLink：面向大模型数据治理、预训练、微调的高效工具链。

针对大模型开发的2个核心环节——数据处理和模型训练。浪潮信息在YLink中集成了大模型研发中所需的自研工具和开源工具，如数据处理工具包（Y-DataKit）、大模型训练工具包（Y-TrainKit）和大模型微调工具包（Y-FTKit）。
这些多样且完善的工程化、自动化工具，大大加速了大模型的训练和开发效率。

首先是数据的处理。
在LLM出现以前，鲜少有人能预见它背后巨大的想象力。它被视为大模型落地的入场券，军备竞赛中的护城河，AI界的战略资源。
GPT-3.5的文本语料多达45TB，而GPT-4在GPT-3和GPT-3.5训练数据集的基础上，又增加了多模态数据。
想训练出强大的大语言模型，就需要依托充足的高质量数据。数据的数量、质量、多样性乃至清洗能力，都是影响大模型性能的关键要素。
在YLink工具链中，数据生成工具DataGen、数据抽取工具FileQA、数据采集工具Gather、格式转换工具Transform、数据清洗工具Purify，大大方便了开发者的数据处理过程。
这样，数据源和元数据被采集、处理后，就被转换成模型训练所需的数据，也就是得到了「炼丹」的原材料。
在有了「足够高质量」的标注数据之后，就可以进一步为「足够稳定」的模型逻辑推理能力提供支撑了。
接下来，针对大模型的预训练过程，YLink提供了数据处理工具Gather、Transform和Purity以及基于业界主流大模型分布式训练框架NVIDIA Megatron和MS DeepSpeed的大规模分布式预训练参考流程。

ChatGPT能火爆全球，关键的原因之一，是「它能像人一样思考。这背后的原因，就是基于人类反馈的强化学习（RLHF）」。
在微调类ChatGPT模型过程中，主要会涉及三个阶段：有监督微调（SFT）、奖励模型（RM）训练和奖励模型上的近端策略优化（PPO）。
在SFT阶段，模型通过模仿人类标注的对话示例来学习通用的类人对话；在奖励模型训练过程中，模型会根据人类反馈来比较不同回复的偏好；在PPO阶段，根据奖励模型的反馈更新模型，通过探索（exploration）和利用（exploitation）发现最优策略。
同样的，对于模型微调这个阶段来说，数据质量也至关重要。
现在，有了YLink在数据和训练上提供的全方位支持，我们就可以轻松炼丹了。

L4层MModel：提供多模型接入、服务、评测等功能的纳管平台。

对于客户来说，不论是开发大模型，还是调用第三方模型再用数据微调训练，都会遇到一个问题，即不会只用到一个模型。
鉴于当前AI领域各种模型的丰富度，他们会选择把多家模型进行比对，以找到更适合自己的最优解。
而这当中需要经历一个必不可少的过程，涉及到如何管理多模型，如何下载，如何根据自身场景对模型进行自动化评测。
对此，浪潮信息提供了多模型纳管方案，其核心组件包括数据集管理、模型纳管和评测，可以方便开发者和研究人员更好地管理多版本、多类型的基础大模型与任务模型。
并且，通过多样化的评测数据集与评测任务，它可以对多个模型进行生成准确率、推理延迟、推理稳定性等指标的全面评估。
这样，开发者就可以快速部署和应用模型，并且，多模型的纳管可以让我们在保证模型权重、数据集安全的前提下，对外提供API服务。
大模型掘金的「秘密武器」
不难看出，OGAI不仅可以保障大模型训练时算力供应的可持续性，而且还充分考虑到了硬件、软件、算法、框架层面引发的训练中断、失效的问题，进而帮助企业顺利跨越大模型研发应用门槛。
这些能力和基础的背后，是来自浪潮信息在30余年深耕硬件行业的积累之上，在AI服务器产品，算力系统优化方面的先发优势。
一方面，率先布局AIGC领域的浪潮信息，是国内为数不多具备了千亿大模型工程实践经验的企业。这使得浪潮信息对于开发大模型的整套流程了如指掌。
未来客户在AIGC工程领域中要踩的坑，浪潮信息已经提前替客户踩了；必须要面对的技术难题，浪潮信息已经提前解决了。客户借助浪潮信息推出的OGAI解决方案，让自己能站在巨人的肩膀上，落地产品和服务。

基于千亿级大模型的工程实践，浪潮信息对于如何高效调度千卡规模的算力，以及保障训练任务的长期稳定运行已经有了丰富的经验。
具体来说，在训练数据层面，浪潮信息的AI团队逐步建立了完整的从公开数据爬取到数据清洗、格式转化、数据质量评估的完整流程和工具链。
通过自研海量数据过滤系统（MDFS），建立从数据采集、粗滤、质量分类、精滤的全自动化的端到端数据工作流程，通过清洗866TB海量数据，获得5TB高质量中文数据集。
在模型训练层面，浪潮信息通过对云原生的调度系统进行了改造，大幅加速其启动速度，并重点解决了RDMA网络在容器中的接入和适配优化，较好地构建了一套能够满足大模型需求的算力调度系统。
另一方面，除了亲自搭建和研发的经验之外，浪潮信息还在服务客户的过程中，解决了各种不同体量、不同赛道的企业在实践中遇到的问题。
在集群架构及软硬件层面，解决了诸多如CUDA初始化失败、GPU掉卡、 p2p Bandwidth Latency延迟过高、NCCL通信性能低，GPU direct RDMA未使能等问题。

2022年以来，浪潮信息的AI团队协助多个客户把大模型训练的GPU峰值效率从30%左右提升到50%。从而大幅加速了模型训练过程。
比如，将系统工程经验，应用于智算中心算力系统，全面优化了集群架构、高速互联网络和算力调度等等。「通过合理设计张量并行、流水并行和数据并行，精准调整模型结构和训练过程的超参数，千亿参数规模的大模型训练算力效率可达至53.5%」。
此外，网易伏羲中文预训练大模型「玉言」，也在浪潮信息的助力下登顶中文语言理解权威测评基准CLUE分类任务榜单，并在多项任务上超过人类水平。
基于丰富的经验积累，浪潮信息能够快速挖掘出客户的痛点，并将需求与现有技术进行有效整合。
最大程度地解决未来客户会的遇到的问题，满足各个赛道不同客户在AI工程领域的不同需求。而这，便是OGAI解决方案正在实现的。
大模型的发展，犹如黑暗森林里的一束光，让整个产业高效迈入AGI。
站在未来10年看如今百模争霸的时代，加快产业进度，就是核心关键。
浪潮信息高级副总裁刘军表示，浪潮信息的初心即是「探索前沿技术，让算力充分赋能大模型训练，以及背后的产业落地化」。
今时火热的AIGC产业机遇中，浪潮信息必然会留下浓墨重彩的一笔。

来源：https://view.inews.qq.com/k/20230830A04H9O00
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

全球GPU缺口超40万张！算力之困，中国大模型有解了

发表回复

精选推荐

站长推荐 /1