|
英伟达在生成式AI领域越来越具有统治力,但对手仍前赴后继,持续挑战英伟达正在快速形成的AI芯片帝国。
最近,谷歌在2023谷歌大会上发布最新一代生成式AI芯片“谷歌Cloud TPU v5e”。这是一款专为重大模型而生的AI加速器。
与前代产品Cloud TPU v4相比,就成本而言降低了50%,就是在每块美元的花费中,TPU v5e 提供高达2倍的训练性能和2.5倍的推理性能。
但英伟达的AGI芯片霸权很难瞬间被动摇,因此谷歌的目标与英伟达不同:谷歌正在试图创建一整套AGI生态开发体系,这是远比英伟达的AI芯片霸权更具野心的市场定位。
谷歌能成功吗?
TPU v5e:专为生成式AI而生
谷歌在8月30日举办的Google Cloud Next 2023大会上,宣布了整套产品更新信息。其中,谷歌推出的AI加速器Cloud TPU v5e被认为是业界向英伟达AI芯片霸权发起的最新一轮冲锋。比谷歌稍早的是8月28日IBM推出的模拟人脑的AI芯片。
TPU,英文全称“Tensor Processing Unit”,简称张量处理器,是谷歌为机器学习(ML)定制的专用芯片(ASIC),专为谷歌的深度学习框架TensorFlow设计。
所谓ASIC,即专用芯片(Application-Specific Integrated Circuit),是指依产品需求不同而定制的特殊规格芯片;与此对应,非定制芯片则是应用特定标准产品的芯片。
与图形处理器(GPU)相比,TPU采用低精度(8位)计算,以降低每步操作使用的晶体管数量。
降低精度对深度学习的准确度影响很小,但却可以大幅降低功耗、加快运算速度。同时,TPU使用了脉动阵列的设计,用来优化矩阵乘法与卷积运算,减少I/O操作。此外,TPU还采用了更大的片上内存,以此减少对DRAM的访问,从而更大程度地提升性能。
2016年,谷歌在其I/O年会上,首次公布TPU。同年推出首代TPU,2021年发布第四代TPU,2022年提供给开发者。
云TPU(Cloud TPU)是一项谷歌云服务,适合训练需要做的海量矩阵计算的大型复杂深度学习模型,例如大语言模型、蛋白质折叠建模和药物研发等,帮助企业在实现AI工作负载时,节省资金和时间。
时至今日,像谷歌这样的技术公司,推出AI芯片,必然不会忽视LLM推理与训练的应用需求。Cloud TPU v5e正是如此。
但是,这款AI加速器尽管也是为专用于训练与推理所需的成本效益和性能而设计,但其训练规模却非超大型,而是中大型。
Cloud TPU v5e的技术路线,看上去有点像中国小米公司最初的品牌定位:强调性价比。这款最新AI加速器与其前代产品Cloud TPU v4相比,开发侧重是效率优先,成本下降50%,但训练性能提升2倍,推理能力提升2.5倍。
因此,Cloud TPU v5e被谷歌称为“超级计算机”,平衡了性能、灵活性和效率,允许多达256个芯片互连,聚合带宽超过400 Tb/s和100 petaOps的INT8性能;此外还支持八种不同的虚拟机(VM)配置,单片内的芯片数量从一个到250多个不等。
其中,性能方面,有一组数据可供参考:据速度基准测试,通过Cloud TPU v5e,训练和运行人工智能模型的速度提高了5倍;1秒内,能实时处理1000秒的内部语音到文本和情感预测模型,比之前提升6倍。
谷歌表示,“我们正处于计算领域千载难逢的拐点。设计和构建计算基础设施的传统方法不再足以满足生成式人工智能和LLM等工作负载呈指数级增长的需求。过去五年,LLM的参数数量每年增加 10 倍。因此,客户需要具有成本效益且可扩展的人工智能优化基础设施”。
通过提供AI新基础设施技术、TPU和GPU,谷歌Cloud正在努力满足开发者的需求。这种努力,包括两个方面,除了Cloud TPU v5e(目前已提供预览版),还包括将之与谷歌 Kubernetes Engine(GKE)、Vertex AI以及Pytorch、JAX和TensorFlow等框架的集成,以此提升开发者的使用效率。
鉴于Cloud TPU v5e专为中大型模型设计,那么对于超大型模型,谷歌也准备了新产品:基于英伟达H100 GPU的超级计算机“谷歌A3 VM”,将于9月全面上市。这是专为大规模AI模型提供支持的超级AI平台。
路线:构建开发生态平台
除了超强的性能和令人心动的成本效益,谷歌Cloud TPU v5e的易用性也异常凸显。
开发者(也可能是商业或研究机构)能通过Google Kubernetes Engine(GKE)来管理基于Cloud TPU v5e的中大规模AI工作负载编排,进而提升AI开发效率。这对于喜欢简单托管服务的商业或研究机构而言,Vertex AI现在支持使用Cloud TPU虚拟机用以训练不同的框架和库。
GKE是谷歌Cloud平台上的一项托管式容器编排服务,而Kubernetes则是一种开源的容器编排平台,这是能帮助机构的技术人员管理和调度容器化的应用程序。GKE简化了技术使用方在谷歌云上部署、管理和扩展容器化应用程序的过程。
通过GKE提供的一整套功能强悍的工具和服务,开发者能轻而易举地创建和管理Kubernetes集群。通过GKE,技术开发者或机构技术方能快速启动和停止Kubernetes集群,自动做节点管理和扩展,以及监控和调试应用程序。GKE还提供了高度可靠的基础设施和自动化的操作,使技术方能专注于应用程序的开发和部署,而无需担心底层的基础设施细节。
Cloud TPU v5e易用性的基础,实际上折射出谷歌在生成式AI领域采取了与英伟达不同的路线。
这条路线的最终指向,是要建立成体系的生成式AI开发者生态。
Cloud TPU v5e为谷歌AI框架(如JAX、PyTorch和TensorFlow)提供内置支持,同时也可将之与谷歌AI开发者平台Vertex AI集成。
Vertex AI是谷歌Cloud在2021年5月发布的机器学习(ML)平台,主要用以训练和部署ML模型和AI应用,也可用于自定义LLM。
Vertex AI结合了数据工程、数据科学和ML等工作流,技术开发团队因之可使用通用工具集用于协作;通过谷歌Cloud的优势扩缩应用,并提供AutoML、自定义训练、模型发现和生成式AI等选项,以端到端MLOps工具实现自动化部署和扩展。
这个AI开发平台能支持多种界面,包括SDK、控制台、命令行和Terraform。VertexAI扩展是一组完全托管的扩展开发人员工具,能实现从模型到API的实时数据流动和实际操作。
据谷歌透露,对于希望快速开始常见生成式人工智能(AI)用途(如聊天机器人和定制搜索引擎)的开发人员,Vertex AI搜索和对话能帮助没有任何AI经验的开发者快速上手。在许多情况下,有了Vertex AI平台,开发者也无需编写任何代码。
实际上,Vertex AI开发者平台是谷歌竞逐生成式AI的利器。谷歌也有意将Vertex AI构建成一个庞大的AI开发生态圈。在这个生态体系中,谷歌将软件硬件全部推向性能越来越强的顶端。在此基础上,还集成了开发AI的一站式服务。
这是一条与AGI芯片霸主英伟达不一样的道路,英伟达走为AGI提供工具的路线,而生态体系式的平台,才能与行业捆绑并行,进而有可能与英伟达帝国分庭抗礼。
来源:https://view.inews.qq.com/k/20230902A05NXR00
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
|