提升2021年转型时的企业数据技术和战略。
在谷歌I / O 2021年,谷歌正式宣布了其第四代张量处理单元(TPU),该公司声称,该单元可以在接近记录的壁钟时间内完成人工智能和机器学习培训工作负载。谷歌表示, TPUV4集群可以超过上一代TPU在工作负载方面的能力,包括对象检测、图像分类、自然语言处理、机器翻译和推荐基准。
TPUV4芯片提供的矩阵乘法TFLOP比第三代TPU(TPUV3)多两倍,其中单个TFLOP相当于每秒1万亿浮点操作。(矩阵通常用于表示输入AI模型的数据。)它还提供了内存带宽的"显着"提升,同时受益于互连技术的进步。谷歌表示,总体而言,在64个芯片相同的规模上,不考虑软件带来的改进, TPUV4的平均性能比TPUV3性能提高了2.7倍。
谷歌的TPU是专门为加速人工智能而开发的应用程序专用集成电路(ASIC)。它们是液体冷却的,旨在插槽到服务器架上;提供多达100 petaflop的计算;并为谷歌产品提供动力,如Google Search 、 Google Photos 、 Google Translate 、 Google Assistant 、 Gmail和Google Cloud AI Apis 。谷歌在2018年的年度I / O开发者大会上宣布了第三代,今天上午取消了正在研究阶段的继任者。
尖端性能
Google称, TPUV4集群(或称" Pods ")共有4 , 096个芯片,连接的带宽是其他网络技术的10倍。这使TPUV4 Pods能够提供超过1 , 000万个计算量,相当于峰值时的平均笔记本电脑处理器。
谷歌首席执行官桑达尔•皮查伊(Sundar Pichai)在主旨演讲中表示: "这对我们来说是一个历史性的里程碑,在之前,为了获得惊喜,你需要构建一台定制的超级计算机。 "但我们今天已经部署了很多这样的设备,不久将在数据中心安装数十个TPUV4四个罐子,其中许多将以90%或接近90%的无碳能源运行。 "
今年的MLPerf结果显示,谷歌的第四代TPU没什么可嘲笑的。在一项图像分类任务中, 256个第四代TPU在1.82分钟内完成,该任务涉及使用Imagenet数据集训练算法(RESNET - 50 V1.5)的精确度至少75.90% 。这几乎相当于768个Nvidia A100显卡与192个超威半导体 EPYC 7742 CPU内核(1.06分钟)和华为AI优化的Ascend910芯片中的512个与128个英特尔 Xeon铂金8168内核(1.56分钟)匹配。 TPUV3在0.48分钟的训练中击败了第四代,但可能只是因为同时使用了4 , 096个TPUV3 。
第四代TPU在Wikipedia Corpus上训练BERT模型时也取得了很好的成绩。训练需要1.82分钟, 256个第四代TPU ,仅略低于4 , 096个第三代TPU的0.39分钟。同时,使用NVidia硬件实现0.81分钟的训练时间需要2 , 048张A100卡和512个超威半导体 EPYC 7742 CPU内核。
谷歌表示,从今年晚些时候开始, TPUV4 Pods将提供给云客户。
