记录点硬件知识CPU，GPU，TPU

2023年5月24日下午6:00 • 人工智能 • 阅读 77

CPU

CPU 是一种基于冯·诺依曼结构的通用处理器。这意味着 CPU 与软件和内存协同工作，如下所示：
CPU 最大的优点是它们的灵活性。可以在 CPU 上为许多不同类型的应用加载任何类型的软件。
对于每次计算，CPU 从内存加载值，对值执行计算，然后将结果存储回内存中。与计算速度相比，内存访问速度较慢，并可能会限制 CPU 的总吞吐量。这通常称为[冯·诺依曼瓶颈]。
CPU的应用场景
需要最 高灵活性的快速原型设计
训练时间不长的简单模型
有效批量大小较小的 小型模型
包含许多以 C++ 编写的自定义 TensorFlow/PyTorch/JAX 操作的模型
受主机系统可用 I/O 或网络带宽限制的模型
冯·诺依曼结构：是一种基于[约翰·冯·诺依曼John von Neumann]和其他人1945年在[EDVAC报告初稿]中的描述的计算机架构。描述了具有以下组件的电子[数字计算机]的设计架构：
具有[算术逻辑单元]和[处理器寄存器的处理单元]
包含[指令寄存器]和[程序计数器的控制单元]
[存储数据]和指令的内存
外部[大容量存储]
输入和输出机构

GPU

为了提高吞吐量，GPU 在单个处理器中包含数千个算术逻辑单元 (ALU)。现代 GPU 通常包含 2500 – 5000 个 ALU。大量的处理器意味着您可以同时执行数千次乘法和加法运算。
这种 GPU 架构非常适合并行处理大量运算（例如神经网络中的矩阵运算）的应用。实际上，在用于深度学习的典型训练工作负载上，GPU 的吞吐量可比 CPU 高出一个数量级。
不过，GPU 仍然是一种通用处理器，必须支持许多不同应用和软件。因此，GPU 存在与 CPU 相同的问题。对于数千个 ALU 中的每一次计算，GPU 都必须访问寄存器或共享内存，以读取运算对象以及存储中间计算结果。
GPU的应用场景
具有大量自定义且必须至少部分在 CPU 上运行的 TensorFlow/PyTorch/JAX 操作的模型
具有不能在 Cloud TPU 上使用的 TensorFlow/PyTorch 操作的模型
有效批量大小较大的 *中到大型模型

TPU

Google 设计了 Cloud TPU，它们是专门用于神经网络工作负载的矩阵处理器。TPU 不能运行文字处理程序、控制火箭引擎或执行银行交易等多样化服务，但它们可以很快地处理神经网络中使用的大量矩阵运算。
TPU 的主要任务是矩阵处理，这是乘法和累加运算的组合。TPU 包含数千个乘法累加器，这些累加器彼此直接连接以形成大型物理矩阵。这称为脉动阵列架构。Cloud TPU v3 在单个处理器上包含两个 128 x 128 ALU 的脉动阵列。
TPU 主机 将数据流式传输到馈入队列中。TPU 从馈入队列加载数据，并 将其存储在 HBM 内存中。计算完成后，TPU 会将结果加载到 馈出队列中。然后，TPU 主机从馈出队列读取结果并将其存储在主机的内存中。
为了执行矩阵操作，TPU 将 HBM 内存中的参数加载到 MXU 中。
然后，TPU 从内存加载数据。每次执行乘法运算时，系统都会将结果传递给下一个乘法累加器。输出是数据和参数之间所有乘法结果的总和。 在矩阵乘法过程中，不需要访问内存。
TPU的应用场景
由 矩阵计算主导的模型
在主训练循环内没有自定义 TensorFlow/PyTorch/JAX 操作的模型
需要训练数周或数月的模型
有效 批量大小较大的大型模型
TPU不太适合
需要频繁分支或包含许多元素级代数运算的线性代数程序
以稀疏方式访问内存的工作负载
需要高精度算法的工作负载
主训练循环中包含自定义操作的神经网络工作负载
Cloud TPU 资源 提高了机器学习应用中大量使用的线性代数计算的性能。在训练大型复杂的神经网络模型时，TPU 可以最大限度地缩短达到准确率所需的时间。以前在其他硬件平台上需要花费数周时间进行训练的模型，在 TPU 中只需数小时即可收敛。
张量处理单元 (TPU) 是 Google 设计的机器学习加速器。Cloud TPU 将 TPU 作为一种可伸缩的 GPC 云资源提供。可以使用机器学习框架（如 TensorFlow、Pytorch 和 JAX）在 Cloud TPU 上运行机器学习工作负载。
单个 TPU 设备包含 4 个芯片，每个芯片包含 2 个 TPU 核心。TPU 核心包含一个或多个矩阵乘法单元 (MXU)、矢量处理单元 (VPU) 和 标量单元。
MXU 由收缩阵列中的 128 x 128 乘法/累加器组成。 MXU 可在 TPU 芯片中提供大部分计算能力。每个 MXU 能够使用 bfloat16 数字格式在每个周期中执行 16K 乘法累加运算。
VPU 用于激活函数、softmax 等常规计算。标量单位用于控制流、计算内存地址和其他维护操作。
TPU v2
一个 TPU v2 开发板包含四个 TPU 芯片和 16 GiB 的 HBM。每个 TPU 芯片包含两个核心。每个核心都有一个 MXU、矢量单位和标量单位。
TPU v3
一个 TPU v3 开发板包含四个 TPU 芯片和 32 GiB 的 HBM。每个 TPU 芯片包含两个核心。每个核心都有一个 MXU、矢量单位和标量单位。
TPU v3 相对于 v2 的性能优势
TPU v3 配置中增加的每个核心的 FLOPS 和内存容量可以通过以下方式提高模型的性能：
- 对于计算受限的模型，TPU v3 配置可为每个核心提供明显的性能优势。如果采用 TPU v2 配置且内存受限的模型在采用 TPU v3 配置时同样也受内存限制，则可能无法实现同等的性能提升。
- 如果采用 TPU v2 配置时，内存放不下数据，则 TPU v3 可以提供改进的性能并减少中间值的重计算（重实体化）。
- TPU v3 配置可以运行批次大小不适合 TPU v2 配置的新模型。例如，TPU v3 可能允许更深的 ResNet 和使用 RetinaNet 的较大图片。
因训练步骤等待输入而在 TPU v2 上几乎成为受限于输入（”馈入”）的模型，在 Cloud TPU v3 中也可能会受限于输入。流水线性能指南可以帮助解决馈入问题。

bfloat16 数值格式

使用降低精确率的浮点数是一种缩短收敛时间而不会损失准确率的常用方法。TPU 在执行矩阵运算时使用 bfloat16 数字格式。矩阵乘法运算是针对 bfloat16 值执行，而累积是针对 IEEE float32 值执行。
bfloat16 是用于机器学习的自定义 16 位浮点格式，由一个符号位、八个指数位和七个尾数位组成。下图显示了三种浮点格式的内部： float32：IEEE 单精度， float16：IEEE 半精度和 bfloat16。
bfloat16 和 float32 的动态范围是等效的。但是， bfloat16 会占用一半的内存空间。[1905.12322] BFLOAT16深度学习训练的研究 (arxiv.org)
Google 硬件团队为 Cloud TPU 选择了 bfloat16， 旨在提高硬件效率，同时保持准确训练深度学习模型的能力，并将 float32 的转换费用降至最低。硬件乘法器的物理大小根据尾数宽度的平方进行扩缩。如果尾数位比 FP16 少，则 bfloat16 乘法器的芯片大小是典型 FP16 乘法器的一半，并且比 float32 乘法器小 8 倍。
神经网络对指数大小的灵敏度要高于尾数。为确保下溢、上溢和 NaN 的行为相同， bfloat16 的指数大小与 float32 相同。 bfloat16 处理非正规数的方式与 float32 不同，它会将它们刷新为零。与通常需要进行特殊处理（如损失扩缩）的 float16 不同， bfloat16 是在训练和运行深度神经网络时可以直接替代 float32。
神经网络对指数大小的灵敏度要高于尾数。为确保下溢、上溢和 NaN 的行为相同， bfloat16 的指数大小与 float32 相同。 bfloat16 处理非正规数的方式与 float32 不同，它会将它们刷新为零。与通常需要进行特殊处理（如损失扩缩）的 float16 不同， bfloat16 是在训练和运行深度神经网络时可以直接替代 float32。
以 bfloat16 格式存储值可节省片上内存，使 Cloud TPU 能够训练更大的模型或使用更大的批量大小。
某些操作受内存带宽限制，这意味着从内存加载数据所需的时间会减慢执行计算的总体时间。以 bfloat16 格式存储这些运算的操作数和输出可减少必须传输的数据量，从而提高整体速度。

Original: https://blog.csdn.net/weixin_43424450/article/details/124559221
Author: 羞儿
Title: 记录点硬件知识CPU，GPU，TPU

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/508619/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【机器学习】舍友居然偷偷在看这篇文章·入门机器学习

🌕写在前面 🍊博客主页：kikoking的江湖背景 🎉欢迎关注🔎点赞👍收藏⭐️留言📝 🌟本文由 kikokingzz 原创，CSDN首发！ 📆首发时间：🌹2022年4月12日🌹 🆕…

人工智能 2023年6月13日
0095
二叉树操作题

title: 二叉树操作三道题（分享）author: Codemondate: 2022-11-12 09:06:11tags: 二叉树操作三道题 A.二叉树左右孩子交换Time …

人工智能 2023年6月27日
0054
技术内幕 | StarRocks Community Champion、阿里云技术专家解读 Optimizer 实现

作者：范振（花名辰繁），阿里云计算平台-开源大数据-OLAP方向负责人，高级技术专家，StarRocks Community Champion 随着阿里云EMR StarRocks…

人工智能 2023年7月31日
0047
学了这么久的脑电，这些行话你不会还不知道吧？

文章来源于微信公众号（茗创科技），欢迎有兴趣的朋友搜索关注。脑电术语 ERP Event-related Potentials：事件相关电位与事件(通常是刺激或反应)相关的电位…

人工智能 2023年5月25日
0051
Jetson nano到底是个怎样的产品？（Jetson nano性能如何）

AI新维度 Jetson Nano 模块的大小仅为 70 x 45mm，比一张信用卡还小。而在为多个行业（包括智慧城市、智慧工厂，以及农业和机器人）的边缘设备部署 AI 时，此支持…

人工智能 2023年6月4日
0058
yolox

好久没做目标检测，之前一直在做分割问题，目前体验下来目标检测在算法上要求貌似更高一点。所以计划研究下yolo系列最新出的yolox。yolox相对于之前的yolo系列在速度上有了比…

人工智能 2023年5月31日
0080
神经网络与深度学习

神经网络与深度学习第 1 章绪论第 2 章机器学习概述第 3 章线性模型第 4 章前馈神经网络第 5 章卷积神经网络第 6 章循环神经网络马上期末考试了，…

人工智能 2023年7月26日
00108
智能车八邻域图像算法

将八邻域算法用在智能车图像处理上文章目录将八邻域算法用在智能车图像处理上 * 前言一.当初选择用八邻域的原因 – 1.令人困扰的光线 2.差比和图像处理 3.难以…

人工智能 2023年5月26日
00103
数据的回归和分类分析

目录一、线性回归二、线性回归方法的有效性判别三、python和Anaconda的安装四、鸢尾花数据集使用SVM线性分类五、总结一、线性回归 1、父亲-孩子x-y线性回归…

人工智能 2023年6月18日
0076
【文献调研】多模态生理信号的特征提取与特征融合

项目原因进行了一些调研，慢慢更新~ 文章目录多模态情绪识别研究综述 2020 * 多模态混合策略 – 数据级融合特征级融合决策级融合模型级融合多模态混合形式 …

人工智能 2023年6月24日
0062
备战数学建模45-粒子群算法优化BP神经网络(攻坚站10)

BP神经网络主要用于预测和分类，对于大样本的数据，BP神经网络的预测效果较佳，BP神经网络包括输入层、输出层和隐含层三层，通过划分训练集和测试集可以完成模型的训练和预测，由于其简单…

人工智能 2023年7月26日
0044
NLP-CNN

卷积神经网络(特征提取) 一、可以完成的任务 1.检测任务 2.分类与检索主要工作还是进行特征的提取。 3.超分辨率重构 4.医学任务等（OCR文字试别） 5.无人驾驶（就是识别…

人工智能 2023年5月28日
0047
Opencv项目实战：10 面部特征提取及添加滤镜

1、效果展示这是打开摄像头的展示，用的手机的图片，我是十分的不好意思露面，诸位看看效果就好。让我们来看看图片的形式吧：很不错的死亡芭比粉，效果也是相当不错的，而且图片不像摄像…

人工智能 2023年7月18日
0041
pytorch训练模型时出现nan原因整合

目录 1、 Nan 和 INF 2、出现 Nan 和 INF 常见原因汇总 3、原因分析与解决方法 3.1、输入数据有误 3.2、学习率过高 –> 梯度爆炸进 &…

人工智能 2023年6月16日
00105
手把手使用Python语音识别，进行语音转文字

目录 0. 太长不看系列，直接使用识别结果 1. Python调用标贝科技语音识别接口，实现语音转文字 1.1 环境准备： 1.2 获取权限 1.2.1 登录 1.2.2 创建新…

人工智能 2023年5月25日
0064
保姆级教程 – atlas500部署yolov3-tiny检测实时视频流 [2] – yolov3-tiny模型转换到om模型

保姆级教程 – atlas500部署yolov3-tiny检测实时视频流 [2] – yolov3-tiny模型转换到om模型接上文 -> 内网环境…

人工智能 2023年5月23日
0079

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

记录点硬件知识CPU，GPU，TPU

CPU

GPU

TPU

bfloat16 数值格式

大家都在看