nvidia[GPU架构发展对比]

1 引言

方便检索

2 名词解释

FLOPS:”每秒浮点运算次数”,”每秒峰值速度”,是”每秒所执行的浮点运算次数”(floating-point operations per second)的缩写。所谓的”浮点运算”,实际上包括了所有涉及小数的运算。这类运算在某类应用软件中常常出现,而它们也比整数运算更花时间。现今大部分的处理器中,都有一个专门用来处理浮点运算的”浮点运算器”(FPU)。也因此FLOPS所量测的,实际上就是FPU的执行速度。而最常用来测量FLOPS的基准程式(benchmark)之一,就是Linpack。

  • 一个MFLOPS(megaFLOPS)等于每秒一百万(=10^6)次的浮点运算,
  • 一个GFLOPS(gigaFLOPS)等于每秒十亿(=10^9)次的浮点运算,
  • 一个TFLOPS(teraFLOPS)等于每秒一万亿(=10^12)次的浮点运算,(1太拉)
  • 一个PFLOPS(petaFLOPS)等于每秒一千万亿(=10^15)次的浮点运算,
  • 一个EFLOPS(exaFLOPS)等于每秒一百京(=10^18)次的浮点运算,
  • 一个ZFLOPS(zettaFLOPS)等于每秒十万京(=10^21)次的浮点运算。

浮点精度:半精度,单精度,双精度。根据nvidia官方的白皮书里面涉及的:半精度为FP16(浮点数16位);单精度为FP32(浮点数32位);双精度为FP64(浮点数64位)。

INT8:8-bit的整数运算(一个字节),新增的增强8位整数支持是可以在一个周期内, 对打包在32-bit里的4个8位整数(记做:A0A1A2A3), 完成操作:Y = A0 * B0 + A1 * B1 + A2 * B2 + A3 * B3 + X其中Y和X均为32-bit整数, A和B均为8-bit整数.理论上INT8能以400%的性能(相比于float)完成8-bit整数的点乘和累加操作. 对最近流行的神经网络推导很有用途.

参考文献:

Original: https://www.cnblogs.com/shouhuxianjian/p/9817243.html
Author: 仙守
Title: nvidia[GPU架构发展对比]

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/9560/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

最近整理资源【免费获取】:   👉 程序员最新必读书单  | 👏 互联网各方向面试题下载 | ✌️计算机核心资源汇总