CUDA入门教程；Transformer太火不是好事？；探求GPU极限性能的利器｜AI系统前沿动态…

2023年6月24日下午10:11 • 人工智能 • 阅读 81

CUDA入门教程；Transformer太火不是好事？；探求GPU极限性能的利器｜AI系统前沿动态...

要说 Transformer 有多厉害，比如 OpenAI 重磅推出的 GPT-3，就是基于 Transformer 实现的。至于传播速度方面，短短 5 年，Transformer 便在 TensorFlow 、PyTorch 等主流深度学习框架支持的 AI 程序中占据一席之地。

不过与高调宣传 Transformer 的学者不同，这次 PyTorch 创始人、Meta 杰出工程师 Soumith Chintala 却唱起了反调，并警告说，Transformer 如此流行，可能是一把双刃剑。

链接：

2. MAIProf：Meta生产PyTorch模型的性能调试工具

PyTorch在生产环境中的性能调优越来越重要。一个功能强大的性能调试工具是这个过程的关键。通过一个关于生产模型的案例研究，PyTorch证明MAIProf是一个用于识别优化机会的强大AI性能调试基础架构。

在Meta，从性能调试新手到专家的100多名工程师使用MAIProf来识别更多类型的瓶颈。其中包括缓慢的数据加载、分布式训练问题（例如负载不平衡和过度通信）。MAIPprof涵盖了包括推荐、视觉和自然语言处理等主要类别模型。总之，它现在是生产PyTorch工作负载时调试性能的不可或缺的工具。

链接： https://pytorch.org/blog/performance-debugging-of-production-pytorch-models-at-meta/?utm_source=organic_social&utm_medium=linkedin&utm_campaign=performance_debugging

3. 精度、耗时、显存消耗、网络结构…一行代码深度解析训练性能指标

正所谓”工欲善其事，必先利其器”，一个能实时监控模型训练指标、硬件性能消耗情况、可视化网络结构和每层网络参数变化的工具可大幅缩减模型开发时间，推动人工智能技术快速应用落地。

飞桨可视化分析工具VisualDL以丰富的图表及清晰的可视化解析功能帮助开发者直观地理解深度学习模型训练过程中的各项信息。

4. 视频教程｜OneFlow源码解析（2）：OneFlow的4种执行模式

OneFlow 的执行模式有2个维度，其一可从计算图执行方式划分，可分为静态图模式、动态图模式；其二可从张量类型划分，即单机单卡的local tensor模式，以及分布式训练下的global tensor模式。这两个维度可以组合得到4种执行实际情况。OneFlow提供给用户的接口又是尽量统一的。

本视频将介绍OneFlow如何在运行时判断应该使用哪种模式。如何做到用户尽可能易用、无感于多种模式的差别，同时又能尽量发挥每种模式的特点。

链接： https://www.bilibili.com/video/BV17P411G76y/?spm_id_from=333.999.0.0&vd_source=25c3e9bdd8a5701b69d322f471c11c38

5. SIMT、SIMD和DSA（2）

SIMD和DSA以及SIMT这些词虽然经常放到一起说，但三者的指代比较混乱，很容易产生文字游戏。有时指的是指令、有时候指的是体系结构、有时候又是指编程模型。同时在每个层面的scope也不是很清晰，于是就有了一定偷换概念的空间。SIMT通常指代一种编程模型，而SIMD通常指代的指令，DSA在某些场合指代指令，某些场合又指代架构。

链接：https://zhuanlan.zhihu.com/p/564623647

6. CuAssembler 开源 | 探求 NVIDIA GPU 极限性能的利器

CuAssembler是个CUDA SASS汇编器，主要是把 nvdisasm 生成的反汇编输出汇编成可加载执行的 cubin 文件，实现对最终汇编机器码的绝对控制，弥补当前 NV 没有官方汇编器支持的不足。

链接：

7. 用于大规模深度推荐模型的专用GPU推理参数服务器

在大规模推荐系统中，Embedding通常在数据中心消耗大量内存进行存储。并且整个模型运算过程中，有大量时间花费在参数服务器上搜索对应Embedding向量，这个步骤增加了整体latency，拖慢了下游的计算。

基于在真实数据集中观察到的方法，本文提出Embedding的Key往往具有很强局部性，并且遵循幂律分布。基于上述观察作者提出了HugeCTR分层参数服务器，他们将热数据保存在GPU显存中，而其他部分则有参数服务器进行补充，其保存了完整的Embedding副本。

链接：https://zhuanlan.zhihu.com/p/568639935

8. CUDA编程入门极简教程

2006年，NVIDIA公司发布了CUDA，CUDA是建立在NVIDIA的CPUs上的一个通用并行计算平台和编程模型，基于CUDA编程可以利用GPUs的并行计算引擎来更加高效地解决比较复杂的计算难题。近年来，GPU最成功的一个应用就是深度学习领域，基于GPU的并行计算已经成为训练深度学习模型的标配。

链接： https://zhuanlan.zhihu.com/p/34587739

为什么芯片设计需要很长时间？能不能加速芯片设计周期？能否在几天或几周之内完成芯片的设计？这是一个非常有野心的目标。

Google在这个领域已率先出发。Google AI负责人Jeff Dean分享了《机器学习在硬件设计中的潜力》，他介绍了神经网络发展的黄金十年，机器学习如何影响计算机硬件设计以及如何通过机器学习解决硬件设计中的难题，并展望了硬件设计的发展方向。

链接：

关注AI和半导体行业的朋友近来可能听说过”机器学习（ML）专用处理器”（即AI加速器）。最常见的AI加速器莫过于NVIDIA GPU，此外还有Intel的Habana Gaudi处理器、Graphcore的Bow IPU、Google的TPU、AWS的Trainium和Inferentia芯片等。

为什么如今有这么多AI加速器可供选择？它们和CPU有什么不同？算法如何改变才能适应这些硬件？硬件又该如何发展才能支持最新的算法？本文将一一解答。

链接：

11. 免费用Stable Diffusion”脑补”世界名画画框外世界

Stable Diffusion Infinity，是大火的AI绘图新星Stable Diffusion的一项子功能。只需要一两句话提示，Stable Diffusion就可以画出你想要的东西，而且和已有部分衔接自然，没什么违和感。

对于负责在Jupyter Notebook编程的数据科学家来说，Colab早已成为了默认的运行环境。然而，将Colab的算力运用到除 Jupter Notebooks 以外的其他应用，则是一件极其困难的事。

出于这个原因，作者将探究Google Colab的内部结构，并尝试稍微改变Colab 的内置规则。需要提前声明的是，作者只是想探究Colab，不会对Colab本身或者它的用户造成任何影响。

链接：

其他人都在看

*

*

*
*

欢迎体验OneFlow v0.8.0： GitHub – Oneflow-Inc/oneflow: OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient.OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient. – GitHub – Oneflow-Inc/oneflow: OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient. CUDA入门教程；Transformer太火不是好事？；探求GPU极限性能的利器｜AI系统前沿动态... https://github.com/Oneflow-Inc/oneflow/;

Original: https://blog.csdn.net/OneFlow_Official/article/details/127168575
Author: OneFlow深度学习框架
Title: CUDA入门教程；Transformer太火不是好事？；探求GPU极限性能的利器｜AI系统前沿动态…

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/649849/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

NeRF 源码分析解读（一）

NeRF 源码解读（一）前言 NeRF 是三维视觉中新视图合成任务的启示性工作，最近领域内出现了许多基于 NeRF 的变种工作。本文以pytorch 版 NeRF 作为基础对 N…

人工智能 2023年5月26日
0064
知识图谱-构建：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】

从逻辑上讲，知识图谱可以分为两层： [En] Logically, the knowledge graph can be divided into two layers: 一个是模…

人工智能 2023年5月27日
0098
【PYTORCH】Pytorch0.4.0安装教程与GPU配置大合集（含测试代码）

windows系统下安装pytorch0.4.0，在linux系统下安装时只需要将命令中的”win_amd64″换成”linux_x86_64&…

人工智能 2023年7月22日
0050
VMD如何确定分解层数（一）：最优变分模态分解（OVMD）—VMD分解的基础上确定分解层数和更新步长

上篇博文已经讲述了VMD的分解机制，关于其中的参数，特别是分解层数如何确定的问题，这篇文章给出一个解决方法：最优变分模态分解（OVMD），利用中心频率法确定分解层数K，利用残差指数…

人工智能 2023年7月27日
0046
基于RANSAC的激光点云分割

Lidar系列文章 [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service i…

人工智能 2023年6月2日
0088
2022最新python入门级数据分析指南，轻松月入过万

前言大数据时代，谁掌握了数据，谁就掌握了优先权。数据分析成为各个行业都必须有基础。学会数据分析这项技能，在哪里都能吃香。如何根据数据分析出未来的趋势，成为了每一名数据分析师必…

人工智能 2023年6月11日
0074
TensorFlow中的目标检测算法是如何实现的

详细介绍 TensorFlow中的目标检测算法是一种计算机视觉算法，用于检测图像或视频中特定对象的位置和类型。其主要目标是在给定一张图像后，输出图像中所有感兴趣的目标的边界框和类别…

人工智能 2023年12月31日
0068
文献翻译|A high reliability physically unclonable function based on multiple tunable ring oscillator（基于多个可调谐环形振荡器的高可靠性物理不可克隆功能）

基于多个可调谐环形振荡器的高可靠性物理不可克隆功能摘要物理不可克隆函数(PUF)是一种硬件安全原语，可以产生独特的芯片标识，具有广阔的应用前景。然而，由于PUF的可靠性容易受到…

人工智能 2023年6月6日
0080
金融数据挖掘Jupyter—北京市二手房数据分析—课设

基于北京市各区二手房的数据分析（1）房源数据分析与可视化 1.北京二手房房源分布2.户型分布关系3.楼层与房源的分布关系 ; （2）房价数据分析与可视化 1.房价与房屋户型的关系…

人工智能 2023年6月11日
0091
YOLOV5训练自己目标检测模型和cpu检测

先来看看我们要实现的效果，我们将会通过数据来训练一个检测的模型，并用pyqt5进行封装，实现图片检测、烟和火检测和摄像头实时检测的功能。代码的下载地址是：GitHub：GitHu…

人工智能 2023年7月10日
0060
毕业论文文献总结

面向缺陷检测的图像配准的方法和研究图像配准 Image Registration 图像配准的步骤:（使用基于特征的方法） 1、采用 SURF 特征和局部互相关信息的图像配准算法 …

人工智能 2023年6月22日
0070
动手做个 AI 机器人，帮我回消息

大家好，我是鱼皮，自从做了知识分享，我的微信就没消停过，平均每天会收到几百个消息，大部分都是学编程的朋友向我咨询编程问题。但毕竟我只有一个人，没法所有消息都一个个回复，所以也是很…

人工智能 2023年7月26日
0058
【个人】服务器命令记录

docker run –name=yolo6.1.1 -itd –gpus all –restart=always -p 2299:22 liy…

人工智能 2023年6月4日
00100
计算机图像处理之几何畸变矫正

透视变换三维几何变换的透视变换简介 * 一点透视变换其他变换 – 非矩形像素坐标的转换（课外扩展）图像卷绕（课外扩展）应用实例——几何畸变的校正 * 几何畸变校…

人工智能 2023年6月20日
0091
Anaconda安装和入门(超级简单详细的安装步骤)

简介 Anaconda是为独立从业者开发的工具包，可让您使用数以千计的开源包和库，它是一种开源、灵活的解决方案，它提供了以跨平台方式构建、分发、安装、更新和管理软件的实用程序。Co…

人工智能 2023年7月4日
00101
跑通Faster-RCNN Pytorch-1.0以及如何训练自己的数据集（详细到发抖）

目录 1.环境配置 1.1 安装cuda 1.2 安装cudnn 1.3 安装Pytorch 2.下载Faster-RCNN pytorch1.0并跑通VOC2007数据集 2.1…

人工智能 2023年7月22日
0055

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

CUDA入门教程；Transformer太火不是好事？；探求GPU极限性能的利器｜AI系统前沿动态…

大家都在看