这个神器，让我的 Python 代码运行速度快了100倍

2023年7月30日下午12:39 • 人工智能 • 阅读 81

Python 已经得到了全球程序员的喜爱，连续多期稳坐编程语言排行榜第一把交椅。但是还是遭到一些人的诟病，原因之一就是认为它运行缓慢。要是有一款能够自动优化我们代码的神器该有多好啊！

于是，大家都在想尽各种办法来提高 Python 代码的运行速度，大多数体现在写代码的习惯优化以及代码优化上。但是平时写代码注意太多这些方面可能会有糟糕的体验，甚至会不利于我们的工作效率。

今天就给大家带来这样的一款神器——taichi， 喜欢记得收藏、点赞。

文章目录

*
– taichi
– 技术提升
– 安装
– 一个小例子
– 用 Taichi 进行物理模拟
– 总结

taichi

Taichi 起步于 MIT 的计算机科学与人工智能实验室（CSAIL），设计初衷是便利计算机图形学研究人员的日常工作，帮助他们快速实现适用于 GPU 的视觉计算和物理模拟算法。

说人话就是 Taichi 是一个基于 Python 的领域特定语言，专为高性能能并行计算设计。

本来是服务于学术界的一款 DSL ，但是我们也可以拿来用在我们这些凡夫俗子的代码中（虽然有点大材小用）！

技术提升

文章源码、数据、技术提升都轻松获取，本文来自粉丝群小伙伴授权分享，可以加入我们，目前开通了技术交流群，群友已超过2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友。

方式、添加微信号：dkl88191，备注：来自CSDN +python
方式、微信搜索公众号：Python学习与数据挖掘，后台回复：加群

安装

Taichi 是一个 PyPI 包，所以使用 pip 命令即可安装：

 pip install taichi

注意 taichi 安装的先决条件是：

Python: 3.7/3.8/3.9/3.10 (64-bit)
OS: Windows, OS X, and Linux (64-bit)

在使用命令安装的时候，如果遇到错误，可以使用管理员模式命令行进行安装。

一个小例子

我们先来用一个小栗子，感受一下它的鬼斧神工！

import time

def is_prime(n):
    result = True
    for k in range(2, int(n**0.5) + 1):
        if n % k == 0:
            result = False
            break
    return result

def count_primes(n: int) -> int:
    count = 0
    for k in range(2, n):
        if is_prime(k):
            count += 1

    return count

t0 = time.time()
print(count_primes(100000))
t1 = time.time()

print(t1-t0)

这个是我们以前经常用来做例子的统计质数个数。求100000以内速度比较快，但是到了1000000，运行时间就明显慢了下来，竟然需要3.38秒。

Python 的大型 for 循环或嵌套 for 循环总是导致运行时性能不佳。

我们只需导入 Taichi 或切换到 Taichi 的 GPU 后端，就能看到整体性能的大幅提升：

import time
import taichi as ti

ti.init()

@ti.func
def is_prime(n):
    result = True
    for k in range(2, int(n**0.5) + 1):
        if n % k == 0:
            result = False
            break
    return result

@ti.kernel
def count_primes(n: int) -> int:
    count = 0
    for k in range(2, n):
        if is_prime(k):
            count += 1

    return count

t0 = time.time()
print(count_primes(1000000))
t1 = time.time()

print(t1-t0)

在这里，我们只需要引入 taichi 库，然后加两个注解，速度直接飙到了0.1秒，速度提升了30多倍。如果我们把数字再扩大，速度提升会更明显！

没有使用之前，统计10000000以内质数使用 90 秒，使用之后，并且更改为 GPU 运行，使用 0.1秒。

我们还可以将 Taichi 的后端从 CPU 更改为 GPU 运行：

ti.init(arch=ti.gpu)

用 Taichi 进行物理模拟

上面的动图很好地模拟了一块布料落到一个球体上。动图中的布料建模使用了弹簧质点系统，其中包含 10,000 多个质点和大约 100,000个弹簧。模拟如此大规模的物理系统并实时渲染绝不是一项容易的任务。

Taichi 让物理模拟程序变得更易读和直观，同时仍然达到与 C++ 或 CUDA 相当的性能。只需拥有基本 Python 编程技能，就可以使用 Taichi 用更少的代码编写高性能并行程序，从而关注较高层次的算法本身，把诸如性能优化的任务交由 Taichi 处理。

我们直接上源代码：

import taichi as ti
ti.init(arch=ti.vulkan)

n = 128
quad_size = 1.0 / n
dt = 4e-2 / n
substeps = int(1 / 60 // dt)

gravity = ti.Vector([0, -9.8, 0])
spring_Y = 3e4
dashpot_damping = 1e4
drag_damping = 1

ball_radius = 0.3
ball_center = ti.Vector.field(3, dtype=float, shape=(1, ))
ball_center[0] = [0, 0, 0]

x = ti.Vector.field(3, dtype=float, shape=(n, n))
v = ti.Vector.field(3, dtype=float, shape=(n, n))

num_triangles = (n - 1) * (n - 1) * 2
indices = ti.field(int, shape=num_triangles * 3)
vertices = ti.Vector.field(3, dtype=float, shape=n * n)
colors = ti.Vector.field(3, dtype=float, shape=n * n)

bending_springs = False

@ti.kernel
def initialize_mass_points():
    random_offset = ti.Vector([ti.random() - 0.5, ti.random() - 0.5]) * 0.1

    for i, j in x:
        x[i, j] = [
            i * quad_size - 0.5 + random_offset[0], 0.6,
            j * quad_size - 0.5 + random_offset[1]
        ]
        v[i, j] = [0, 0, 0]

@ti.kernel
def initialize_mesh_indices():
    for i, j in ti.ndrange(n - 1, n - 1):
        quad_id = (i * (n - 1)) + j

        indices[quad_id * 6 + 0] = i * n + j
        indices[quad_id * 6 + 1] = (i + 1) * n + j
        indices[quad_id * 6 + 2] = i * n + (j + 1)

        indices[quad_id * 6 + 3] = (i + 1) * n + j + 1
        indices[quad_id * 6 + 4] = i * n + (j + 1)
        indices[quad_id * 6 + 5] = (i + 1) * n + j

    for i, j in ti.ndrange(n, n):
        if (i // 4 + j // 4) % 2 == 0:
            colors[i * n + j] = (0.22, 0.72, 0.52)
        else:
            colors[i * n + j] = (1, 0.334, 0.52)

initialize_mesh_indices()

spring_offsets = []
if bending_springs:
    for i in range(-1, 2):
        for j in range(-1, 2):
            if (i, j) != (0, 0):
                spring_offsets.append(ti.Vector([i, j]))

else:
    for i in range(-2, 3):
        for j in range(-2, 3):
            if (i, j) != (0, 0) and abs(i) + abs(j)  2:
                spring_offsets.append(ti.Vector([i, j]))

@ti.kernel
def substep():
    for i in ti.grouped(x):
        v[i] += gravity * dt

    for i in ti.grouped(x):
        force = ti.Vector([0.0, 0.0, 0.0])
        for spring_offset in ti.static(spring_offsets):
            j = i + spring_offset
            if 0  j[0] < n and 0  j[1] < n:
                x_ij = x[i] - x[j]
                v_ij = v[i] - v[j]
                d = x_ij.normalized()
                current_dist = x_ij.norm()
                original_dist = quad_size * float(i - j).norm()

                force += -spring_Y * d * (current_dist / original_dist - 1)

                force += -v_ij.dot(d) * d * dashpot_damping * quad_size

        v[i] += force * dt

    for i in ti.grouped(x):
        v[i] *= ti.exp(-drag_damping * dt)
        offset_to_center = x[i] - ball_center[0]
        if offset_to_center.norm()  ball_radius:

            normal = offset_to_center.normalized()
            v[i] -= min(v[i].dot(normal), 0) * normal
        x[i] += dt * v[i]

@ti.kernel
def update_vertices():
    for i, j in ti.ndrange(n, n):
        vertices[i * n + j] = x[i, j]

window = ti.ui.Window("Taichi Cloth Simulation on GGUI", (1024, 1024),
                      vsync=True)
canvas = window.get_canvas()
canvas.set_background_color((1, 1, 1))
scene = ti.ui.Scene()
camera = ti.ui.make_camera()

current_t = 0.0
initialize_mass_points()

while window.running:
    if current_t > 1.5:

        initialize_mass_points()
        current_t = 0

    for i in range(substeps):
        substep()
        current_t += dt
    update_vertices()

    camera.position(0.0, 0.0, 3)
    camera.lookat(0.0, 0.0, 0)
    scene.set_camera(camera)

    scene.point_light(pos=(0, 1, 2), color=(1, 1, 1))
    scene.ambient_light((0.5, 0.5, 0.5))
    scene.mesh(vertices,
               indices=indices,
               per_vertex_color=colors,
               two_sided=True)

    scene.particles(ball_center, radius=ball_radius * 0.95, color=(0.5, 0.42, 0.8))
    canvas.scene(scene)
    window.show()

感兴趣的可以具体看看代码的实现过程，如果不加 taichi 库，这段代码运行起来会有点吃力，但是上了 taichi 之后，运行效果是如此丝滑！

总结

这个库是中国人发明的，它就是毕业于清华大学，后来去麻省理工学院进修的胡渊鸣

Original: https://blog.csdn.net/qq_34160248/article/details/127856008
Author: Python数据挖掘
Title: 这个神器，让我的 Python 代码运行速度快了100倍

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/724082/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【KAWAKO】DTLN-1Dconv的原理

目录怎么理解DTLN的第二部分呢对1D卷积的具体理解 1D卷积相较于STFT的优缺点优点缺点（不太确定）参考文献 DTLN是一种能够实时处理的语音降噪算法，其开源代码在这…

人工智能 2023年5月27日
00125
MySQL-索引

一、介绍索引是数据库对象之一，用于提高字段检索效率，使用者只需要对哪个表中哪些字段建立索引即可，其余什么都不做，数据库会自行处理。索引提供指向存储在表的指定列中的数据值的指针，…

人工智能 2023年7月30日
0087
ResNet结构

文章目录系列文章目录一、Residual net(残差网络) 二、BatchNormalization(BN) 三、ResNet结构前言 提&#…

人工智能 2023年6月24日
0093
深度学习利用回归算法进行数据预测

机床加工过程中，因热变形产生的热误差占机床加工总误差的40%-70%。热误差值补偿是解决热误差的主流技术，如何将神经网络建模与热误差值预测结合起来，是今天介绍的重点。本项目研究对象…

人工智能 2023年6月18日
00106
编译原理：词法分析

一、词法分析任务 ; 二、正则表达式到自动机 1.正则表达式字母表中每一个字符都是一个正则表达式。 L(ε)={ε}，L(a)={a} (其中a是字母表中一个字符)。同时多个正…

人工智能 2023年6月29日
0096
【OpenVX】vx_imagepatch_addressing_t

相同尺寸不同图像类型 int main() { vx_context context = vxCreateContext(); TEST_image_stride_y(contex…

人工智能 2023年6月20日
0072
CUDA版本不对重装+离线快速下载torch的gpu版本安装+各种坑

CUDA版本不对重装+离线快速下载torch的gpu版本安装+各种坑 windows走过配环境的坑，记录以下，防止下次再踩文章目录 CUDA版本不对重装+离线快速下载torch的…

人工智能 2023年7月22日
0055
CVPR 2022 Self-augmented Unpaired Image Dehazing via Density and Depth Decomposition个人学习笔记

1. Introduction 雾霾是由气溶胶粒子在大气中的散射效应引起的一种自然现象。它会导致视觉内容的严重模糊，从而给人类观察者和计算机视觉系统带来麻烦。去雾方法的目的是去除雾…

人工智能 2023年6月16日
00103
Python 函数的定义与调用

✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。🍎个人主页：小嗷犬的博客🍊个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。🥭本文内容：P…

人工智能 2023年7月29日
0099
faster rcnn：towards real-time object detection with region proposal network

轻松掌握 MMDetection 中常用算法(二)：Faster R-CNN|Mask R-CNN – 知乎文@ 0000070 前言在轻松掌握 MMDetectio…

人工智能 2023年7月10日
0084
AlexNet网络结构详解（含各层维度大小计算过程）与PyTorch实现

AlexNet网络结构详解（含各层维度大小计算过程）与PyTorch实现 * – 1、AlexNet之前的思考 – 2、AlexNet网络结构 &#8211…

人工智能 2023年7月21日
0085
Python：opencv画点、圆、线、多边形、矩形

简介：机器学习视觉方向一般都需要在图像中添加标注框，标注框有着很大的用处，特别是对图像中某些需要关注的特征起到圈定的效果，方便对特征选择进行处理。相关攻略：机器学习：基本流程P…

人工智能 2023年5月28日
0095
MATLAB图像处理学习日记之__图像的K-means均值法与局部阈值和迭代式阈值分割法算法——整理资源汇总

01、K-means均值法K-means均值法：是一种广泛的聚类方法 function [mu,mask]=kmeans(ima,k) %功能·：运用K-means算法对图像进行分…

人工智能 2023年6月3日
0075
目标检测: 一文读懂 YOLOV5 Loss 正样本采样

前言 YoloV5中 loss由正样本和负样本两部分 loss组成，负样本对应着图像的背景，如果负样本远多于正样本，则负样本会淹没正样本的损失，从而降低网络收敛的效率与检测精度。这…

人工智能 2023年5月26日
0060
多分类loss、softmax loss与交叉熵的关系

0、引子：多分类loss采用的是softmax loss，也可称之为softmax交叉熵loss，这个loss中的q就使用的是模型的softmax输出，它就是用来拟合真正的§编码…

人工智能 2023年7月1日
0083
Mac M1 运行tensorflow2.x报错model: “0“ num_cores: 8 environment { key: “cpu_instruction_set“ value:

报错信息如下： 2022-04-12 22:17:09.670204: I tensorflow/compiler/mlir/mlir_graph_optimization_pas…

人工智能 2023年5月23日
00118

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31