机器学习—初识python的numpy模块

2023年6月15日下午11:24 • 人工智能 • 阅读 66

🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝
🥰 博客首页： knighthood2001
😗 欢迎点赞👍评论🗨️
❤️ 热爱python，期待与大家一同进步成长！！❤️

Numpy 是Numerical Python extensions的缩写，字面意思是Python数值计算扩展。Numpy是python中众多机器学习库的依赖，这些库通过Numpy实现基本的矩阵计算。

Numpy 支持高阶、大量计算的矩阵、向量计算，与此同时还提供了较为丰富的函数。此外，Numpy基于更加现代化的编程语言–python，python凭借着开源、免费、灵活性、简单易学、工程特性好等特点风靡技术圈，已经成为机器学习、数据分析等领域的主流编程语言。

本文主要带大家粗略的学习python的numpy模块！！

一、array类型

1.1array类型的基本使用

1.2对更高维度数据的处理

1.3Numpy创建特殊类型的array类型

1.3.1生成全为0或全为1的array

1.3.2np.arrange()和np.linspace()

1.4Numpy基础计算演示

二、线性代数相关

三、矩阵的高级函数-随机数矩阵

四、总结

numpy的array类型是该库的一个基本数据类型，这个数据类型从字面上看是数组的意思，也就意味着它最关键的属性是元素与维度，我们可以用这个数据类型来实现多维数组。

因此，通过这个数据类型，我们可以使用 一维数组来表示向量，二维数组表示矩阵，并以此类推以用来表示更高维度的张量。

1.1array类型的基本使用

import numpy as np
通过np.array()方法创建一个名为array的array类型，参数是一个list
array = np.array([1, 2, 3, 4])
print(array)
结果为：[1 2 3 4]

获取array中元素的最大值
print(array.max())
结果为：4

获取array中元素的最小值
print(array.min())
结果为：1

获取array中元素的平均值
print(array.mean())
结果为：2.5

直接将array乘以2，python将每个元素都乘以2
print(array*2)
结果为：[2 4 6 8]

print(array+1)
结果为：[2 3 4 5]

print(array/2)
结果为：[0.5 1.  1.5 2. ]

将每一个元素都除以2，得到浮点数表示的结果
print(array % 2)
结果为：[1 0 1 0]

array_1 = np.array([1, 0, 2, 0])
获取该组数据中元素值最大的那个数据的首个索引，下标从0开始
print(array_1.argmax())
结果为：2

通过上面的代码，我们可以了解到Numpy中array类型的基本使用方法。

我们可以看到， array其实是一个类，通过传入一个list参数来实例化为一个对象，从而实现了对数据的封装。

1.2对更高维度数据的处理

import numpy as np
创建一个二维数组，用以表示一个3行2列的矩阵
array = np.array([[1, 2], [3, 4], [5, 6]])
print(array)

查看数据的维度属性，下面输出结果（3，2）表示3行2列
print(array.shape)
结果为：(3, 2)

查看元素个数
print(array.size)
结果为：6

查看元素最大值的索引
print(array.argmax())
结果为：5

将shape为（3，2）的array转换为一行表示
print(array.flatten())
结果为：[1 2 3 4 5 6]
我们可以看到，flatten()方法是将多维数据"压平"为一维数组的过程

#将array数据从shape为（3，2）的形式转为（2，3）的形式
print(array.reshape(2, 3))
'''结果为：
[[1 2 3]
 [4 5 6]]'''

#将array数据从shape为（3，2）的形式转为（1，6）的形式
print(array.reshape(1, 6))
结果为：[[1 2 3 4 5 6]]

高级一点的就是flatten()和reshape()函数了，需要注意下reshape()返回的结果是array类型

1.3Numpy创建特殊类型的array类型

import numpy as np
生成所有元素为
array_zeros = np.zeros((2, 3, 3))
print(array_zeros)
'''结果为：
[[[0. 0. 0.]
  [0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]
  [0. 0. 0.]]]
'''
array_ones = np.ones((2, 3, 3))
print(array_ones)
'''结果为：
[[[1. 1. 1.]
  [1. 1. 1.]
  [1. 1. 1.]]

 [[1. 1. 1.]
  [1. 1. 1.]
  [1. 1. 1.]]]
'''
print(array_ones.shape)
结果为：(2, 3, 3)

注意：如果将（2，3，3）改为（3，3）

array_zeros = np.zeros((3, 3))
print(array_zeros)
'''结果为：
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
'''

其生成的是3行3列的array

arange([start,] stop[, step,], dtype=None, , like=None)

返回给定间隔内均匀分布的值。值在半开区间[start, stop)（换句话说，包括start但不包括stop的区间）内生成。 对于整数参数，该函数等效于 Python 内置的 range 函数，但返回的是 ndarray 而不是列表。当使用非整数步长（例如 0.1）时，结果通常会不一致。对于这些情况，最好使用 numpy.linspace。

linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None, axis=0)

在指定的时间间隔内返回均匀分布的数字。返回”num”个均匀分布的样本，在区间 [start, stop] 上计算。

start：序列的起始值。
stop：序列的结束值，除非 endpoint 设置为 False。在这种情况下，序列由除最后一个”num + 1″个均匀分布的样本之外的所有样本组成，因此排除了”stop”。请注意，当 endpoint 为 False 时，步长会发生变化。
num=50：要生成的样本数。默认值为 50。必须为非负数。
endpoint=True：如果为真，stop 是最后一个样本。否则，不包括在内。默认为真。
retstep=False：如果为 True，则返回 (samples, step)，其中 step 是样本之间的间距。
dtype=None：输出数组的类型。如果 dtype 没有给出，数据类型是从 start 和 stop 推断出来的。推断的 dtype 永远不会是整数；即使参数会产生一个整数数组，也会选择float。

因此以下代码就很容易理解了

生成一个array，从0递增到10，步长为1
array_arange = np.arange(10)
print(array_arange)
结果为：[0 1 2 3 4 5 6 7 8 9]

生成一个array，从0递增到10，步长为2
array_arange_1 = np.arange(0, 10, 2)
print(array_arange_1)
结果为：[0 2 4 6 8]

生成一个array，将0-10等分为5部分
array_linspace = np.linspace(0, 10, 5)
print(array_linspace)
结果为：[ 0.   2.5  5.   7.5 10. ]

1.4Numpy基础计算演示

import numpy as np
取绝对值
print(np.abs([1, -2, 3, -4]))
[1 2 3 4]

求正弦值
print(np.sin(np.pi/2))
1.0

求反正切值
print(np.arctan(1))
0.7853981633974483

求e的2次方
print(np.exp(2))
7.38905609893065

求2的三次方
print(np.power(2, 3))
8

求向量[1,2]与[3,4]的点积
print(np.dot([1, 2], [3, 4]))
11

求开方
print(np.sqrt(4))
2.0

求和
print(np.sum([1, 2, 3, 4]))
10

求平均值
print(np.mean([1, 2, 3, 4]))
#2.5

求标准差
print(np.std([1, 2, 3, 4]))
1.118033988749895

前面我们已经了解到array类型及其基本操作方法，了解array类型可以表示向量、矩阵和多维张量。

线性代数计算在科学计算领域中非常重要，因此接下来 了解以下Numpy提供的线性代数操作

import numpy as np

vector_a = np.array([1, 2, 3])
vector_b = np.array([2, 3, 4])
定义两入向量vector_a与vector_b

m = np.dot(vector_a, vector_b)
将两个向量相乘，在这里也就是点乘，结果为20
print(m)

n = vector_a.dot(vector_b)
print(n)
将vector_a与vector_b相乘，结果为20
o = np.dot(vector_a, vector_b.T)
print(o)

'''
将一个行向量与一个列向量叉乘的结果相当于将两个行向量求点积，这里测试了dot()方法。其中array类型的T()方法表示转置。
测试结果表明:
dot()方法默认对两个向量求点积。对于符合叉乘格式的矩阵，自动进行又乘。'''

我们看一下下面这个例子:

matrix_a = np.array([[1, 2], [3, 4]])
定义一个2行2列的方阵

matrix_b = np.dot (matrix_a, matrix_a.T)
这里将该方阵与其转置叉乘，将结果赋予matrix_b变量
print(matrix_b)
'''结果为:
array([[5，11]，
[11，25]])'''

p = np.linalg.norm([1, 2])
print(p)
求一个向量的范数的值，结果为2.2360679774997898
如果norm()方法没有指定第2个参数，则默认为求2范数

np.linalg.norm([1, -2], 1)
指定第2个参数值为1,即求1范数。我们在前面介绍过,1范数的结果为向量中各元素绝对值之和,结果为3.0

q = np.linalg.norm([1, 2, 3, 4], np. inf)
print(q)
求向量的无穷范数,其中np.inf表示正无穷，也就是向量中元素值最大的那个，其结果为4.0

r = np.linalg .norm([1, 2, 3, 4], -np.inf)
print(r)
同理,求负无穷范数的结果为1, 也就是向量中元素的最小值

求行列式
s = np.linalg.det(matrix_a)
print(s)
-2.0000000000000004

t = np.trace(matrix_a)
print(t)
求矩阵matrix_a的迹,结果为5

u = np.linalg.matrix_rank(matrix_a)
求矩阵的秩,结果为2
print(u)

v = vector_a * vector_b
使用*符号将两个向量相乘，是将两个向量中的元素分别相乘，也就是我们所讲到的哈达马乘积
print(v)
[ 2  6 12]

w = vector_a ** vector_b
print(w)
使用二元运算符**对两个向量进行操作,结果为array([1, 8, 81]，dtype = int32)
表示将向量vector. a中元素对应vector. b中的元素值求幂运算。例如最终结果[1,8,81]可以表示为[1*1,2*2*2,3*3*3*3]

求逆矩阵
z = np.linalg.inv(matrix_a)
print(z)
'''
[[-2.   1. ]
 [ 1.5 -0.5]]'''

Numpy除了为我们提供常规的数学计算函数和矩阵相关操作之外，还提供很多功能丰富的模块， 随机数模块就是其中一部分。

利用随机数模块可以生成随机数矩阵，比python自带的随机数模块功能还要强大。

import numpy as np
设置随机数种子
np.random.seed()

从[1,3）中生成一个整型的随机数，连续生成10个
a = np.random.randint(1, 3, 10)
print(a)
[1 1 1 2 1 1 1 1 2 2]

若要连续产生[1,3}之间的浮点数，可以使用以下方法:
①
b = 2*np.random.random(10)+1
print(b)
'''
[2.88458839 2.07004167 2.80814156 1.83247535 2.33649809 2.62763357
 2.0549351  2.33464915 1.70562208 2.66257726]'''
②
c = np.random.uniform(1, 3, 10)
print(c)
'''
[1.76967412 1.37703868 2.48838004 1.45986254 2.04487418 2.51107658
 1.25673115 1.31416097 2.56218317 2.90575438]'''

生成一个满足正态分布(高斯分布)的矩阵,其维度是4*4
d = np. random.normal(size=(4, 4))
print(d)
'''
[[ 0.76164366  0.11588368  0.49221559 -0.28222691]
 [ 0.47638143 -0.21197541 -1.0776362   0.49241666]
 [ 0.26038756 -0.20406522  1.11210954 -1.191425  ]
 [ 0.58255677  1.84047863 -0.21366512 -0.85425828]]'''

随机产生10个n=5、p=0.5的二项分布数据:
e = np.random.binomial(n=5, p=0.5, size=10)
print(e)
[1 1 5 2 1 2 1 2 1 2]

产生一个0到9的序列
data = np.arange(10)
print(data)
[0 1 2 3 4 5 6 7 8 9]

从data数据中随机采集5个样本，采集过程是有放回的
f = np.random.choice(data, 5)
print(f)
[1 7 3 3 4]

从data数据中随机采集5个样本，采集过程是没有放回的
g = np.random.choice(data, 5, replace=False)
print(g)
[8 9 1 5 0]

对data进行乱序
h = np.random.permutation(data)
print(h)
[8 5 3 9 2 0 4 6 1 7]

对data进行乱序，并替换为新的data
np.random.shuffle(data)
print(data)
[9 7 0 3 8 5 2 1 4 6]

①目前 机器学习领域非常火爆，因此如果想涉及该领域，学习numpy的相关知识是必不可少的，因此笔者写了这篇 numpy基础型文章，供大家学习；

②以上代码笔者是 纯手敲的，如果觉得不错的话，希望三连支持一下！！ ❤️❤️

Original: https://blog.csdn.net/knighthood2001/article/details/124840909
Author: knighthood2001
Title: 机器学习—初识python的numpy模块

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/618175/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

向量与矩阵（2）

1、将三个向量组成一个矩阵 X=[ 2, 2,2];Y=[1,1,1]Z=[1,2,1] A=[X;Y;Z]A =2 2 21 1 11 2 1 2、矩阵的秩 rank（A）若矩…

人工智能 2023年6月28日
0065
树莓派4b上部署yolov3和v3-tiny记录带截图

首先在 PC 上进行yolov3的模型训练和测试，得到.weight和.cfg文件，这两个文件要进行模型的转换然后在树莓派上部署。一、在树莓派上烧录镜像，buster10系统即可…

人工智能 2023年7月12日
0041
Softmax回归介绍以及公式由来

1.softmax回归是一种多分类的算法 2.softmax是基于多项式分布，即有多个分类，其中每条样本预测的概率加和等于1用公式表达就是 3.如果由k各类别: 1, 2, 3, …

人工智能 2023年6月18日
0070
Python_爬虫数据存入数据库(超详细过程

目录一、新建项目二、程序的编写三、数据的爬取一、新建项目 1.在cmd窗口输入scrapy startproject [项目名称] 创建爬虫项目接着创建爬虫文件，scra…

人工智能 2023年7月5日
0076
[python][pandas]DataFrame的基本操作

问题来源在实验中经常需要将数据保存到易于查看的文件当中，由于大部分都是vector数据，所以选择pandas的dataframe来保存到csv文件是最简单的方法。基本操作下图…

人工智能 2023年6月2日
0083
AISHELL-2 中文语音数据库

Abstract AISHELL-1 is by far the largest open-source speech corpus available for Mandarin …

人工智能 2023年5月23日
00100
支持向量机SVM模型中C和gamma参数分别是什么？对模型有什么影响？

支持向量机SVM模型中C和gamma参数分别是什么？对模型有什么影响？ SVM模型有两个非常重要的参数C与gamma。 C的本质是正则化系数。 C值是惩罚系数或者叫惩罚因子，表征的…

人工智能 2023年7月16日
0074
网络安全-Web端安全协议

前言大家上网娱乐或办公总是离不开浏览器，也就是从web端访问各个网站，其安全的重要性与其使用的广泛性成正比。本文就web端常见的相关安全协议分享。一、SSL SSL(Secur…

人工智能 2023年5月30日
0078
【图像分类】Swin Transformer理论解读+实践测试

前言 Swin Transformer是2021年微软研究院发表在ICCV上的一篇文章，问世时在图像分类、目标检测、语义分割多个领域都屠榜。根据论文摘要所述，Swin Trans…

人工智能 2023年7月3日
0062
Ivy 开源，深度学习大一统时代到来？

喜欢就关注 AIZOO吧！它来了，它带着统一主流深度学习框架的接口来了。最近，有一个开源的框架：IVY，它将几个主流的深度学习框架都做了一个统一的封装，包括 PyTorch、Te…

人工智能 2023年5月25日
0090
到底什么是自动化优先思维?与RPA有什么关系?

基于RPA的自动化优先，正在成为广大组织的主流管理思维到底什么是自动化优先思维?与RPA有什么关系? 如何用RPA简单快速的打造一个自动化优先的组织? 文/王吉伟在IT运维项目…

人工智能 2023年6月4日
0089
SELD_net_questions

SELD-net实验问题梳理源代码调试时遇到的错误及解决 seld-net原版代码：https://gitee.com/karas1/seld-net 拿到源代码后，按照read…

人工智能 2023年5月25日
0070
VALSE2022内容总结

valse2022于8月21日在天津&#…

人工智能 2023年7月10日
0072
Android 环境下OpenCV使用– 环境搭建（一）

OpenCv 环境搭建 * – + 1、OpenCV SDK下载 + 2、Android Studio 创建 C++ 工程 + 3、openCV的so库加载项目中 +…

人工智能 2023年7月19日
0055
详解Transformer中Self-Attention以及Multi-Head Attention

原文名称：Attention Is All You Need原文链接：https://arxiv.org/abs/1706.03762 如果不想看文章的可以看下我在b站上录的视频：…

人工智能 2023年6月16日
0068
【知识图谱】实践篇——基于知识图谱的《红楼梦》人物关系可视化及问答系统实践：part3前端搭建与可视化

前序文章：【知识图谱】实践篇——基于知识图谱的《红楼梦》人物关系可视化及问答系统实践：part1项目介绍与环境准备【知识图谱】实践篇——基于知识图谱的《红楼梦》人物关系可视化及…

人工智能 2023年6月10日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习—初识python的numpy模块

1.1array类型的基本使用

1.2对更高维度数据的处理

1.3Numpy创建特殊类型的array类型

1.4Numpy基础计算演示

大家都在看