利用Python进行数据分析（二）：numpy

2023年9月20日下午12:04 • Python • 阅读 72

利用Python进行数据分析（二）：numpy

1、基本数组统计方法

import numpy as np

arr = np.random.randn(5,4)

arr
Out[3]:
array([[ 0.42741289, -0.14289007,  0.02772825, -2.06617452],
       [-1.09157199,  0.51249564,  0.20785299, -0.41684576],
       [ 1.74779292, -1.49081423, -0.16935059,  1.53038018],
       [-0.60548802, -0.33727061,  0.52543707, -0.21070918],
       [ 1.77986103, -0.5814942 ,  1.3287214 , -0.33070122]])

arr.mean()
Out[4]: 0.03221859825961611

np.mean(arr)
Out[5]: 0.03221859825961611

arr.sum()
Out[6]: 0.6443719651923222

arr.mean(axis=1)
Out[7]: array([-0.43848086, -0.19701728,  0.40450207, -0.15700768,  0.54909675])

arr.mean(axis=0)
Out[8]: array([ 0.45160137, -0.4079947 ,  0.38407782, -0.2988101 ])

mean和sum这类的函数可以接受一个axis选项参数，axis = 1对行进行计算，axis = 0对列进行计算。

arr2
Out[13]:
array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

arr2.cumsum(axis=1)
Out[14]:
array([[ 1,  3,  6],
       [ 4,  9, 15],
       [ 7, 15, 24]], dtype=int32)

arr2.cumsum(axis=0)
Out[15]:
array([[ 1,  2,  3],
       [ 5,  7,  9],
       [12, 15, 18]], dtype=int32)

在多维数组中，累加函数（如cumsum）返回的是同样大小的数组，但是会根据每个低维的切片沿着标记轴计算部分聚类。

NumPy数组也可以通过sort方法就地排序

arry.sort()

多维数组可以在任何一个轴向上进行排序，只需将轴编号传给sort

arry
Out[26]:
array([[ 1,  3,  2],
       [ 5,  3,  7],
       [10,  5, 18]])

arry.sort(axis=0)

arry
Out[28]:
array([[ 1,  3,  2],
       [ 5,  3,  7],
       [10,  5, 18]])

2、唯一化以及其它的集合逻辑

unique函数：np.unique了，它用于找出数组中的唯一值并返回已排序的结果

arry
Out[36]: array([ 1,  5,  3,  2,  1,  5, 32,  2])
np.unique(arry)
Out[38]: array([ 1,  2,  3,  5, 32])

另一个函数np.in1d用于测试一个数组中的值在另一个数组中的成员资格，返回一个布尔型数组。

values = np.array([0,1,2,3,4,5,6])
np.in1d(values,[2,4,6])
Out[41]: array([False, False,  True, False,  True, False,  True])

数组的集合运算

; 3、用于数组的文件输入输出

np.save和np.load是读写磁盘数组数据的两个主要函数。默认情况下，数组是以未压缩的原始二进制格式保存在扩展名为.npy的文件中的。

arr = np.arange(10)
np.save("same_arr",arr)
np.load("same_arr.npy")
Out[44]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

如果文件路径末尾没有扩展名.npy，则该扩展名会被自动加上。
通过np.savez可以将多个数组保存到一个未压缩文件中，将数组以关键字参数的形式传入即可。

np.savez("sz.npz",a=arr,b=arr)
np.load("sz.npz")
Out[48]: <numpy.lib.npyio.NpzFile at 0x23b4e05f160>

加载.npz文件时，你会得到一个类似字典的对象，该对象会对各个数组进行延迟加载。
如果要将数据压缩，可以使用numpy.savez_compressed

4、线性代数

NumPy提供了一个用于矩阵乘法的dot函数（既是一个数组方法也是numpy命名空间中的一个函数）。

x=np.array([[1,2,3],[4,5,6]])
y=np.array([[1,2],[3,4],[5,6]])
x.dot(y)
Out[53]:
array([[22, 28],
       [49, 64]])

x.dot(y)等价于np.dot(x, y)
一个二维数组跟一个大小合适的一维数组的矩阵点积运算之后将会得到一个一维数组。
@符（类似Python 3.5）也可以用作中缀运算符，进行矩阵乘法。

x@y
Out[59]:
array([[22, 28],
       [49, 64]])

numpy.linalg中有一组标准的矩阵分解运算以及诸如求逆和行列式之类的东西。

from numpy.linalg import inv,qr
x=np.random.randn(5,5)
mat=x.T.dot(x)
mat
Out[64]:
array([[10.37712152, -5.10419681, -0.80498547,  0.04520722, -0.84198893],
       [-5.10419681,  5.94101822,  1.56400295, -1.34399934,  1.84710689],
       [-0.80498547,  1.56400295,  3.35766495,  0.33595866,  0.03256461],
       [ 0.04520722, -1.34399934,  0.33595866,  4.08700355,  0.293452  ],
       [-0.84198893,  1.84710689,  0.03256461,  0.293452  ,  2.05864858]])

inv(mat)
Out[65]:
array([[ 0.22342933,  0.30839169, -0.1003022 ,  0.1216244 , -0.20106978],
       [ 0.30839169,  0.78138849, -0.31645865,  0.32379726, -0.61611257],
       [-0.1003022 , -0.31645865,  0.43441041, -0.15722382,  0.25845637],
       [ 0.1216244 ,  0.32379726, -0.15722382,  0.38377425, -0.2929986 ],
       [-0.20106978, -0.61611257,  0.25845637, -0.2929986 ,  0.9939976 ]])

mat.dot(inv(mat))
Out[66]:
array([[ 1.00000000e+00, -2.07992207e-17,  5.43011873e-17,
         5.95568423e-17,  2.97700294e-17],
       [ 1.13837630e-16,  1.00000000e+00, -1.02394604e-16,
         1.48722899e-16,  4.70987699e-16],
       [ 4.16393039e-17,  1.95644710e-16,  1.00000000e+00,
         2.99156534e-17,  1.03333728e-17],
       [-3.86509832e-17, -2.37798205e-16,  1.67187680e-16,
         1.00000000e+00, -1.55389362e-16],
       [ 4.58549145e-17,  1.10664271e-16, -4.56052878e-17,
         6.59657520e-17,  1.00000000e+00]])
q,r=qr(mat)
r
Out[69]:
array([[-11.62310057,   7.41334018,   1.6391077 ,  -0.60193877,
          1.71311653],
       [  0.        ,  -3.7490203 ,  -1.62958074,   2.18151574,
         -1.6085624 ],
       [  0.        ,   0.        ,  -3.02320061,  -1.62537854,
          0.5251479 ],
       [  0.        ,   0.        ,   0.        ,  -3.30874019,
         -1.41675657],
       [  0.        ,   0.        ,   0.        ,   0.        ,
          0.80046046]])

表达式X.T.dot(X)计算X和它的转置X.T的点积。
常用的numpy.linalg函数

5、伪随机数生成

numpy.random模块
用normal来得到一个标准正态分布的4×4样本数组

a = np.random.normal(size=(4,4))

a
Out[71]:
array([[ 0.568, -0.683,  0.279, -1.866],
       [-0.596,  0.387, -0.007, -0.379],
       [-0.252,  0.679,  1.717,  0.288],
       [-0.124,  0.299,  0.896,  2.186]])

这些都是伪随机数，是因为它们都是通过算法基于随机数生成器种子，在确定性的条件下生成的。可以用NumPy的np.random.seed更改随机数生成种子。
部分np.random函数

6、示例：随机漫步

通过模拟随机漫步来说明如何运用数组运算。先来看一个简单的随机漫步的例子：从0开始，步长1和－1出现的概率相等。

import random
position=0
walk=[position]
steps=1000
for i in range(steps):
    step = 1 if random.randint(0,1) else -1
    position += step
    walk.append(position)
import matplotlib.pyplot as plt
plt.plot(walk[:100])
Out[88]: [<matplotlib.lines.Line2D at 0x23b4ec2a2e0>]

一次模拟多个随机漫步

walks=np.random.randint(0,2,size=(5000,10000))
steps=np.where(walks>0,1,-1)
s=steps.cumsum(1)
s
Out[100]:
array([[   1,    0,    1, ...,  -26,  -27,  -28],
       [  -1,   -2,   -1, ...,  -94,  -93,  -94],
       [   1,    0,    1, ...,  -44,  -43,  -42],
       ...,
       [  -1,   -2,   -3, ..., -182, -183, -184],
       [  -1,   -2,   -3, ...,  -72,  -71,  -70],
       [   1,    2,    3, ...,   32,   31,   32]], dtype=int32)
s.max()
Out[102]: 410
s.min()
Out[103]: -437

Original: https://blog.csdn.net/catchmeifyoucOol/article/details/121377912
Author: catchcatpath
Title: 利用Python进行数据分析（二）：numpy

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/780943/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

2流高手速成记（之九）：基于SpringCloudGateway实现服务网关功能

咱们接上回上一节我们基于Sentinel实现了微服务体系下的限流和熔断，使得整个微服务架构的安全性和稳定性上升了一个台阶篇尾我们引出了一个问题，众多的微服务节点，我们如何部署才…

Python 2023年10月14日
0049
Python 函数相关知识

Python 匿名函数：lambda匿名函数：也叫一句话函数，一行构建一个函数，比较简单的函数。 *语法：函数名 = lambda 参数 : 返回值 1.此函数不是没有名字，他是…

Python 2023年6月10日
0051
天池数据-耳机情感分析

import numpy as np import pandas as pd import matplotlib import matplotlib.pyplot as plt i…

Python 2023年8月22日
0055
jupyter和pyzmq之间的一些个奇葩坑

文章目录导读发现问题 GitHub版本回溯查询你以为这就结束了？又好气又好笑的bug 你以为又双叒叕结束了？导读估计不少人和我遇到了同样的问题， jupyter-cli…

Python 2023年8月9日
0047
对抗攻击方法一览

神经网络在过去的几年和几十年已经获得了长足的进步，神经网络的应用已经遍布我们生活的各个角落。但是与此同时，也有人发现神经网络并不像我们预期的那么具有鲁棒性，仅仅在图片中添加一个微笑…

Python 2023年10月28日
0024
【跨年烟花代码】用C语言来写“烟花”，快拿去给心中的那个人看

序你向窗外看烟火，我在窗边看你，这时，你比烟花好看的多，你的眼眸倒映满天的烟火，我的瞳孔倒影你闪光的眼色，这时，我比烟花寂寞嗨！这里是狐狸~~ 我之前有发过一篇有关程序员相亲的…

Python 2023年11月7日
0037
ClickHouse(07)ClickHouse数据库引擎解析

这里会介绍ClickHouse几种数据库引擎，已经对应的特点和应用的场景。数据库引擎允许您处理数据表。默认情况下，ClickHouse使用Atomic数据库引擎。它提供了可配置的t…

Python 2023年10月19日
0036
python命令行式的优缺点_Pytest VS Unittest 简单说一下之间的优缺点

一、什么是单元测试框架？ unittest 是python标准的单元测试框架模块 pytest 是python第三方库的测试框架二、从兼容性方面考虑因unnitest是标准库，…

Python 2023年9月12日
0049
flask+vue开发学习

前言：开发打算采取的方案是前端vue+后端flask框架进行web开发 from flask import Flask, render_template app = Flask(_…

Python 2023年8月9日
0046
Dapr实现.Net Grpc服务之间的发布和订阅，并采用WebApi类似的事件订阅方式

大家好，我是失业在家，正在找工作的博主Jerry，找工作之余，总结和整理以前的项目经验，动手写了个洋葱架构（整洁架构）示例解决方案 OnionArch。其目的是为了更好的实现基于D…

Python 2023年10月17日
0037
python和java对接数据的简单实现

一、python检测到的图片能够在平台进行展示开发环境：电脑一：python实现人体检测，并实时保存有异常动作的图片，电脑二：Java实现平台开发问题描述：电脑一检测到异常图片…

Python 2023年8月9日
0056
这些Java基础知识，诸佬们都还记得嘛(学习，复习，面试都可)

前言：大家好，我是小威，24届毕业生，最近面了比心，字节，cider等很多公司。本篇将记录几次面试中经常被问到的知识点以及对学习的知识点总结（专栏中有介绍其他面试题，就不重复记录了…

Python 2023年10月9日
0053
matplotlib库问题：UserWarning: findfont: Font family [‘MicroSoft YaHei‘] not found.Falling back

一、问题调用matplotlib库出现中文无法显示的问题：（1）代码报错路径error： …Anaconda3\Lib\site-packages\matplotlib\f…

Python 2023年8月31日
0036
python函数：pd.Series()

形式： pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False…

Python 2023年8月19日
0059
基于Netty的TCP服务框架

19年写的一个基础的TCP服务框架，内置了一个简单IOC容器，当时的目标是一方面能作为组件供第三方集成实现TCP通讯相关功能，另一方面作为提供一种服务框架范式。所以框架核心点主要还…

Python 2023年10月19日
0035
解决python中matplotlib与seaborn画图时中文乱码的根本问题：

首先我们要明确seaborn是基于matplotlib的，我们要先学会解决matplotlib中文乱码的问题：这个问题，在其他的一些博文中都有，我这里就简单的介绍一下：一.ma…

Python 2023年9月2日
0055

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

利用Python进行数据分析（二）：numpy

利用Python进行数据分析（二）：numpy

1、基本数组统计方法

2、唯一化以及其它的集合逻辑

数组的集合运算

; 3、用于数组的文件输入输出

4、线性代数

5、伪随机数生成

6、示例：随机漫步

大家都在看