数据分析常用的库(更新中):NumpyPandasMatplotlib

注:本文写的比较混乱,主要为机器学习打基础用,很多函数没有记录,大家可以去查工具书

00、开发环境:Jupyter Notebook

下载地址:建议去清华镜像下载:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/,如果去官网下载会很慢,因为是外网。
找到最新的64位,下载安装即可

数据分析常用的库(更新中):NumpyPandasMatplotlib
进入的方法:首先找到你要存放文件的盘,然后输入cd+路径进入该文件夹。最后输入jupyter notebook会自动弹出来网页供你使用编辑。(注意:敲代码过程中不要关闭下面这个命令窗口,否则会掉线)
数据分析常用的库(更新中):NumpyPandasMatplotlib

; 一、数值计算扩展工具——Numpy

(1)numpy中的数组
数组和列表基本差不多,但有两个小区别,第一个是数组只能存储相同的数据类型,如果出现了不同的数据类型,那么会自动进行调整。第二个就是说数组是多维了,如果多维数组数据都是数值,那么就可以理解为线性代数中的矩阵。

数据分析常用的库(更新中):NumpyPandasMatplotlib

如何创建数组?
Numpy经常和数组打交道,所以第一步要学会创建数组。在Numpy中数组的数据类型叫做ndarray。
数组的第一种创建方式:使用np.array([])创建,如上面那张图所示
第二种方式是啥捏,使用np.arange()来创建,其实类似与Python中的range函数

数据分析常用的库(更新中):NumpyPandasMatplotlib
这里实际上也是np.arange(start, end, step),左闭右开[start, end)
第三种创建方式就是使用random函数,也就是np.random.random((行数,列数)),这里是套娃,括号里还有个括号,也不知道为啥,记住就完事儿了。最终生成一个0~1的随机数的多维数组,也是套娃,数组里还有数组。
数据分析常用的库(更新中):NumpyPandasMatplotlib
还是第三种方式,如果说想自定义随机数的范围,那么语法是这样滴:np.random.randint(开始数,结束数,size=(行数,列数)),如下图所示:
数据分析常用的库(更新中):NumpyPandasMatplotlib
第四种方式比较秀,使用函数来生成特殊的数组,话不多说直接上图:
数据分析常用的库(更新中):NumpyPandasMatplotlib
数组中有哪些数据类型呢?
话不多说直接上图
数据分析常用的库(更新中):NumpyPandasMatplotlib
输出数组的维数:.ndim ,表示数组的形状(几行几列):.shape
数据分析常用的库(更新中):NumpyPandasMatplotlib
剩下的不多记了,有需要的去查书。下面是我听的那个老师的总结:
数据分析常用的库(更新中):NumpyPandasMatplotlib
(2)Numpy中多维数组的索引和切片
数据分析常用的库(更新中):NumpyPandasMatplotlib
(3)Numpy中数值的替换操作
数据分析常用的库(更新中):NumpyPandasMatplotlib
(4)数组的形状操作:reshape和resize
这两个东西是有区别的,其中reshape不会改变原数组,而resize会直接把原数组变成新数组。啥意思呢?让我们看下代码
数据分析常用的库(更新中):NumpyPandasMatplotlib
还有两个方法:flatten和ravel,是把数组变成一维

数组叠加操作:

数据分析常用的库(更新中):NumpyPandasMatplotlib
数据分析常用的库(更新中):NumpyPandasMatplotlib
深拷贝和浅拷贝的一张图帮助理解:
数据分析常用的库(更新中):NumpyPandasMatplotlib
(5)csv文件的操作
np.savetxt和np.loadtxt一般用来操作csv文件,可以设置header,但是不能存储三维以上的数组
np.save和np.load一般用来存储非文本类型的文件,可以不设置header,但是可以存储三维以上的数组
如果想专门操作CSV文件,还有另一个模块叫csv,这个模块是python内置的,不需要安装。
那么如何使用python内置csv模块读取csv文件呢?
  import csv

with open('stock.csv','r') as fp:

    reader = csv.reader(fp)
    titles = next(reader)
    for x in reader:
        print(x)

另一种方式:

数据分析常用的库(更新中):NumpyPandasMatplotlib
那么如何使用python内置csv模块写入csv文件呢?
其中乱码使用encoding=’utf-8’来解决,空行使用newline=’ ‘来解决,因为默认是/n
数据分析常用的库(更新中):NumpyPandasMatplotlib

二、数据分析工具——Pandas

(1)什么是pandas?
Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了高级数据结构和数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一。

1.一个强大的分析和操作大型结构化数据集所需的工具集
2.基础是NumPy,提供了高性能矩阵的运算
3.提供了大量能够快速便捷地处理数据的函数和方法
4.应用于数据挖掘,数据分析
5.提供数据清洗功能

学到这里,感觉这些东西学了就忘,没必要系统地去学习,用的时候翻文档就行了,over

Original: https://blog.csdn.net/weixin_42044763/article/details/121445318
Author: ForMyself.
Title: 数据分析常用的库(更新中):NumpyPandasMatplotlib

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/765364/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球