Python数据分析初级

2023年6月11日下午2:39 • 人工智能 • 阅读 63

数据准备相关概念

3）.数据取值

样本个数：就是数据表的行数，由于每一行数据也叫做一条记录，所以样本的个数也可以说是数据表的记录数。

变量个数：调查对象的特征或属性称为变量，由于第一列为调查对象，所以除了第一列外的剩余列数称为变量个数。很多情况下，我们可以直接用数据表的列数来表示变量的个数。

数据取值：每个字段的取值即为数据取值。

类别型数据：用来描述性质或特征的，也称为定性数据。

数值型数据：用来描述数量的，涉及到数字，也叫做定量数据。

import pandas as pd

import matplotlib.pyplot as plt

import numpy as np

变量=pd.read_csv(‘文件名’,encoding=’utf-8′)

使用head()显示文件前几行

使用shape检查数据整体行数列数

使用columns检查数据中字段

使用value_counts()查看字段情况（类型，取值情况）

使用duplicated().sum()检查数据重复情况

使用drop删除数据字段变量.drop([‘删除的字段’],axis=1,inplace=True)

使用drop_duplicates(inplace=True)删除数据重复行

使用变量.duplicated([‘字段’]).sum()检查某字段重复情况

使用变量.drop_duplicates([‘字段’],inplace=True)删除某字段数据重复行

politic _relation[‘姓名’].groupby(politic_relation[‘Indexyear’]).nunique()

后面加.idxmax()求最大值

2.使用groupby() 和value_counts()进行分组计数

3.用matplotlib制图做柱状图

from pylab import mpl 防止乱

mpl.rcParams[‘font.sans-serif’]=[‘SimHei’]

x=np.arange(1,n,1)

y=分组后的(或plot（kind=’bar’))

plt.bar(x,y)

plt.title(‘ 标题’)

plt.xlabel(‘x轴坐标’)

plt.ylabel(‘y轴坐标’)

plt.show()

4.count()分组记录数

politic_relation[‘姓名’].groupby(politic_relation[‘联系’]).count()后面加sort_values(ascending=False)排序降序False

F rom matplotlib_venn import venn3

使用set（）创建三个集合

例officer=set（politic_relation[‘姓名’]）

V enn3([officer,associate,kin],(‘官员’,’关系人’,’亲戚’))

O fficer&associate&kin取交集

8.abs求绝对值例指数年之差的绝对值例abs(变量[ ‘ 字段 ‘ ]-变量[ ‘ 字段 ‘ ])

From pyecharts import Geo

Data=politic_relation[[ ‘ X ‘ , ‘ Y ‘ ]].groupby(politic_relation[ ‘ 籍贯 ‘ ]).first()

信息geo=Geo(

“ 标题 “ ，

title_color= “ #fff “

title_pos= “ center “ ,

width=700,

height=400,

background_color= “ #404a95 “

address={[data.index[i][ ‘ X ‘ ].data.iloc[i][ ‘ Y ‘ ]]

for i in range(len(data))}

attr=data.index

geo.add(

“” ,

attr,

value,

visual_range=[0,5],

visual_text_color= ‘ #fff ‘ ,

symbol_size=6,

is_visualmap=True,

go_cities_coords=address

geo

1.info()缺失值检查

2.dropna(inplace=True)删除缺失值

3.fillnat()填充缺失值

4.duplicated和sum检查重复

5.drop_duplicates(inplace=True)删除重复行

4.数据拆合

politic_relation[‘联系’].groupby(politic_relation[‘姓名’]).value_counts().unstack()

行转换成列unstack()

引入KMeans算法 from sklearn.cluster import KMeans

KMeans(聚集2类n_clusters=2).fit_predict(politic_relation_rlt)

Data=politic_relation.drop( ‘ label ‘ ,axis=1)

变量[ ‘ 新列 ‘ ]=KMeans(聚集2类n_clusters=2 , random_state=1).fit_predict(data)

n_clusters:簇的个数，即你想聚成几类

init: 初始簇中心的获取方法

n_init: 获取初始簇中心的更迭次数，为了弥补初始质心的影响，算法默认会初始10次质心，实现算法，然后返回最好的结果。

max_iter: 最大迭代次数（因为kmeans算法的实现需要迭代）

tol: 容忍度，即kmeans运行准则收敛的条件

precompute_distances：是否需要提前计算距离，这个参数会在空间和时间之间做权衡，如果是True 会把整个距离矩阵都放到内存中，auto 会默认在数据样本大于featurs*samples 的数量大于12e6 的时候False,False 时核心实现的方法是利用Cpython 来实现的

verbose: 冗长模式（不太懂是啥意思，反正一般不去改默认值）

random_state: 随机生成簇中心的状态条件。

copy_x: 对是否修改数据的一个标记，如果True，即复制了就不会修改数据。bool 在scikit-learn 很多接口中都会有这个参数的，就是是否对输入数据继续copy 操作，以便不修改用户的输入数据。这个要理解Python 的内存机制才会比较清楚。

n_jobs: 并行设置

algorithm: kmeans的实现算法，有：’auto’, ‘full’, ‘elkan’, 其中 ‘full’表示用EM方式实现

Original: https://blog.csdn.net/sikh_0529/article/details/126618424
Author: Sonhhxg_柒
Title: Python数据分析初级

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/600279/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

wandb使用方法以及具体设置

目录 wandb是什么 wandb安装与注册登陆 wandb常用函数 wandb.init() wandb.config() wandb.log()和wandb.Image() 具…

人工智能 2023年6月12日
0086
OpenCV-Python实战（13）——OpenCV与机器学习的碰撞

OpenCV-Python实战（13）——OpenCV与机器学习的碰撞 * – 0. 前言 – 1. 机器学习简介 – + 1.1 监督学习 +…

人工智能 2023年5月26日
0078
【SQL屠夫系列】leetcode-180. 连续出现的数字-(实战扩展：连续登陆N天）

文章目录 1. 题目 2. 开撸 * 方法1 方法2 3. 拓展题-求连续登陆N天 * 作业：在如今的程序员面试过程中,考察SQL部分能力,虽不是难点,但几乎是必考. 为检查思路…

人工智能 2023年7月29日
0071
Python 人脸识别系统

简介人脸识别不同于人脸检测。在人脸检测中，我们只检测了人脸的位置，在人脸识别任务中，我们识别了人的身份。本文重点介绍使用库 face_recognition 实现人脸识别，该库…

人工智能 2023年6月18日
0070
梅尔频率倒谱系数（MFCC）

梅尔倒谱系数（MFCC）：是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特征，它与频率的关系可用下式表示：语音特征参数MFCC提取过程： 1、预加重：将…

人工智能 2023年5月23日
00130
机器学习及其MATLAB实现——BP神经网络

Multiply its output delta and input activation to get the gradient of the weight.、 Bring t…

人工智能 2023年6月13日
0044
Anchor-Free系列之FCOS：A Simple and Strong Anchor-free Object Detector

Anchor-Free系列之CornerNet: Detecting Objects as Paired Keypoints_程大海的博客-CSDN博客 Anchor-Free系列…

人工智能 2023年7月10日
0049
PointRCNN网络结构及原理

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月12日
0073
ERROR: Cannot find command ‘git‘ – do you have ‘git‘ installed and in your PATH

虚拟环境中，在配置coco数据集的API时出现以下错误 (py37) C:\Users\HASEE>pip install git+https://github.com/ph…

人工智能 2023年6月16日
0077
seaborn小提琴图

小提琴图 (Violin Plot)将核密度图和箱线图融合在一起，显示多组数据的分布状态以及概率密度。因图形酷似小提琴而得名。小提琴图不常用，但在一些高分文章中常出现她优雅的身影。…

人工智能 2023年7月8日
0042
如何激活conda环境？conda创建新环境步骤教程

如何激活conda环境？针对这个问题，本教程将手把手按照创建、激活、查看活跃的环境三个步骤教大家conda创建新环境。如何激活conda环境步骤一：创建 conda creat…

人工智能 2023年7月5日
0051
C++与Python实现逆透视变换IPM（鸟瞰图）

一、待解决的问题这是一张普通单目相机拍摄的图像，需要将其处理成鸟瞰图，效果图如下：上面这幅鸟瞰图只包含原图像的一部分信息，并没有包含所有内容（这个问题接下来再回答），但是可以验…

人工智能 2023年7月19日
0059
适用于遥感图像处理的神经网络

图像解译-影像解译，又称为判读或判译，指从图像获取信息的基本过程。即根据各专业(部门)的要求，运用记忆标志和实践经验与知识，从遥感影像上识别目标，定性、定量地提取出目标的分布、结构…

人工智能 2023年6月20日
00143
回归分析结果表格怎么填_回归分析表怎么看懂？

展开全部我给你解读一份stata的回归表格吧，应该有标准表格的所有内容了，因为你没有给范62616964757a686964616fe4b893e5b19e31333332643…

人工智能 2023年6月18日
0063
conda 安装yaml环境中的各种坑

1、配置镜像源首先在”C:\Users\ma_pe.condarc”中将以下内容粘贴： channels: – http://mirrors.tuna.t…

人工智能 2023年6月24日
0090
python高维数组的提取

python在TensorFlow搭建的环境下，所有数据的提取和Matlab的形式一致。由于缺乏以往对高维案例的研究，我们第一次遇到了3D数据的提取，出现了一些困惑。 [En] D…

人工智能 2023年5月25日
0074

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Python数据分析初级

4.数据拆合

大家都在看