Python 数据分析函数汇总

2023年7月7日上午1:14 • 人工智能 • 阅读 60

import pandas as pd

Data = pd.read_csv('Data.csv',sep=',',dtype=object)

head() 函数：返回前n行的dataframe。默认参数为5

import pandas as pd
Data = pd.read_csv('Data.csv',sep=',',dtype=object)
print(Data.head(6))
print(Data.tail())

shape函数的作用是查看行数和列数。

import pandas as pd
Data = pd.read_csv('Data.csv',sep=',',dtype=object)
print(Data.shape)

（1）loc[]函数：按标签取数据
loc[行索引，列名/column]（如果第二个参数的个数是全部即 : ，可以省略不写）。

print(Data.loc[1,'name'])

（2）iloc[]函数：按位置索引取数据
iloc行索引，列索引

print(Data.iloc[1,0])
print(Data.iloc[-5:,[0,2,4,6]])

any () 函数用于判断给定的可迭代参数 iterable 是否都为 False，如果是，any ()操作后的结果返回 False，如果给定的可迭代参数 iterable其中有一个为 True，any ()操作后的结果则返回 True。
axis=0:方向沿着列；axis=1方向沿着行，默认axis=0

print(Data.isna().any())
print(Data.isna().any(axis=0))
print(Data.isnull().any(axis=0))

value_counts() ：返回一个序列 Series，该序列包含每个值的数量。i.e. 对于数据框中的任何列，value-counts () 方***返回该列每个项的计数。
参数：
normalize = True ：返回的对象将包含各个值的相对频率（默认False）
ascending = True：升序（默认False）
dropna = False：对无效值进行计数（默认True）

print(Data.Language.value_counts())

print(Data.Language.nunique())

print(Data.Language.tolist())

当q=0.25 0.5 0.75 时，就是在计算四分位数。

print(Data.iloc[:,[2,6]].quantile(0.25))

由于这是一个字符串方法，因此必须在每次调用.str之前添加前缀。否则会产生错误。

print(Data['Name'].str.len())

DataFrme.dropna(axis=0,how=’any’,thresh=None,subset=None,inplace=False)
参数：
axis: 默认axis=0。0为按行删除,1为按列删除
how: 默认 ‘any’。 ‘any’指带缺失值的所有行/列; ‘all’指清除一整行/列都是缺失值的行/列
thresh: int,保留含有int个非nan值的行
subset: 删除特定列中包含缺失值的行或列
inplace: 默认False，即筛选后的数据存为副本,True表示直接在原数据上更改

print(Data.dropna())

df.fillna(a)
其中：参数a表示的是常数或字典，若a为常数，则用常数a填充缺失值，若a为字典，则表示第key列的缺失值用key对应的value值填充，如：df.fillna({0:10,1:20}),表示用10去填充第0列的缺失值，用20去填充第1列的缺失值；
inplace为可选参数，默认为False，表示不修改原对象，若指定inplace=True,则直接修改原对象。
fillna()函数的返回值：若指定inplace=True，则函数返回值为None，若未指定，则函数返回填充缺失值后的数据。

Data.fillna({'Graduate_year':2022, 'Language':'Python',
             'Achievement_value':Data.Achievement_value.mean().round(0)}, inplace=True)
res = Data.fillna({'Graduate_year':2022, 'Language':'Python',
             'Achievement_value':Data.Achievement_value.mean().round(0)})

当两条记录中所有的数据都相等时duplicated函数才会判断为重复值
duplicated支持从前向后(first)，和从后向前(last)两种重复值查找模式
默认是从前向后进行重复值的查找和判断，也就是后面的条目在重复值判断中显示为True

参数
subset：列标签
keep： {‘first’, ‘last’, False}, 默认值 ‘first’
first：保留第一次出现的重复项。
last：删除重复项，仅保留最后一次出现的重复项
False：删除所有重复项
inplace：布尔值，默认为False，是否删除重复项或返回副本

print(Data.duplicated())
print(Data.duplicated(subset=None, keep='first'))
Data.duplicated().sum()

print(Nowcoder.drop_duplicates())

to_datetime(data,error = ‘raise’,format=None)
data：输入
errors：错误数据处理
format：日期格式

import pandas as pd
Data = pd.read_csv('Data.csv',sep=',',dtype=object)
Data['Time'] = pd.to_datetime(Data['Time'],format='%Y-%m-%d')
Data['Time'] = pd.to_datetime(Data['Time'],format='%Y-%m-%d %H:%M:%S')

to_datetime默认有时间精度，.dt.date去掉分钟，得到日期列表

b['date'] = pd.to_datetime(Data.date).dt.date


import pandas as pd
import json

with open('Nowcoder.json', 'r') as f:
    data = json.loads(f.read())
print(pd.DataFrame(data))

group = Data.groupby("company")

print(Data.describe())

Original: https://blog.csdn.net/weixin_44241793/article/details/126280437
Author: 步木木
Title: Python 数据分析函数汇总

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675173/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【统计学习方法】第四章朴素贝叶斯

模型定位：朴素贝叶斯属于分类模型、生成模型👉 GitHub地址基本概念条件概率：P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(A…

人工智能 2023年7月2日
0072
[附源码]java毕业设计潮流服饰网店平台

项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX（Webstorm也行）+ Eclispe（IntelliJ IDEA,Eclis…

人工智能 2023年6月28日
0082
2022李宏毅机器学习hw1–COVID-19 Cases Prediction

目录一. 开题说明：二. 梗概：三. 问题背景：四. 模型建立： 1. 数据下载 2. 导入必要的包 3. 定义函数 4. 定义类（Dataset以及DNN） 5. 特征选…

人工智能 2023年7月22日
0048
谈谈图书馆知识资源细颗粒度标引中的古籍稿本标引

针对自有版权的地方古籍进行细颗粒度标引存在一定的技术要求，首先在图书馆知识资源中，包含了大量的县志、古籍抄本、印刷善本等等，由于古代、近代的印刷技术限制，大部分古籍存在印刷不清晰、…

人工智能 2023年6月10日
0078
ROS2构建工具colcon介绍

使用colcon构建包一般情况下在工作空间目录下构建，它会创建与src目录平级的下列目录： ● build目录：是存储中间文件的目录，会为每个软件包在build目录中创建一个子目…

人工智能 2023年6月2日
0075
python实现五子棋-人机对战/人人对战（动图演示+源码分享）

大家好，我是梦执，对梦执着。希望能和大家共同进步！五子棋对战-所有文件文末自取前言人人对战动态演示源码分享 cheackboard.py 人人对战.py 导入模块设置棋…

人工智能 2023年7月5日
0087
【论文笔记】Unified Vision-Language Pre-Training for Image Captioning and VQA

This paper presents a unified Vision-Language Pre-training (VLP) model. The model is unifi…

人工智能 2023年5月30日
0090
什么是目标检测？有哪些应用？终于有人讲明白了

导读：计算机视觉（Computer Vision，CV）是一门教计算机如何”看”世界的学科。计算机视觉包含多个分支，其中图像分类、目标检测、图像分割、目标跟…

人工智能 2023年7月27日
0071
使用MobileNetv2实现图像分类

简介目前的神经网络模型层出不穷，其中在图像识别的领域不仅非常高效快速，而且准确率也非常高。但我们在提高准确率的道路上是永不止步的，比较矛盾的是在提高精确率的同时也会带来消耗，需要…

人工智能 2023年7月14日
00113
用Anaconda安装TensorFlow(Windows10)

目录： * – 一.安装Anaconda – 二.pycharm导入Anaconda – 三.用Anaconda安装TensorFlow &#8…

人工智能 2023年6月16日
0071
优先级队列（堆）的详解

优先级队列提供了两个最基本的操作：一个是返回最高优先级对象，一个是添加新的对象，优先级队列底层实现用到的数据结构就是堆一、堆 1、堆的概念如果有一个关键码的集合的所有元素按照 …

人工智能 2023年6月30日
0058
【微信小程序 | 实战开发】配置微信小程序APPID并快速接入

微同商城是一个以Java进行开发_的 _微信小程序_商城源码。减少重复造轮子，开源 _微信小程序_商城（前后端开源：uni _app+Java），秒杀、优惠券、多商户、直播卖货…

人工智能 2023年5月30日
0089
基于FFmpeg的Java视频Mp4转GIF初探

背景在一些业务场景中，会有如下的一些要求：比如有用户需要将Mp4视频转为Gif动图。当然有一些小伙伴说可以使用系统截图，然后使用之前提到过的技术：GIF图像动态生成-JAVA后台…

人工智能 2023年7月30日
0054
动态网络加速之早退机制:DeeBert[2020ACL] 与 FastBert[2020ACL]

这篇文章主要介绍两篇文章关于动态网络中的早退机制，有意思的是两篇文章都出自2020年ACL，并且两者有很多相似点。两篇论文地址如下： DeeBert FastBert 动机由于大…

人工智能 2023年5月28日
0070
LSTM模型

LSTM模型是为了解决RNN神经网络中的梯度爆炸问题。（1）模型思路： RNN是想把所有信息都记住，不管是有用的信息还是没用的信息。LSTM：设计一个记忆细胞（具备选择性记忆的功…

人工智能 2023年7月12日
0045
idea连接sql sever2019【真的很精细】

配置了好多天都报错…我真的含泪写下这篇文章 1. 首先我们打开sql sever 2. 打开sql配置管理器将IP1和IP10和IPALL的TCP端口都设置为1433，…

人工智能 2023年7月30日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python 数据分析函数汇总

to_datetime默认有时间精度，.dt.date去掉分钟，得到日期列表

大家都在看