python dataframe dropna_python DataFrame方法汇总,导入表

2023年8月8日下午12:50 • Python • 阅读 45

import pandas as pd

import numpy as np

读取excel数据

df=pd.read_excel(“data/朝阳区药品销售数据.xlsx”)

print(df)

df.rename(columns={“购药时间”:”销售时间”},inplace=True)#对列重新命名

print(df.info())

print(df)

购药时间是字符串类型的日期格式,转换为时间类型格式datetime

from datetime import datetime

print(datetime(2018,10,10))

data 年月日 time 时分秒 timestamp 时间戳

df[‘销售时间’]=pd.to_datetime(df[‘销售时间’])

print(df)

去掉空值,销售时间列升序排列

df.dropna(inplace=True)

df.sort_values(by=’销售时间’,inplace=True)

print(df)

提取购药时间,提取2018.4数据,构DataFrameindex

df.set_index(keys=’销售时间’,inplace=True)

print(df.index)

data=df[‘2018’]

print(data[‘实收金额’].sum().round(2))#2

自己构建5个DatatimeIndex,10D10天

index1=pd.date_range(start=’2010-1-1′,periods=5,freq=’10D’)

print(index1)

import numpy as np

ser_obj=pd.Series(np.arange(5),index=index1)

print(ser_obj)

print(ser_obj.truncate(after=’2010-1-21′))#截断

增加一列为’日销售金额’,日销售金额=销售数量*实收金额

df[‘日销售金额’]=100#赋值100

print(df)

df[‘日销售金额’]=df.loc[:,’销售数量’]*df.loc[:,’实收金额’]

print(df)

删除’应收金额’列数据

df.drop(labels=’应收金额’,axis=1,inplace=True)

print(df)

print(df.shape)

删除’应收金额’第3行数据

df.drop(labels=2,inplace=True)

print(df.shape)

修改社保卡号数据类型,使得数据显示正常

print(df.info())

df.dropna(inplace=True)#所有NaN值进行清洗

df[‘社保卡号’]=df.loc[:,’社保卡号’].astype(‘int64’)

print(df)

查询前100行数据两种方法,连续取值不能间隔

print(df.head(100))

print(df.loc[:100])

print(df[0:8:2])#索引方法取值,0-8每隔两个取一行,可以不连续取值不间隔

print(df[‘商品名称’])# #取得商品名称这列数据

print(df.loc[df[‘销售数量’]>0,:])#取得销售数量大于0的数值

取得商品名称和销售数量这两列

print(df[[‘商品名称’,’销售数量’]])

loc方法实现所有单层索引切片,多层不能,只能针对DataFrame索引名称的切片方法

DataFrame.loc[行索引名称或条件,列索引名称]闭区间(含最后一个值)

使用loc方法获取购药时间所有数据

print(df.loc[: ,’购药时间’])

使用loc方法获取购药时间前面3行数据

print(df.loc[0:2 ,’购药时间’])

使用loc方法获取包括购药时间和商品名称两列的前面3行数据

print(df.loc[0:2 ,[‘购药时间’,’商品名称’]])

取得商品名称’三九感冒灵’的数据

print(df.loc[df.loc[:,’商品名称’]==’三九感冒灵’,:])

data=(df.loc[df.loc[:,’商品名称’]==’三九感冒灵’,:])#赋值给data

print(data)

print(type(data))

data=df.loc[:,’商品名称’]==’三九感冒灵’

print(df.loc[data,:])#取出所有数值[data,:]

print(df.ix[行索引名称或位置或条件,列索引名称或位置])

使用iloc方法获取购药时间所有数据,前闭后开区间不包含,没有条件(不允许

print(df.iloc[: ,0])

使用iloc方法获取购药时间前面3行数据

print(df.iloc[0: 3,0])

使用iloc方法获取包括购药时间和商品名称两列的前面3行数据

print(df.iloc[0: 3,[0,3]])

print(type(df))#df类型

print(df.count()) #查看每一列数据统计数目

print(df.head()) #查看前面5行数据,连续的数据

print(df.head(3))#查看前面3行数据,连续的数据

print(df[0:3])#查看前面3行数据,连续的数据,索引取值

print(df.tail())#查看后5行数据

print(df.info())#查看每一列信息infromation=infro,打印的object代表数据类型

print(df.describe())#查看每一列统计信息,只能计算设置,名称什么的显示为串

dataframe属性

df的形状

print(df.shape)

dataframe索引

print(df.index)

print(df.index.values) #生成ndarray对象

print(df.columns.values) #生成列表

基于二维数组,np.arange(12)生成1-11的1维数组,index=[]columns=list()分别指定行列索引

df1=pd.DataFrame(np.arange(12).reshape(3,4),index=[‘a’,’b’,’c’],columns=list(‘abcd’))

df1.columns=[‘d’,’e’,’f’,’g’]#修改列索引

print(df1)

print(type(df1))

基于字典对象 :键:值,键:值

dict={“A”:[1,2,7,3],’B’:[5,2,4,8],’D’:[8,9,3,2]}

df4=pd.DataFrame(dict)

print(dict)

dict1={“A”:pd.Series([1,2,7,3]),

‘B’:pd.Series([5,2,4,8]),

‘D’:pd.Series([8,9,3,2])}

df3=pd.DataFrame(dict1)

print(df3)

df3.to_csv(‘write_data.csv’)

dict2={“A”

Original: https://blog.csdn.net/weixin_34420941/article/details/112964111
Author: 郁生姜
Title: python dataframe dropna_python DataFrame方法汇总,导入表

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/742289/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python自动更新pom文件

前言项目越来越多，版本管理越来越麻烦,在项目上我使用 maven version 来进行版本管理。主要还是在分布式项目中模块众多的场景中使用，毕竟各个模块对外的版本需要保持统一。…

Python 2023年10月21日
0075
pytest 重试_pytest 使用

import pytest from web_ui_YXBI.test_datas.common_datas import Common_Datas as c from selen…

Python 2023年9月12日
0052
文件的读取和写入

pandas 可以读取的文件格式有很多，这里主要介绍读取 csv, excel, txt 文件。我将以下表格内容分别存储在 csv、excel、txt 文件中，并分别读取它们。 …

Python 2023年8月7日
0042
极客编程python入门-基础环境搭建

1、python的版本使用3.X的版本，从Python2.0到Python3.0是一个大版本的升级，Python3.0并不能做到完全兼容Python2.0，因此Python2.0…

Python 2023年5月25日
0060
python中的scrapy爬虫_基于Python的Scrapy爬虫入门：代码详解

CTO练习营 | 12月3-5日，深圳，是时刻成为优良的技巧治理者了根据属性名称很轻易知道对应的内容含义，这里我们只需关怀 postlist 这个属性，它对应的一个数组元素就是一…

Python 2023年10月6日
0044
利用python脚本自动登录华农校园网（附程序）

最近刷b站，看到一位up主利用python制作了一个校园网自动连接的程序，看完很是心动。想着自己也学过python，准备尝试一下。前前后后摸索了两天，这里分享一下实现过程。获取程…

Python 2023年5月24日
0050
如何选择合适的后端

我的新书《Android App开发入门与实战》已于2020年8月由人民邮电出版社出版，欢迎购买。点击进入详情文章目录 1. 什么是后端？ 2. Node.js * 何时使用…

Python 2023年8月3日
0077
数据分析实际案例之：pandas在餐厅评分数据中的使用

为了更好的熟练掌握pandas在实际数据分析中的应用，今天我们再介绍一下怎么使用pandas做美国餐厅评分数据的分析。数据的来源是UCI ML Repository，包含了一千多…

Python 2023年8月7日
0065
.NET 反向代理 YARP 自定义配置提供程序（Configuration Providers）

基本 Yarp 示例显示从 appsettings.json 加载的代理配置。相反，代理配置可以从您选择的源以编程方式加载。您可以通过提供几个实现 IProxyConfigProv…

Python 2023年10月21日
0033
pandas中loc与iloc的用法

初衷由于个人不经常使用这个常见的pandas函数，所以总是用到的时候不熟练需要百度一下，所以本文对函数用法做一个详细的笔记以比便于自己记忆。从名称来区别loc与iloc 从字母…

Python 2023年8月8日
0047
如何在Anaconda创建新环境

首先打开Anaconda Prompt 我们输入命令 : conda –version 查看Anaconda安装的版本 conda env list 查看已经安装的环境…

Python 2023年8月1日
0075
VScode报错Couldn‘t import Django

报错如下： ImportError: Couldn’t import Django. Are you sure it’s installed and ava…

Python 2023年8月3日
0045
深度学习之Transformer网络

array([[0.e+00, 0.e+00, 0.e+00, 0.e+00, 0.e+00, 0.e+00, 0.e+00, 0.e+00], [1.e+00, 1.e+00, …

Python 2023年10月29日
0035
python库——pandas

官方文档：https://pandas.pydata.org/docs/安装 pip install pandas jupyter notebook安装 ! pip install…

Python 2023年8月20日
0056
《Python编程：从入门到实战》(第2版)学习笔记第4章操作列表

【写在前面】为进一步提高自己的python代码能力，打算把几本经典书籍重新过一遍，形成系统的知识体系，同时适当记录一些学习笔记，我尽量及时更新！先从经典的《Python编程：从入门…

Python 2023年8月29日
0064
Rust学习入门

高性能,内存利用率高,没有运行时和垃圾回收可靠 , 丰富的类型系统和所有权模型保证内存和线程安全,编译器可以消除各种错误生产力, 包管理器、构建工具一流, 多编辑器支持自动补齐和格…

Python 2023年10月21日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python dataframe dropna_python DataFrame方法汇总,导入表

读取excel数据

print(df.info())

购药时间是字符串类型的日期格式,转换为时间类型格式datetime

print(datetime(2018,10,10))

data 年月日 time 时分秒 timestamp 时间戳

去掉空值,销售时间列升序排列

提取购药时间,提取2018.4数据,构DataFrameindex

自己构建5个DatatimeIndex,10D10天

index1=pd.date_range(start=’2010-1-1′,periods=5,freq=’10D’)

print(index1)

增加一列为’日销售金额’,日销售金额=销售数量*实收金额

删除’应收金额’列数据

删除’应收金额’第3行数据

修改社保卡号数据类型,使得数据显示正常

查询前100行数据两种方法,连续取值不能间隔

取得商品名称和销售数量这两列

loc方法实现所有单层索引切片,多层不能,只能针对DataFrame索引名称的切片方法

DataFrame.loc[行索引名称或条件,列索引名称]闭区间(含最后一个值)

使用loc方法获取购药时间所有数据

使用loc方法获取购药时间前面3行数据

使用loc方法获取包括购药时间和商品名称两列的前面3行数据

取得商品名称’三九感冒灵’的数据

data=(df.loc[df.loc[:,’商品名称’]==’三九感冒灵’,:])#赋值给data

使用iloc方法获取购药时间所有数据,前闭后开区间不包含,没有条件(不允许

使用iloc方法获取购药时间前面3行数据

使用iloc方法获取包括购药时间和商品名称两列的前面3行数据

dataframe属性

df的形状

基于二维数组,np.arange(12)生成1-11的1维数组,index=[]columns=list()分别指定行列索引

基于字典对象 :键:值,键:值

大家都在看