第二章Pandas数据读取(Pandas精通之路)

2023年6月11日下午7:00 • 人工智能 • 阅读 85

第一章 Python数据格式及使用介绍第二章 Pandas-各类型文件数据读取第三章 Pandas-数据的简单加工第四章 Pandas-聚合与透视第五章 Pandas-数据合并的多种方式第六章 Pandas-数据的保存

提示：本系列重在介绍Pandas使用方法，未提供Anaconda、Pycharm等Python编辑器的安装方法。

Pandas在数据清洗中的重要性不言而喻。本文将介绍以Pandas为核心的数据读取(不限于Pandas)，Pandas其他功能可见本人《Pandas精通之路》系列其他文章。

1）Excel数据读取

import pandas as pd

data = pd.read_excel(path)

data.tail(10)

data.shape


data = pd.read_excel(path, sheet_name=None)
sheet_names = data.keys()
sheet_data = data.values()

(可跳过)补充用例1：不改变表1数据格式，将表2和表3数据汇总进表1

import pandas as pd
import openpyxl as op

path = ['表1', '表2' ,'表3']

step = 4

book = op.load_workbook(path[0])

writer = pd.ExcelWriter(path[0], engine='openpyxl')

writer.book = book

writer.sheets = dict((ws.title, ws) for ws in book.worksheets)

sheet = book.worksheets[0]
row_mc_str = sheet.max_row
for fn in file[1:]:
    data = pd.read_excel(fn, index_col=0)
    data.to_excel(writer, sheet_name=sheet.title, startrow=row)
    row += step

writer.save()
writer.close()

2）csv数据读取


data = pd.read_csv(path, engine='python')

data = pd.read_csv(path, engine='python', encoding='utf-8')


dateparse = lambda dates: pandas.datetime.strptime(dates, '%Y%m%d')

data = pandas.read_csv(
    './data.csv',
    parse_dates=['时间'],
    date_parser=dateparse,
    index_col='时间'
    )

1）MySQL数据读取

import pymysql
import pandas as pd

password = input('请输入密码：')

conn = pymysql.connect(host='localhost',user='root',passwd=password ,db='test',port=3306,charset='utf8')

sql_cmd = """
        select * from table where city='迪拜'
"""

data = pd.read_sql(sql_cmd,conn)

2）Postgres数据读取

import psycopg2

conn = psycopg2.connect(
    database="postgres",
    user="postgres",
    password="pd",
    host="localhost",
    port="5432")
conn.set_client_encoding("utf-8")

cur = conn.cursor()

cur.execute("""%s""" % sql)
result = cur.fetchall()

conn.commit()
cur.close()
conn.close()

result = pd.DataFrame(result)

3）其他类型数据库

大同小异，核心都是找到对应的数据读取包，不再一一举例

1）txt、sql、del等文件读取

1.规整的表格数据，可通过 pd.read_csv方法读取为 DataFrame格式数据；其中 header=None是无列名称，否则会将第一行作为列名称， names是指定的列名， sep是分割符，默认为逗号，具体视实际数据分割方式而定。

import pandas as pd
data = pd.read_csv('数据.txt',
                    header=None,
                    names=['日期', '分类', '类型'],
                    sep=' '
                    )
print(data)

输出结果示例

         日期  分类 类型
0  20220101   1  大
1  20220102   1  中
2  20220103   1  大
3  20220104   1  大
4  20220105   1  小
5  20220106   1  大
6  20220107   1  小

2.非表格数据(不限于txt)使用 with open()方式读取， read()结果为 str， readlines()结果为 list

with open("data.txt", encoding='utf-8') as f:
    data = f.read()
    print(type(data))
    print(data)

输出结果

<class 'str'>
20220101,1,大
20220102,1,中
20220103,1,大
20220104,1,大
20220105,1,小
20220106,1,大
20220107,1,小

sql文件读取

with open("data.sql", encoding='utf-8') as f:
    data = f.readlines()
    print(type(data))

for d in data:
    print(d)

输出结果

<class 'list'>
create table dark

(

    ....

)

distributed by ()

partition by range(dt)

    (

    START ('2010-01-01'::date) END ('2041-12-31'::date) EVERY ('1 mon'::interval)

    )
;

3.del等其他类型文件方法基本相同，不一一列举

2）dat文件读取

1.表格类数据 pd.read_table()方法读取；
2.非表格数据 with open()同txt文件，不赘述。

import pandas as pd

data = pd.read_table('file_nm.dat', sep='\|@\|', header=None)

data.tail(10)

3）json数据读取

import pandas as pd

data = pd.read_json('data.json', orient='table')

print(data)

print(type(data))

原json格式数据

{
    "schema": {
        "fields": [{
            "name": "index",
            "type": "integer"
        }, {
            "name": "col 1",
            "type": "string"
        }, {
            "name": "col 2",
            "type": "string"
        }],
        "primaryKey": ["index"],
        "pandas_version": "0.20.0"
    },
    "data": [{
        "index": 0,
        "col 1": "a",
        "col 2": "b"
    }, {
        "index": 1,
        "col 1": "c",
        "col 2": "d"
    }]
}

输出结果

col 1 col 2
0     a     b
1     c     d
<class 'pandas.core.frame.DataFrame'>

import pandas as pd
import json

with open('data.json', encoding='utf-8') as f:
    data = f.read()

data = json.loads(data)

df = pd.json_normalize(data)

print(df)

输出结果

    id        name  fitness.height  fitness.weight
0  1.0   Cole Volk             130              60
1  NaN    Mark Reg             130              60
2  2.0  Faye Raker             130              60

3.(比官网增加个难度的json)复杂json的展平操作

import pandas as pd
import json

with open('data.json', encoding='utf-8') as f:
    data = f.read()

data = json.loads(data)

df = pd.json_normalize(
    data,

    record_path=['result', 'counties'],

    meta=[['result', 'state'],
    ['result', "shortname"],
    ['result', 'info', 'governor']],

    sep='_'
)

df.rename(columns={
    'result_state': 'state',
    'result_shortname': 'shortname',
    'result_info_governor': 'info_governor'
}, inplace=True
)

输出结果

        name  population    state shortname info_governor
0        Dade       12345  Florida        FL    Rick Scott
1     Broward       40000  Florida        FL    Rick Scott
2  Palm Beach       60000  Florida        FL    Rick Scott
3      Summit        1234     Ohio        OH   John Kasich
4    Cuyahoga        1337     Ohio        OH   John Kasich

本文介绍了pandas读取各类文件数据的方法，其中最为常用的是Excel、csv和DataBase数据的读取；另外也介绍了txt、dat、sql等类型数据的读取，方法大同小异；最后结束了json数据的读取，基本是结合官网数据变形而来，主要在于读取(官网只介绍了转换)。

*声明：本文所载信息不保证准确性和完整性。文中所述内容和意见仅供参考，不构成实际商业建议，如有雷同纯属巧合。

Original: https://blog.csdn.net/LMTX069/article/details/122448642
Author: 赫加青空
Title: 第二章Pandas数据读取(Pandas精通之路)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/601118/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于水平集LBF模型的图像边缘轮廓分割凸优化 – Split Bregman分裂布雷格曼算法的最优解

目录 1. 凸优化简介： 2. 次梯度（subgradient）：次梯度概念：次梯度例子：次梯度存在性： 3. Bregman距离(布雷格曼距离) ： Bregman距离概…

人工智能 2023年6月21日
00109
【PyTorch深度学习项目实战100例】—— 基于Pyramid Vision Transformer（PVT-v2）实现奥特曼识别 | 第58例

; 前言大家好，我是阿光。本专栏整理了《PyTorch深度学习项目实战100例》，内包含了各种不同的深度学习项目，包含项目原理以及源码，每一个项目实例都附带有完整的代码+数据集…

人工智能 2023年7月21日
0078
逻辑回归算法

1、逻辑回归理论逻辑回归也被称为广义线性回归模型，它与线性回归模型的形式基本上相同，都具有 theta * xb，其中theta是待求参数，其区别在于他们的因变量不同，多重线性回…

人工智能 2023年6月18日
0063
【OpenCV-Python】20.OpenCV的直方图均衡化

20.OpenCV的直方图均衡化文章目录前言一、普通直方图均衡化二、限制对比度自适应直方图均衡化三、OpenCV-Python资源下载总结前言直方图均衡化通过调整图…

人工智能 2023年7月19日
0064
地理加权回归_GIS应用技巧之地理加权回归分析（2）

案例与软件操作 (1)案例描述现有全国省域矢量地图以及2014年 GDP等经济属性数据，利用地理加权回归分析我国省域经济影响因素的空间异质性，影响因素变量选取参照新古典经济增…

人工智能 2023年6月18日
0084
vue3基础

文章目录 * – 文档 – setup – + 总结 + 基本使用 + setup的参数 – ref函数 – + 总结：…

人工智能 2023年6月29日
0097
RHCE第三次作业—搭建简单静态网站

在rhel8的系统上搭建网站：该网站ip地址主机位为11，设置documentroot为/www/你的名字拼音的缩写，网页内容为：my name is… 挂载安装 [r…

人工智能 2023年6月28日
00109
用python实现猜数字游戏

✅作者简介：大家好我是hacker707,大家可以叫我hacker📃个人主页：hacker707的csdn博客🔥系列专栏：python💬推荐一款模拟面试、刷题神器👉点击跳转进入网站…

人工智能 2023年7月30日
0089
目标检测模型—SSD

SSD 1.SSD网络模型 2. 先验框的准备（default box//Prior box） 3. VOC格式数据集的准备 4. 模型训练 * 4.1 模型如何从特征中获取预测结…

人工智能 2023年7月9日
0056
综述笔记：智能反射面辅助的无线通信网络 – fundenmentals

A. Motivation 虽然5G无线通信网络仍然在世界范围内处于部署的状态，但学术界和工业界在寻找更前沿的技术，以能够满足B5G和6G无线网络的更高的指标需求：更高的速率和能效…

人工智能 2023年6月24日
00108
day5

！ posted @2022-04-15 19:24 Novice！！！阅读(6 ) 评论() 编辑 Original: https://www.cnblogs.com/brai…

人工智能 2023年6月4日
0090
Linux下安装opencv并初步使用

目录下载安装opencv * 下载流程配置环境代码测试 – 图像处理使用opencv库编写打开摄像头压缩视频的程序问题及解答参考文献下载安装opencv …

人工智能 2023年6月18日
0097
Python中的groupby分组

Python中的groupby分组一、groupby函数 groupby函数功能：对DataFrame进行分组（可单类分组，可多类分组）需求：按”字段”列…

人工智能 2023年7月9日
0086
基于Kmeans聚类算法的图像分割（色彩分割）实战

基于Kmeans聚类算法的图像分割（色彩分割）实战图像分割是将一幅图像分割成多个像素区域的任务。属于同一对象类型的所有像素都被分配到同一类别下。图像分类是给一副完整的图像一个类别…

人工智能 2023年6月2日
0072
web前端网页设计期末课程大作业：旅游网页主题网站设计——紫色的旅游开发景点网站静态模板(4页)HTML+CSS+JavaScript

👨‍🎓学生HTML静态网页基础水平制作👩‍🎓，页面排版干净简洁。使用HTML+CSS页面布局设计,web大学生网页设计作业源码，这是一个不错的旅游网页制作，画面精明，排版整洁，内容…

人工智能 2023年6月27日
00119
yolov5检测框重合重复，手动调参方法(调整detect,val的conf,iou)

一、问题描述：检测框重复出现上述问题一般是整体检测方向没错，但conf-thres和iou-thres的参数需要调整。（在默认值0.25和0.45的基础上，提高置信区间，降低io…

人工智能 2023年5月26日
00448

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

第二章Pandas数据读取(Pandas精通之路)

1）Excel数据读取

2）csv数据读取

1）MySQL数据读取

2）Postgres数据读取

3）其他类型数据库

1）txt、sql、del等文件读取

2）dat文件读取

3）json数据读取

大家都在看