数据分析3-pandas

2023年7月8日上午3:48 • 人工智能 • 阅读 53

文章目录

pandas
*
pandas常用数据类型
–
- 1.Series的创建
pandas读取外部数据
pandas读取数据库
DataFrame
*
基础
字典
列表
排序
索引
loc与iloc
字符串离散化
数据的合并

pandas

; pandas常用数据类型

Series一维数据，带标签数组
DataFrame 二维，Series容器

import pandas as pd

t = pd.Series([1, 2, 31, 12, 3, 4])
print(t)

1.Series的创建


import pandas as pd

t = pd.Series([1, 32, 31, 132, 32, 34])
print(t)
print("*" * 30)

t1 = pd.Series([1, 223, 23, 24, 43], index=list("abcde"))
print(t1)
print("*" * 30)

temp_dict = {"name": "xiaohong", "age": 30, "tel": 10086}
t3 = pd.Series(temp_dict)
print(t3)

print(t3[0])
print("*" * 30)
print(t3[0:2])

print("*" * 30)
print(t3.index)
print("*" * 30)
print(len(t3.index))
print("*" * 30)
print(t3.values, type(t3))

pandas读取外部数据

1.读取csv文件


import pandas as pd

df=pd.read_csv("D:\桌面\Python\project01\pandas\Affairs.csv")
print(df)

pandas读取数据库

主要使用： pd.read_sql(sql,con=db_conn)
sql：查询数据库中创建的表

con：通过pymysql建立连接

DataFrame

基础

import pandas as pd
import numpy as np
t1=pd.DataFrame(np.arange(12).reshape(3,4),index=["a","b","c"],columns=list('wxyz'))
print(t1)

字典

d1={"name":["孙悟空","猪八戒","沙和尚"],"age":[500,520,250],"tel":[123456,456134,654321]}
t2=pd.DataFrame(d1)
print(t2)

列表

d2=[{"name":"孙悟空","age":500,"tel":12345},{"name":"猪八戒","age":520,"tel":456134},{"name":"沙和尚","age":250,"tel":654321}]
t3=pd.DataFrame(d2)
print(t3)

排序

df=df.sort_values(by='人气',ascending=False)

by表示需要排序的内容，ascending为true默认升序排序

df = pd.DataFrame({
    "name": ["成龙", "孙悟空", "猪八戒", "沙和尚", "唐僧", "百龙霸"],
    "人气": [10250, 12560, 18630, 11881, 1800, 12888],
    "年龄": [140, 80, 120, 90, 125, 116],
    "是否已婚": ["是", "否", "否", "否", "否", "否"] })
print(df)
df1=df.sort_values(by='人气',ascending=False)
print(df1)

索引

print(df[:2])


print(df["年龄"])

print(df[(25<df["年龄"])&(df["年龄"]<100)])

loc与iloc

t1=pd.DataFrame(np.arange(12).reshape(3,4),index=list("abc"),columns=["W","X","Y","Z"])

loc[]:通过标签索引行数据,iloc[]:通过位置索引行数据


import pandas as pd
import numpy as np
t1=pd.DataFrame(np.arange(15).reshape(3,5),index=list("abc"),columns=["V","W","X","Y","Z"])
print(t1)

print(t1.loc["a","Z"])
print(t1.loc["a"])
print(t1.loc[:"b"])
print(t1.loc["a":"c",["W","Z"]])
print(t1.iloc[:,[2,1]])
print(t1.iloc[1:,:2])

字符串离散化

数据的合并

1）join：默认情况下他是把行行索引相同的数据合并到一起

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

t1=pd.DataFrame(np.arange(10).reshape(2,5),index=list("AB"),columns=list("VWXYZ"))
print(t1)
print("--"*20)

t2=pd.DataFrame(np.arange(12).reshape(3,4),index=list("ABC"))
print(t2)
print("--"*20)

t3=t1.join(t2)
print(t3)
print("--"*20)

t4=t2.join(t1)
print(t4)

2）merge：按照指定的列把数据按照一定的方式合并到一起

Original: https://blog.csdn.net/m0_62497122/article/details/126996503
Author: 胖胖龙打代码
Title: 数据分析3-pandas

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/677693/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

想准确识别各地方言？这套15000小时方言语音数据推荐了解一下

不论是 ” 啥事都中” 的河南 , 还是遍地 ” 靓女靓仔 ” 的广东 , 方言都是各地极具特色的文化名片。一方面 , 方言附着极大…

人工智能 2023年5月23日
00122
数据分析之缺失值填充（重点讲解多重插值法Miceforest）

数据分析之缺失值填充（重点讲解多重插值法Miceforest）数据分析的第一步——数据预处理，不可缺失的一步。为了得到更好的结果，选择合适的数据处理方法是非常重要的！数据预处理之…

人工智能 2023年7月6日
00127
web前端期末大作业——餐品后台管理系统(html+css+javascript)

🎉精彩专栏推荐 💭文末获取联系✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年7月30日
0067
提高Tesseract-OCR验证码识别率

Tesseract-OCR训练自己需要的语言在正常使用Tesseract-OCR的默认eng去识别复杂的验证码失败率很高，这时候就需要自己训练出自己需要的语言来提高识别成功率。如…

人工智能 2023年5月23日
00114
opencv 模板匹配&&形状匹配

文章目录 * – 1. 找圆垫子 – + 1.1 得到模板 + 1.2 形状匹配 – 2. 找瓜子这是第四次作业要求所以今天就趁机会讲讲模板…

人工智能 2023年6月18日
0051
Tensorflow2.0学习笔记

tf.data API使用 1 tf.data * 1.1 tf.data.Dataset – 1.1.1 Dataset的基础API 1.1.2 从csv文件中创建D…

人工智能 2023年5月24日
0064
realsense D455深度相机+YOLO V5结合实现目标检测（一）

realsense D455深度相机+YOLO V5结合实现目标检测（一） 1.代码来源 2.环境配置 3.代码分析： * 3.1如何用realsense在python下面调用的问…

人工智能 2023年5月26日
00141
Scanpy(三)处理3k PBMCs并聚类

目录对初始Adata的预处理主成分分析计算neighborhood graph 对neighborhood graph进行embedding 对neighborhood gr…

人工智能 2023年5月31日
00101
TCGA数据库与肿瘤数据分析（参考后整理）

1.INTRODUCTION（介绍） 1.数据来源 GDC Legacy Archive GDC Harmonized database 2.barcode 2.Install.p…

人工智能 2023年6月19日
00100
使用docker安裝GPU版pytorch

1. 在docker pytorch 網址找到自己需要的環境(網址:https://hub.docker.com/r/pytorch/pytorch/tags) 点击复制 deve…

人工智能 2023年7月23日
0072
如何查看GPU的计算能力？

如何查看GPU的计算能力一、计算能力是GPU的固有属性二、常见的GPU计算能力一、计算能力是GPU的固有属性 GPU的计算能力是不同型号的GPU的固有属性，和cuda版本无关…

人工智能 2023年7月23日
0073
【机器学习】SVM算法

目录什么是SVM SVM 基本概念 SVM相关问题 SVM算法原理点到超平面的距离公式最大间隔的优化模型松弛变量核函数：线性不可分—高维可分 SVM实现对鸢尾花数据集的二…

人工智能 2023年6月16日
0080
yolov1代码解读

yolov1论文解读前面已经对yolov1的原理做了一个了解，下面就来看一下yolov1的代码实现过程 yolov1的代码倒是比Faster-Rcnn简单多了，但是一些逻辑顺序和F…

人工智能 2023年7月9日
0088
DQN算法的原理与复现

基本思路先来解释下Q-learning简单来说就是瞬时奖励+记忆经验奖励。瞬时奖励：做了一个动作就能获得的奖励经验奖励：按照训练时的经验，上一系列动作发生之后，接下来怎么做才…

人工智能 2023年6月16日
0086
基于Rasa框架搭建中文机器人对话系统

Rasa是一个能用于构建机器人对话系统的框架，基于Rasa框架搭建机器人对话系统，可以使用于工业各类语音智能服务场景，如：远程医疗问诊、智能客户服务、保险产品销售、金融催收服务、手…

人工智能 2023年7月1日
0088
Python数模笔记-StatsModels 统计回归（2）线性回归

1、背景知识 1.1 插值、拟合、回归和预测插值、拟合、回归和预测，都是数学建模中经常提到的概念，而且经常会被混为一谈。插值，是在离散数据的基础上补插连续函数，使得这条连续曲线…

人工智能 2023年6月17日
0057

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31