python在数据集data文件中加上属性_Python数据分析基础，看这一篇文章张就可以了…

2023年8月22日上午1:20 • Python • 阅读 46

上篇文章提到了如何爬取500强的信息，本次我们来讲下如何通过python进行数据分析。开始前先说个数据，2020年世界500强中国(包含香港和台湾)有133家企业入围，合计GDP达到8.7万亿美元，而中国大陆去年的GDP才14.1万亿美元，头部聚集效应可想而知。下面我们来用Python来看怎么分析这些数据。本文用示例来讲解如何掌握python数据分析的基本方法

一、Python读取文件的方法
二、数据的基础描述
三、DataFrame 排序、增删行列操作
四、DataFrame数据处理：求和、平均数、计数
五、DataFrame的增加行列合并操作等

以下为具体内容一、Python读取文件的方法 Python读取excel文件有以下三种方式，个人推荐Pandas读取法 1、利用pandas读取个人比较喜欢直接使用pandas 保存和读取数据，方便好用，特别推荐，只需要三行代码就可以搞定

<code>import pandas as pd</code><code></code><code>data = pd.read_excel('/Users/***/Fortune500.xlsx')</code><code>data</code>

python在数据集data文件中加上属性_Python数据分析基础，看这一篇文章张就可以了...

2、使用xlrd读取Excel 先安装：pip install xlrd，然后读取

<code>import xlrd    # &#x6253;&#x5F00;&#x6587;&#x4EF6; data = xlrd.open_workbook('filename.xlsx')</code><code>data.sheet_names()  # &#x83B7;&#x53D6;&#x6240;&#x6709;sheet&#x540D;&#x5B57; data.sheets</code><code></code><code>data.sheets()       # &#x83B7;&#x53D6;&#x6240;&#x6709;sheet&#x5BF9;&#x8C61;</code><code>sheet1 = data.sheet_by_name("test")  # &#x901A;&#x8FC7;sheet&#x540D;&#x67E5;&#x627E;</code><code>sheet2 = data.sheet_by_index(3)  # &#x901A;&#x8FC7;&#x7D22;&#x5F15;&#x67E5;&#x627E;</code><code>rows = sheet1.row_values(2)#&#x83B7;&#x53D6;&#x884C;&#x5185;&#x5BB9;</code><code>cols = sheet1.col_values(3)#&#x83B7;&#x53D6;&#x5217;&#x5185;&#x5BB9;</code>

3、使用openpyxl库读取Excel 先直接用pip命令安装 openpyxl：pip3 install openpyxl

<code>from openpyxl import load_workbook</code><code></code><code>excel=load_workbook('/test.xlsx')</code><code>table = excel.get_sheet_by_name('Sheet1')</code><code></code><code>rows=table.max_row #&#x83B7;&#x53D6;&#x884C;&#x6570;</code><code></code><code>cols=table.max_column #&#x83B7;&#x53D6;&#x5217;&#x6570;</code>

二、数据的基础描述一般情况下，会使用 describe、dtypes、info、head等函数简单查看数据的情况和质量，是否需要进一步处理

<code>df.describe()    #&#x6C47;&#x603B;&#x7EDF;&#x8BA1;</code><code>df.dtypes   #&#x6570;&#x636E;&#x7C7B;&#x578B;</code><code>data.shape</code><code>data.info()</code><code>data.head()  #&#x53D6;&#x524D;&#x51E0;&#x884C;</code><code>data.columns   #&#x89C2;&#x5BDF;&#x5217;&#x540D;&#x79F0;</code><code>data.index  #&#x89C2;&#x5BDF;&#x884C;&#x540D;&#x79F0;</code>

三、DataFrame 排序、增删行列操作排序： sort_values ([“Revenue”,”Profit”],ascending=False)，根据列来降序或者升序排列

<code>import pandas as pd</code><code></code><code>data=pd.read_excel('/Users/samuelzhan/&#x722C;&#x866B;/Fortune500.xlsx')</code><code>data.describe()</code><code>data.shape</code><code></code><code>data.sort_values(["Revenue","Profit"],ascending=False)</code>

删除列: drop(‘列名’,axis=1,inplace=True) 对比上图即可观察除多余的一列数据被删除

四、DataFrame数据处理：求和、平均数、计数求和、计数：都是先选择groupby,然后再汇总分析，案例中是根据国家来做汇总分析，你可以根据行业来汇总分析此外，在做计数统计中为了减少其他多余的数据，只取了 Country和Revenue两列数据，使用的是 data.loc[:,[‘Country’,’Revenue’]]，Dataframe中提取行列的方法就不做赘述了。

<code>import pandas as pd</code><code></code><code>data=pd.read_excel('/Users/samuelzhan/&#x722C;&#x866B;/Fortune500.xlsx')</code><code>data.describe()</code><code>data.shape</code><code></code><code>data.sort_values(["Revenue","Profit"],ascending=False)</code><code></code><code>data.drop(['Unnamed: 0'],axis=1,inplace=True)</code><code>data.groupby('Country').sum()</code><code>data.loc[:,['Country','Revenue']].groupby('Country').count().rename(columns = {"Revenue": "Count"})</code>

五、DataFrame的增加行列合并操作上面我们可以看到，一张图汇总了不同国家500强企业的收入、利润、员工人数的汇总；一张图汇总了不同国家500强的数量，那如何让他们在一张表中展示出来呢？

<code>import pandas as pd</code><code></code><code>data=pd.read_excel('/Users/samuelzhan/&#x722C;&#x866B;/Fortune500.xlsx')</code><code>data.describe()</code><code>data.shape</code><code></code><code>data.sort_values(["Revenue","Profit"],ascending=False)</code><code></code><code>data.drop(['Unnamed: 0'],axis=1,inplace=True)</code><code>s1=data.groupby('Country').sum()</code><code>s2=data.loc[:,['Country','Revenue']].groupby('Country').count().rename(columns = {"Revenue": "Count"})</code><code></code><code></code><code>merge = pd.merge(s1,s2,on=['Country'],how='inner')</code><code>merge.sort_values(by='Count',axis = 0,ascending = False)</code>

这里使用了Merge的方法，一般表链接有三种方式： 1、merge 相当于SQL中的JOIN。该函数的典型应用场景是，两张表有相同内容的列(即SQL中的键)，现在我们想把两张表整合到一张表里。在此典型情况下，结果集的行数并没有增加，列数则为两个元数据的列数和减去连接键的数量。
2、concat 轴向连接。

就是单纯地把两个表拼在一起，这个过程也被称作绑定(binding)或堆叠(stacking)。因此可以想见，这个函数的关键参数应该是 axis，用于指定连接的轴向。axis=1 在行中操作，axis=0是在列中操作。默认是axis=0,即垂直堆叠。
3、join

加上join参数的属性，如果为’inner’得到的是两表的交集，如果是outer，得到的是两表的并集。以上，用爬取的500强数据，简单说明了Python DataFrame数据处理的基本方法，下次我们再来讲解如何进行可视化操作。

Original: https://blog.csdn.net/weixin_30794639/article/details/113629746
Author: 紫荆银杏
Title: python在数据集data文件中加上属性_Python数据分析基础，看这一篇文章张就可以了…

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/756222/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

软件测试工程师知识架构

一、测试基础了解测试的基础技能，掌握主流缺陷管理工具的使用，熟练测试环境的操作与运维测试理论 / 测试用例黑盒用例设计等价类/边界值/场景分析/判定表/因果图分析/错误推断 …

Python 2023年6月11日
0070
Python程序语言学习——实验作业04——函数的应用

简要记录下本次实验作业的内容和总结。（因为觉得在文章首部添加目录没多大意思，就删了。）实验1. 利用自定义函数求所有水仙花数，并用逗号隔开输出。所谓水仙花数是一个三位数，其每位…

Python 2023年5月24日
0079
Pytest学习-Fixture调用方法

Pytest学习-Fixture调用方法原创我的事说来话长2022-08-05 20:25:43博主文章分类：Pytest ©著作权文章标签 pytest 文章分类 Pyth…

Python 2023年5月24日
0059
利用opencv 做一个疲劳检测系统（2）

文章目录杂谈实现步骤核心算法交互界面界面代码检测效果源代码杂谈最近发现视力下降严重，可能跟我的过度用眼有关，于是想着能不能做一个检测用眼疲劳的，灵感来自特斯拉的…

Python 2023年9月27日
0034
python 包之 turtle 海龟绘图教程

一、安装写出许多有趣的可视化东西也可以画出很多奇妙的图案 pip install turtule 二、画布画布就是turtle为我们展开用于绘图区域我们可以设置它的大小和初…

Python 2023年6月10日
0084
1、Numpy数组

PYTHON学习记录一、 numpy模块 – Numpy是Python语言中&#x…

Python 2023年8月27日
0050
一文速学-最小二乘法曲线拟合算法详解+项目代码

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年7月31日
0040
pandas 数据分组

学习目标应用groupby 进行分组,并对分组数据进行聚合,转换和过滤应用自定义函数处理分组之后的数据 1 aggregate聚合在SQL中我们经常使用 GROUP BY 将…

Python 2023年8月17日
0049
【PAT甲级 – C++题解】1125 Chain the Ropes

✍个人博客：https://blog.csdn.net/Newin2020?spm=1011.2415.3001.5343📚专栏地址：PAT题解集合📝原题地址：题目详情 &#821…

Python 2023年10月27日
0035
关于Flask高级_RequestParser中的add_argument方法参数详解

Flask高级_RequestParser中的add_argument方法参数详解一.参数介绍 default：默认值，如果这个参数没有值，那么将使用这个参数指定的默认值。 r…

Python 2023年8月13日
0069
用 Python 创建属于自己的网易云音乐

今天我们将用Python来创建一个属于自己的音乐播放器。为此，我们将使用三个软件包： Tkinter：用于UI Pygame：播放音乐 os：用于访问系统文件在这里我们将看到创建…

Python 2023年9月23日
0036
第一次写项目接口

前言第一次参与实习工作，S小白中完成的第一项项目任务，简要整理一下：一、任务需求任务目标：实现算法与后端联调，配置接口。md文档展示接口需求：接口解释为：后端传入数据给模型，…

Python 2023年8月11日
0050
python设置曲面图颜色范围_三维曲面p的matplotlib中的自定义颜色映射

我有一个指定颜色图的曲面图。以下是我的理解：import numpy as np import matplotlib.pyplot as plt import math from …

Python 2023年9月5日
0051
（1）Scrapyrt安装与使用

1.简介 Scrapyrt为Scrapy提供了一个调度和使用蜘蛛(spider)的HTTP接口，有了它，我们就不需要再执行Scrapy命令，而是通过请求一个HTTP接口来调度和使用…

Python 2023年10月4日
0029
2022.07.25 C++下使用opencv部署yolov7模型（五）

0.写在最前此篇文字针对yolov7-1.0版本。最近粗略的看了一遍yolov7的论文，关于yolov7和其他yolo系列的对比，咱就不多说了，大佬们的文章很多很详细。关于op…

Python 2023年11月5日
0039
8个Spring事务失效的场景，你碰到过几种？

前言作为Java开发工程师，相信大家对 Spring种事务的使用并不陌生。但是你可能只是停留在基础的使用层面上，在遇到一些比较特殊的场景，事务可能没有生效，直接在生产上暴露了，这…

Python 2023年10月11日
0055

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

python在数据集data文件中加上属性_Python数据分析基础，看这一篇文章张就可以了…

大家都在看