python在数据集data文件中加上属性_Python数据分析基础,看这一篇文章张就可以了…

上篇文章提到了如何爬取500强的信息,本次我们来讲下如何通过python进行数据分析。 开始前先说个数据,2020年世界500强中国(包含香港和台湾)有133家企业入围,合计GDP达到8.7万亿美元,而中国大陆去年的GDP才14.1万亿美元,头部聚集效应可想而知。下面我们来用Python来看怎么分析这些数据。 本文用示例来讲解如何掌握python数据分析的基本方法

  • 一、Python读取文件的方法
  • 二、数据的基础描述
  • 三、DataFrame 排序、增删行列操作
  • 四、DataFrame数据处理:求和、平均数、计数
  • 五、DataFrame的增加行列合并操作等

以下为具体内容 一、Python读取文件的方法 Python读取excel文件有以下三种方式,个人推荐Pandas读取法 1、 利用pandas读取 个人比较喜欢直接使用pandas 保存和读取数据,方便好用,特别推荐,只需要三行代码就可以搞定

<code>import pandas as pd</code><code></code><code>data = pd.read_excel('/Users/***/Fortune500.xlsx')</code><code>data</code>

python在数据集data文件中加上属性_Python数据分析基础,看这一篇文章张就可以了...

2、 使用xlrd读取Excel 先安装:pip install xlrd,然后读取

<code>import xlrd    # &#x6253;&#x5F00;&#x6587;&#x4EF6; data = xlrd.open_workbook('filename.xlsx')</code><code>data.sheet_names()  # &#x83B7;&#x53D6;&#x6240;&#x6709;sheet&#x540D;&#x5B57; data.sheets</code><code></code><code>data.sheets()       # &#x83B7;&#x53D6;&#x6240;&#x6709;sheet&#x5BF9;&#x8C61;</code><code>sheet1 = data.sheet_by_name("test")  # &#x901A;&#x8FC7;sheet&#x540D;&#x67E5;&#x627E;</code><code>sheet2 = data.sheet_by_index(3)  # &#x901A;&#x8FC7;&#x7D22;&#x5F15;&#x67E5;&#x627E;</code><code>rows = sheet1.row_values(2)#&#x83B7;&#x53D6;&#x884C;&#x5185;&#x5BB9;</code><code>cols = sheet1.col_values(3)#&#x83B7;&#x53D6;&#x5217;&#x5185;&#x5BB9;</code>

3、使用openpyxl库读取Excel 先直接用pip命令安装 openpyxl:pip3 install openpyxl

<code>from openpyxl import load_workbook</code><code></code><code>excel=load_workbook('/test.xlsx')</code><code>table = excel.get_sheet_by_name('Sheet1')</code><code></code><code>rows=table.max_row #&#x83B7;&#x53D6;&#x884C;&#x6570;</code><code></code><code>cols=table.max_column #&#x83B7;&#x53D6;&#x5217;&#x6570;</code>

二、数据的基础描述 一般情况下,会使用 describe、dtypes、info、head等函数简单查看数据的情况和质量,是否需要进一步处理

<code>df.describe()    #&#x6C47;&#x603B;&#x7EDF;&#x8BA1;</code><code>df.dtypes   #&#x6570;&#x636E;&#x7C7B;&#x578B;</code><code>data.shape</code><code>data.info()</code><code>data.head()  #&#x53D6;&#x524D;&#x51E0;&#x884C;</code><code>data.columns   #&#x89C2;&#x5BDF;&#x5217;&#x540D;&#x79F0;</code><code>data.index  #&#x89C2;&#x5BDF;&#x884C;&#x540D;&#x79F0;</code>

python在数据集data文件中加上属性_Python数据分析基础,看这一篇文章张就可以了...

三、DataFrame 排序、增删行列操作 排序: sort_values ([“Revenue”,”Profit”],ascending=False),根据列来降序或者升序排列

<code>import pandas as pd</code><code></code><code>data=pd.read_excel('/Users/samuelzhan/&#x722C;&#x866B;/Fortune500.xlsx')</code><code>data.describe()</code><code>data.shape</code><code></code><code>data.sort_values(["Revenue","Profit"],ascending=False)</code>

python在数据集data文件中加上属性_Python数据分析基础,看这一篇文章张就可以了...

删除列: drop(‘列名’,axis=1,inplace=True) 对比上图即可观察除多余的一列数据被删除

python在数据集data文件中加上属性_Python数据分析基础,看这一篇文章张就可以了...

四、DataFrame数据处理:求和、平均数、计数 求和、计数:都是先选择groupby,然后再汇总分析,案例中是根据国家来做汇总分析,你可以根据行业来汇总分析 此外,在做计数统计中为了减少其他多余的数据,只取了 Country和Revenue两列数据,使用的是 data.loc[:,[‘Country’,’Revenue’]],Dataframe中提取行列的方法就不做赘述了。

<code>import pandas as pd</code><code></code><code>data=pd.read_excel('/Users/samuelzhan/&#x722C;&#x866B;/Fortune500.xlsx')</code><code>data.describe()</code><code>data.shape</code><code></code><code>data.sort_values(["Revenue","Profit"],ascending=False)</code><code></code><code>data.drop(['Unnamed: 0'],axis=1,inplace=True)</code><code>data.groupby('Country').sum()</code><code>data.loc[:,['Country','Revenue']].groupby('Country').count().rename(columns = {"Revenue": "Count"})</code>

python在数据集data文件中加上属性_Python数据分析基础,看这一篇文章张就可以了...

python在数据集data文件中加上属性_Python数据分析基础,看这一篇文章张就可以了...

五、DataFrame的增加行列合并操作 上面我们可以看到,一张图汇总了 不同国家500强企业的收入、利润、员工人数的汇总;一张图汇总了不同国家500强的数量,那如何让他们在一张表中展示出来呢?

<code>import pandas as pd</code><code></code><code>data=pd.read_excel('/Users/samuelzhan/&#x722C;&#x866B;/Fortune500.xlsx')</code><code>data.describe()</code><code>data.shape</code><code></code><code>data.sort_values(["Revenue","Profit"],ascending=False)</code><code></code><code>data.drop(['Unnamed: 0'],axis=1,inplace=True)</code><code>s1=data.groupby('Country').sum()</code><code>s2=data.loc[:,['Country','Revenue']].groupby('Country').count().rename(columns = {"Revenue": "Count"})</code><code></code><code></code><code>merge = pd.merge(s1,s2,on=['Country'],how='inner')</code><code>merge.sort_values(by='Count',axis = 0,ascending = False)</code>

python在数据集data文件中加上属性_Python数据分析基础,看这一篇文章张就可以了...

这里使用了Merge的方法,一般表链接有三种方式: 1、merge 相当于SQL中的JOIN。该函数的典型应用场景是,两张表有相同内容的列(即SQL中的键),现在我们想把两张表整合到一张表里。在此典型情况下,结果集的行数并没有增加,列数则为两个元数据的列数和减去连接键的数量。
2、concat 轴向连接。

就是单纯地把两个表拼在一起,这个过程也被称作绑定(binding)或堆叠(stacking)。因此可以想见,这个函数的关键参数应该是 axis,用于指定连接的轴向。axis=1 在行中操作,axis=0是在列中操作。默认是axis=0,即垂直堆叠。
3、join

加上join参数的属性,如果为’inner’得到的是两表的交集,如果是outer,得到的是两表的并集。 以上,用爬取的500强数据,简单说明了Python DataFrame数据处理的基本方法,下次我们再来讲解如何进行可视化操作。

Original: https://blog.csdn.net/weixin_30794639/article/details/113629746
Author: 紫荆银杏
Title: python在数据集data文件中加上属性_Python数据分析基础,看这一篇文章张就可以了…

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/756222/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 软件测试工程师知识架构

    一、测试基础 了解测试的基础技能,掌握主流缺陷管理工具的使用,熟练测试环境的操作与运维 测试理论 / 测试用例 黑盒用例设计等价类/边界值/场景分析/判定表/因果图分析/错误推断 …

    Python 2023年6月11日
    070
  • Python程序语言学习——实验作业04——函数的应用

    简要记录下本次实验作业的内容和总结。(因为觉得在文章首部添加目录没多大意思,就删了。) 实验1. 利用自定义函数求所有水仙花数,并用逗号隔开输出。 所谓水仙花数是一个三位数,其每位…

    Python 2023年5月24日
    079
  • Pytest学习-Fixture调用方法

    Pytest学习-Fixture调用方法 原创 我的事说来话长2022-08-05 20:25:43博主文章分类:Pytest ©著作权 文章标签 pytest 文章分类 Pyth…

    Python 2023年5月24日
    059
  • 利用opencv 做一个疲劳检测系统(2)

    文章目录 杂谈 实现步骤 核心算法 交互界面 界面代码 检测效果 源代码 杂谈 最近发现视力下降严重, 可能跟我的过度用眼有关,于是想着能不能做一个检测用眼疲劳的,灵感来自特斯拉的…

    Python 2023年9月27日
    034
  • python 包之 turtle 海龟绘图教程

    一、安装 写出许多有趣的可视化东西 也可以画出很多奇妙的图案 pip install turtule 二、画布 画布就是turtle为我们展开用于绘图区域 我们可以设置它的大小和初…

    Python 2023年6月10日
    084
  • 1、Numpy数组

    PYTHON学习记录 一、 numpy模块 – Numpy&#x662F;Python&#x8BED;&#x8A00;&#x4E2D;&#x…

    Python 2023年8月27日
    050
  • 一文速学-最小二乘法曲线拟合算法详解+项目代码

    抵扣说明: 1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。 Original: https://blo…

    Python 2023年7月31日
    040
  • pandas 数据分组

    学习目标 应用groupby 进行分组,并对分组数据进行聚合,转换和过滤 应用自定义函数处理分组之后的数据 1 aggregate聚合 在SQL中我们经常使用 GROUP BY 将…

    Python 2023年8月17日
    049
  • 【PAT甲级 – C++题解】1125 Chain the Ropes

    ✍个人博客:https://blog.csdn.net/Newin2020?spm=1011.2415.3001.5343📚专栏地址:PAT题解集合📝原题地址:题目详情 &#821…

    Python 2023年10月27日
    035
  • 关于Flask高级_RequestParser中的add_argument方法参数详解

    Flask高级_RequestParser中的add_argument方法参数详解 一.参数介绍 default:默认值,如果这个参数没有值,那么将使用这个参数 指定的默认值。 r…

    Python 2023年8月13日
    069
  • 用 Python 创建属于自己的网易云音乐

    今天我们将用Python来创建一个属于自己的音乐播放器。为此,我们将使用三个软件包: Tkinter:用于UI Pygame:播放音乐 os:用于访问系统文件 在这里我们将看到创建…

    Python 2023年9月23日
    036
  • 第一次写项目接口

    前言 第一次参与实习工作,S小白中完成的第一项项目任务,简要整理一下: 一、任务需求 任务目标:实现算法与后端联调,配置接口。md文档展示接口需求:接口解释为:后端传入数据给模型,…

    Python 2023年8月11日
    050
  • python设置曲面图颜色范围_三维曲面p的matplotlib中的自定义颜色映射

    我有一个指定颜色图的曲面图。以下是我的理解:import numpy as np import matplotlib.pyplot as plt import math from …

    Python 2023年9月5日
    051
  • (1)Scrapyrt安装与使用

    1.简介 Scrapyrt为Scrapy提供了一个调度和使用蜘蛛(spider)的HTTP接口,有了它,我们就不需要再执行Scrapy命令,而是通过请求一个HTTP接口来调度和使用…

    Python 2023年10月4日
    029
  • 2022.07.25 C++下使用opencv部署yolov7模型(五)

    0.写在最前 此篇文字针对yolov7-1.0版本。 最近粗略的看了一遍yolov7的论文,关于yolov7和其他yolo系列的对比,咱就不多说了,大佬们的文章很多很详细。关于op…

    Python 2023年11月5日
    039
  • 8个Spring事务失效的场景,你碰到过几种?

    前言 作为Java开发工程师,相信大家对 Spring种事务的使用并不陌生。但是你可能只是停留在基础的使用层面上,在遇到一些比较特殊的场景,事务可能没有生效,直接在生产上暴露了,这…

    Python 2023年10月11日
    055
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球