Python 数据分析师的基本修养

Python 数据分析师的基本修养

数据分析师通常需要使用编程工具来整理大量复杂的数据,并从这些数据中挖掘有用的数据。简而言之,数据分析师是从杂乱的数据中挑选规则的人,这样的工作需要数据分析师掌握以下技能:

[En]

Data analysts usually need to use programming tools to sort out a large and complex amount of data and mine useful data from these data. In short, data analysts are people who sort out rules from messy data, and such a job requires data analysts to master these skills:

  • 业界知识 –数据分析的基础就是为行业服务,足够的业界知识能让数据分析师了解究竟哪些数据才能为行业提供更深入的洞察
  • 编程技巧 –数据分析师需要清楚应该使用哪些库来简化和处理数据,进而从中找到所需的资料
  • 数据分析 –除了本身的数据分析能力,数据分析师也需要懂得借助工具来提取数据中的价值
  • 可视化技能 –只是提取数据是不够的,数据分析师需要把这些数据整理好后进行可视化,总结并呈现给他人

这篇文章将使用​​Python在线运行​​一系列经典的数据分析案例,让你对数据分析工具与编程有一定的了解,通过这些数据进行可视化并呈现我们所整理的数据。

文章中所使用的数据和范例代码已整理到项目文件中,大家只要打开就可以开始使用​​Python在线运行​​并查看数据:https://e2f35f8cd0-share.lightly.teamcode.com

分析数据

首先,我们需要使用Python中的Pandas库来读取 ​ ​.csv​​ 文件的数据。如果你的项目文件中还未安装pandas,可以参考​​安装教程​​通过 ​ ​pip install pandas​​ 或Quick Fix一键安装。

Python 数据分析师的基本修养

读取数据

安装好Pandas库后,我们还需要在编辑区使用Python代码 ​ ​import pandas​​ 导入,然后再通过下面的代码读取数据文件。

import pandas as pdfrom tabulate import tabulatedf = pd.read_csv('diabetes.csv'

大家可以使用以下代码,在编辑器中使用 Python 在线运行并查看数据效果:

print(tabulate(df, headers = 'keys', tablefmt = 'psql'))

Python 数据分析师的基本修养

作为数据分析师,大家应该要知道数值(Numerical)和分类(Categorical)数据之间的区别。

数值数据顾名思义,指的是具有数值意义的数据。这种数据具有实际测量的物理意义,比如血糖、血压、年龄等。

分类数据则描述对象的性质,比性别、婚姻状况、家乡等。我们这次使用的数据中,其实只有”结果”属于分类数据。在表示分类数据时,我们同样能使用数字来进行描述,但这些数据并没有数学意义,你不能拿他来做运算。

数据可视化

在这个教程中,我们会展示一系列使用Python在线运行的数据可视化效果,大家可以根据自己的数据类型选择合适的图表来呈现。

饼图

Python 数据分析师的基本修养

使用​​Python在线运行​​代码:​​SimplePie.py​

散点图

Python 数据分析师的基本修养

使用​​Python在线运行​​代码:​​scatterplot.py​

折线图

Python 数据分析师的基本修养

使用​​Python在线运行​​代码:​​linechart.py​

柱状图

Python 数据分析师的基本修养

使用​​Python在线运行​​代码:​​multibar.py​

当我们分析完数据并将图表可视化后,我们可以根据数据和图标的内容简要解释数据故事。例如,1月份购买梅赛德斯-奔驰的人数明显多于宝马,患有糖尿病的中老年人比例更高,冰箱购买量远高于其他月份,从而继续基于其他数据和实际情况进行分析。

[En]

When we have finished analyzing the data and visualizing the chart, we can briefly explain the data story according to the data and the content of the icon. For example, there are significantly more people buying Mercedes-Benz than BMW, a higher proportion of middle-aged and elderly people suffering from diabetes, and far higher refrigerator purchases in January than in other months, thus continuing the analysis based on other data and actual situation.

数据分析师也是人,我们在分析数据的时候有时也会带有一些陷入为主的观念。然而,数据的意义就是为了破除这些迷思。分析数据的过程中,我们需要保持开放的态度,不要让偏见影响我们的数据结果。

Original: https://blog.51cto.com/u_15340774/5547329
Author: TeamCode
Title: Python 数据分析师的基本修养

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/504457/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球