python数据分析入门项目–分析全球五百强的数据

2023年7月7日下午10:24 • 人工智能 • 阅读 65

这里我用一个简单的简单数据分析入门项目，这里我就先不讲数据数据下载、抓取的问题，我直接给出CSV文件的链接，点击就可以下载。
链接: link.

好，我们直接开始，我们把解析直接用注释的形式打在旁白。

import pandas as pd#一个很常用的数据分析模块--pandas
import matplotlib.pyplot as plt
'''导入函数pyplot,并指定别名为plt，可以后期不用反复输入pyplot。模块pyplot包含很多用于生成图表的函数'''
import seaborn as sns#调用样式声明
sns.set(style="darkgrid")#这里设置自己喜欢的样式

df = pd.read_csv('fortune500.csv')#这里在读取我们要分析的文件

df.head()
"""df是DataFrame的缩写，这里表示读取进来的数据
df.head()会将excel表格中的第一行看作列名，并默认输出之后的五行，
在head后面的括号里面直接写你想要输出的行数也行，比如2，10，100之类的。"""

df.tail()
""""同样的道理读取数据表格中的后五项"""

df.columns = ['year', 'rank', 'company', 'revenue', 'profit']
#重命名这些列，以便以后可以引用它们。
len(df)
#检测数据纵向的长度

25500

df.dtypes
'''检测数据类型，
如果一列中含有多个类型,则该列的类型会是object,同样字符串类型的列也会被当成object类型.

不同的数据类型也会被当成object,比如int32,float32'''

year int64
rank int64
company object
revenue float64
profit object
dtype: object

non_numberic_profits = df.profit.str.contains('[^0-9.-]')
df.loc[non_numberic_profits].head()
'''我们这里通过检测查出没有利润的数据'''

#检测一些明显的错误
round(100*len(df.profit[non_numberic_profits])/len(df),2)

1.45

bin_sizes, _, _ = plt.hist(df.year[non_numberic_profits], bins=range(1955, 2006))

#清空不符合的行
df = df.loc[~non_numberic_profits]
df.profit = df.profit.apply(pd.to_numeric)
len(df)
#再次测长度

25313

df.dtypes

year int64
rank int64
company object
revenue float64
profit float64
dtype: object

#再次测类型
group_by_year = df.loc[:, ['year', 'revenue', 'profit']].groupby('year')
avgs = group_by_year.mean()
x = avgs.index
def plot(x, y, ax, title, y_label):#设立一个函数，方便后期的图标绘制
    ax.set_title(title)#给图标加上标题
    ax.set_ylabel(y_label)#给y轴加上标题
    ax.plot(x, y)#给出了输入、输出值的大小
    ax.margins(x=0, y=0)#给定了原点的坐标

#开始绘制曲线
y1 = avgs.profit#这里利润的数据给y1
fig, ax = plt.subplots()
"""常用的调用，调用函数subplots(),变量fig表示整张图片,ax表示图片中的各个图表，后面不再反复提了"""
#绘制曲线
plot(x, y1, ax, 'Increase in mean Fortune 500 company profits from 1955 to 2005', 'Profit (millions)')

#绘制收入曲线
y2 = avgs.revenue#把收入的数据给y2
fig, ax = plt.subplots()#见上文
plot(x, y2, ax, 'Increase in mean Fortune 500 company revenues from 1955 to 2005', 'Revenue (millions)')
#绘制曲线

def plot_with_std(x, y, stds, ax, title, y_label):#这里又定义了一个绘制曲线的函数
    ax.fill_between(x, y - stds, y + stds, alpha=0.2)#设置透明度
    plot(x, y, ax, title, y_label)

fig, (ax1, ax2) = plt.subplots(ncols=2)
title = 'Increase in mean and std Fortune 500 company %s from 1955 to 2005'#给定标题
stds1 = group_by_year.std().profit.values
stds2 = group_by_year.std().revenue.values
plot_with_std(x, y1.values, stds1, ax1, title % 'profits', 'Profit (millions)')
plot_with_std(x, y2.values, stds2, ax2, title % 'revenues', 'Revenue (millions)')
'''这里要绘制两个图像，所以有ax1,2之分'''
fig.set_size_inches(14, 4)#调节图像大小
fig.tight_layout(）#紧密布局

源码参考–新加坡国立大学教学代码

Original: https://blog.csdn.net/weixin_47567401/article/details/113186853
Author: 翼达口香糖
Title: python数据分析入门项目–分析全球五百强的数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/677207/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

MINIST手写数字数据集–神经网络（mini-batch）

1.1 数据集介绍 MNIST 数据集主要由一些手写数字的图片和相应的标签组成，图片一共有10 类，分别对应从0～9 ，共10 个阿拉伯数字。 1.2 思路介绍导入数据集对导入…

人工智能 2023年7月26日
0045
数据科学—使用Pandas进行操作数据

| 1.1 Pandas是什么？ Pandas是Python中最受欢迎的数据科学库之一。它使用起来很容易，它是基于 Numpy之上，并共享了许多功能和属性。使用 Pandas，您…

人工智能 2023年7月6日
0064
pointnet语义分割_训练并预测自己的数据

这几天想用深度学习做一下点云的分割试验，网上搜了一下相关标题的blog有很多，但大部分只是简单的介绍文章内容，说明具体操作流程的干货并不多。在缺乏相关资料和帮助的情况下，本人大致搞…

人工智能 2023年5月23日
00107
6.28大华笔试

上午刚做完大华提前批笔试，记录一下。笔试时间60分钟，13道题，10道选择填空+3道简答。题型跟在牛客看到的去年大家笔试的不太一样，没有编程题。 new delete 与mal…

人工智能 2023年6月20日
0078
TVM 加速模型，优化推断

TVM 是一个开源深度学习编译器，可适用于各类 CPUs, GPUs 及其他专用加速器。它的目标是使得我们能够在任何硬件上优化和运行自己的模型。不同于深度学习框架关注模型生产力，T…

人工智能 2023年6月4日
0075
Python3 DataFrame数据详解

pandas的DataFrame极大地简化了数据分析过程中一些烦琐操作，它是一个表格型的数据结构, 每一列代表一个变量，而每一行则是一条记录。简答地说，DataFrame是共享同一…

人工智能 2023年6月19日
0061
cuda+TensorFlow详细的安装

CUDA、TensorFlow的安装 * 安装CUDA* – 添加额外的环境以及添加cudnn – + 验证安装是否成功 + * 安装TensorFlow …

人工智能 2023年5月26日
0080
【python】tkinter界面化+百度API—语音识别(一)

目录百度API tkineter界面设计完整代码：实现结果如下：百度API 语音识别功能是调用百度语音识别API去实现的。（这是百度开放的免费功能，每人可以注册领取免费资源…

人工智能 2023年5月25日
0081
时序分析 19 VAR(Vector Autoregression) 向量自回归

时序分析 19 向量自回归 (VAR) VAR (Vector Autoregressive) 简介本文开始介绍VAR(Vector Autoregressive)向量自回归。前…

人工智能 2023年6月18日
0062
Linux文件权限简述

对一个文件或文件夹来说，权限有十位。第一位如果是d说明是文件夹，-则表示是文件；后面三组rwx分别代表用户、用户组、其他的读、写、执行权限，-代表没有该权限。下图是某个文件夹内容的…

人工智能 2023年6月4日
0081
TensorFlow实现梯度下降法求解一元和多元线性回归问题

使用TensorFlow求解一元线性回归问题 import tensorflow as tf import numpy as np import matplotlib.pyplot…

人工智能 2023年5月25日
0079
基带、射频，到底是什么？

目录一、前言二、基带三、射频一、前言现在都流行”端到端”，我们就以手机通话为例，观察信号从手机到基站的整个过程，来看看基带和射频到底是干什么用的。…

人工智能 2023年5月25日
0064
ROS-基于PX4的无人机SLAM建图(Cartographer)仿真

一、准备工作 1.1、安装Ubuntu和ROS系统首先在电脑上安装好Ubuntu系统和ROS系统，我安装的是Ubuntu18.04和ROS Melodic，不同的Ubuntu版本…

人工智能 2023年6月25日
0099
多任务学习：Multi-Task Learning as Multi-Objective Optimization

前言最近在写一篇文章，是一篇深度学习与安全相结合的文章，模型的输出会交给两个损失函数（availability & security）进行损失计算，进而反向传播。起初的想…

人工智能 2023年7月13日
0086
Swin-Transformer-Object-Detection 配置与训练自己的数据集（踩坑）

官方Swin Transformer 目标检测训练流程 * – 一、环境配置 – + 1. 矩池云相关环境租赁 + 2. 安装pytorch及torchvi…

人工智能 2023年7月9日
0082
自己实现的unet3+模型，以及简单分析 (unet3plus tensorflow2 keras)

文章目录简介一、unet3+ 二、完整代码（keras） * 1.引入库 2.辅助函数 3.搭建网络 4.创建模型简介很早之前看了unet3+医学图像分割的论文，本来想直接…

人工智能 2023年5月23日
0080

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python数据分析入门项目–分析全球五百强的数据

大家都在看