数据分析项目实战day2

2023年7月8日下午5:18 • 人工智能 • 阅读 73

1.人口数据分析

1.导入并查看相关文件信息

state表示州的全称，abbreviation表示缩写。

state表示州 areas表示所占面积。

state表示州，age表示调查人口的年龄，year表示统计年份，population表示人口数量。

2.进行数据操作

将人口数据和各州简称数据合并。

上图中有两列缩写，删除其中一列。

将state空值对应的简称找到

对简称进行去重

给为空的state补上正确的值，从而去除nan。

利用之前判别是否存在nan检测操作是否成功。

将面积数据进行合并

找出2010年全部年龄人口数据

完整代码如下：

import numpy as np
import pandas as pd
from pandas.core.indexes.base import Index

abb=pd.read_csv("state-abbrevs.csv")#state&#x8868;&#x793A;&#x5DDE;&#x5168;&#x79F0; abbreviation&#x8868;&#x793A;&#x7F29;&#x5199;
#print(abb)
area=pd.read_csv("state-areas.csv")#state&#x8868;&#x793A;&#x5DDE; areas&#x8868;&#x793A;&#x6240;&#x5360;&#x9762;&#x79EF;
#print(area)
pop=pd.read_csv("state-population.csv")#state&#x8868;&#x793A;&#x5DDE;&#xFF0C;age&#x8868;&#x793A;&#x8C03;&#x67E5;&#x4EBA;&#x53E3;&#x7684;&#x5E74;&#x9F84;&#xFF0C;year&#x8868;&#x793A;&#x7EDF;&#x8BA1;&#x5E74;&#x4EFD;&#xFF0C;population&#x8868;&#x793A;&#x4EBA;&#x53E3;&#x6570;&#x91CF;&#x3002;&#xA0;
#print(pop)
#&#x5C06;&#x4EBA;&#x53E3;&#x6570;&#x636E;&#x548C;&#x5404;&#x5DDE;&#x7B80;&#x79F0;&#x6570;&#x636E;&#x5408;&#x5E76;
abb_pop=pd.merge(abb,pop,left_on='abbreviation',right_on='state/region',how='outer')
print(abb_pop.head(5))
abb_pop.drop(labels="abbreviation",axis=1,inplace=True)
print(abb_pop.head(5))

#&#x5B9A;&#x4F4D;state&#x4E2D;nan
abb_pop_nan=abb_pop.loc[abb_pop['state'].isnull()]
abb_pop_statenan=abb_pop_nan['state/region']
#print(abb_pop_statenan)
abb_pop_statenan=abb_pop_statenan.unique()
# print(abb_pop_statenan)

#&#x4E3A;&#x7A7A;&#x503C;&#x8865;&#x4E0A;&#x6B63;&#x786E;&#x7684;&#x503C;
#&#x53D6;&#x51FA;USA&#x5BF9;&#x5E94;&#x884C;&#x6570;&#x636E;
USA_nan=abb_pop.loc[abb_pop['state/region']=='USA']
PR_nan=abb_pop.loc[abb_pop['state/region']=='PR']
Indexs1=USA_nan.index
Indexs2=PR_nan.index
print(USA_nan)
#&#x83B7;&#x53D6;USA&#x4E3A;&#x7A7A;&#x5BF9;&#x5E94;&#x7684;&#x884C;&#x7D22;&#x5F15;&#x5E76;&#x5B8C;&#x6210;&#x8D4B;&#x503C;
abb_pop.loc[Indexs1,'state']='United States'
abb_pop.loc[Indexs2,'state']='Paran&#xE1;'
print(abb_pop)

#&#x68C0;&#x6D4B;&#x586B;&#x5145;nan&#x662F;&#x5426;&#x6210;&#x529F;
abb_pop_nan=abb_pop.loc[abb_pop['state'].isnull()]
abb_pop_statenan=abb_pop_nan['state/region']
print(abb_pop_statenan)
abb_pop_statenan=abb_pop_statenan.unique()
print(abb_pop_statenan)

#&#x518D;&#x5C06;&#x9762;&#x79EF;&#x6570;&#x636E;&#x8FDB;&#x884C;&#x5408;&#x5E76;
abb_pop_area=pd.merge(abb_pop,area,how='outer')
print(abb_pop_area)
#&#x53BB;&#x9664;&#x9762;&#x79EF;&#x4E2D;&#x542B;&#x6709;nan&#x7684;&#x884C;
area_nan=abb_pop_area.loc[abb_pop_area['area (sq. mi)'].isnull()]
Indexs3=area_nan.index
abb_pop_area.drop(labels=Indexs3,axis=0,inplace=True)
print(abb_pop_area)

#&#x627E;&#x51FA;2010&#x5E74;&#x5168;&#x6C11;&#x6570;&#x636E;
total_date_2010=abb_pop_area[abb_pop_area['ages']=='total']
total_date_2010=total_date_2010[total_date_2010['year']==2010]
print(total_date_2010)

#&#x8BA1;&#x7B97;&#x5404;&#x5DDE;&#x4EBA;&#x53E3;&#x5BC6;&#x5EA6; &#x6392;&#x5E8F;&#x5E76;&#x627E;&#x51FA;&#x4EBA;&#x53E3;&#x5BC6;&#x5EA6;&#x6700;&#x9AD8;
abb_pop_area['density']=abb_pop_area['population']/abb_pop_area['area (sq. mi)']
print(abb_pop_area)
abb_pop_area=abb_pop_area.sort_values(by='density',axis=0,ascending=False)
print(abb_pop_area.head(1))

2.政治献金数据分析

1.读取数据查看相关信息

2.进行数据操作

将所有空值填充为NOT PROVIDE。

将捐赠金额小于等于0的数据删除。

新建一列显示候选人所对应的党派。

统计不同党派出现的次数

统计各个党派收到的献金总数

查看具体每天的献金总数

查看老兵主要支持谁

完整代码如下

import numpy as np
import pandas as pd

parties = {'Bachmann, Michelle': 'Republican',
           'Cain, Herman': 'Republican',
           'Gingrich, Newt': 'Republican',
           'Huntsman, Jon': 'Republican',
           'Johnson, Gary Earl': 'Republican',
           'McCotter, Thaddeus G': 'Republican',
           'Obama, Barack': 'Democrat',
           'Paul, Ron': 'Republican',
           'Pawlenty, Timothy': 'Republican',
           'Perry, Rick': 'Republican',
           "Roemer, Charles E. 'Buddy' III": 'Republican',
           'Romney, Mitt': 'Republican',
           'Santorum, Rick': 'Republican'}

df=pd.read_csv("usa_election.txt")
print(df.head(5))
print(df.info())
print(df.describe())

#&#x5C06;&#x6240;&#x6709;&#x7A7A;&#x503C;&#x586B;&#x5145;&#x4E3A;NOT PROVIDE
df.fillna(value='NOT PROVIDE',inplace=True)
print(df)
#&#x5C06;&#x6350;&#x8D60;&#x91D1;&#x989D;&#x5C0F;&#x4E8E;&#x7B49;&#x4E8E;0&#x7684;&#x6570;&#x636E;&#x5220;&#x9664;
indexs1=df.loc[df['contb_receipt_amt']<=0].index df.drop(labels="indexs1,axis=0,inplace=True)" # print(df) #新建一列显示候选人所对应的党派 df['party']="df['cand_nm'].map(parties)" print(df['party'].value_counts()) #统计各个党派收到的献金总数 party_sum="df.groupby(by='party')['contb_receipt_amt'].sum()" print(party_sum) party_sum_day="df.groupby(by=['party','contb_receipt_dt'])['contb_receipt_amt'].sum()" print(party_sum_day) df_old="df.loc[df['contbr_occupation']=='DISABLED" veteran'] #根据候选人分组 再求和排序 df_old_donate="df_old.groupby(by='cand_nm')['contb_receipt_amt'].sum()" print(df_old_donate.head(1))< code></=0].index>

3.用户消费数据分析

1.数据预处理

发现数据的列索引存在问题，进行修改。

查看数据信息，发现没有空值。

将购买日期转换为时间类型。

在数据新增月份列。

2.按月进行分析

求出每月用户花费的总金额。因为数据跨越了两年，所以不进行刚才的月份合并操作。

绘制折线图。

求出每一个用户花费金额。

统计每一个用户消费次数。

绘制散点图。

绘制每个用户消费总金额直方图金额在1200内。

完整代码如下：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

#&#x7528;&#x4EE5;&#x6B63;&#x5E38;&#x663E;&#x793A;&#x4E2D;&#x6587;
plt.rcParams['font.sans-serif']=['SimHei'] #&#x7528;&#x6765;&#x6B63;&#x5E38;&#x663E;&#x793A;&#x4E2D;&#x6587;&#x6807;&#x7B7E;
plt.rcParams['axes.unicode_minus']=False #&#x7528;&#x6765;&#x6B63;&#x5E38;&#x663E;&#x793A;&#x8D1F;&#x53F7;

#&#x4FEE;&#x6539;&#x5217;&#x7D22;&#x5F15;&#xFF0C;name&#x4E2D;&#x4ECE;&#x5DE6;&#x5230;&#x53F3;&#x4F9D;&#x6B21;&#x4E3A;&#x7528;&#x6237;ID &#x8D2D;&#x4E70;&#x65E5;&#x671F; &#x8D2D;&#x4E70;&#x6570;&#x91CF; &#x8D2D;&#x4E70;&#x91D1;&#x989D;
df=pd.read_csv('CDNOW_master.txt',header=None,sep='\s+',names=['user_id','order_date','order_num','order_amount'])
#print(df)
print(df.info())

#&#x8F6C;&#x6362;&#x65F6;&#x95F4;&#x683C;&#x5F0F;
df['order_date']=pd.to_datetime(df['order_date'],format='%Y%m%d')

#&#x5728;&#x6570;&#x636E;&#x65B0;&#x589E;&#x6708;&#x4EFD;&#x5217;
df['month']=df['order_date'].astype('datetime64[M]')
df['month']=[i.month for i in df["month"]]

#&#x7EDF;&#x8BA1;&#x6BCF;&#x4E2A;&#x6708;&#x82B1;&#x8D39; &#x548C;&#x8D2D;&#x4E70;&#x4EA7;&#x54C1;
df_monthly_cost=df.groupby(by='month')['order_amount'].sum()
df_monthly_buy_num=df.groupby(by='month')['order_num'].sum()
print(df_monthly_cost)
print(df_monthly_buy_num)

#&#x4F5C;&#x56FE;
plt.figure(figsize=(20,8),dpi=80)
plt.plot(df_monthly_cost,label='&#x6BCF;&#x6708;&#x82B1;&#x8D39;&#x91D1;&#x989D;')
plt.plot(df_monthly_buy_num,label='&#x6BCF;&#x6708;&#x8D2D;&#x4E70;&#x4EA7;&#x54C1;&#x6570;')
plt.legend(loc='best')
plt.show()

#&#x57FA;&#x4E8E;&#x7528;&#x6237;&#x8FDB;&#x884C;&#x5206;&#x7EC4;
#&#x6C42;&#x6BCF;&#x4E00;&#x4E2A;&#x7528;&#x6237;&#x6D88;&#x8D39;&#x603B;&#x91D1;&#x989D;
df_per_user_amount=df.groupby(by='user_id')['order_amount'].sum()
#&#x6C42;&#x6BCF;&#x4E00;&#x4E2A;&#x7528;&#x6237;&#x6D88;&#x8D39;&#x603B;&#x6B21;&#x6570;
df_per_user_num=df.groupby(by='user_id').count()['order_num']

print(df_per_user_num)
plt.figure(figsize=(20,8),dpi=80)
plt.scatter(df_per_user_num,df_per_user_amount)
plt.xlabel('&#x8D2D;&#x4E70;&#x6B21;&#x6570;')
plt.ylabel('&#x8D2D;&#x4E70;&#x91D1;&#x989D;')
plt.show()

#&#x7ED8;&#x5236;&#x6BCF;&#x4E2A;&#x7528;&#x6237;&#x6D88;&#x8D39;&#x603B;&#x91D1;&#x989D;&#x76F4;&#x65B9;&#x56FE; &#x91D1;&#x989D;&#x5728;1200&#x5185;
df_per_user_amount_1=df.groupby(by='user_id').sum().query('order_amount<=1200')["order_amount"] # print(df_per_user_amount_1) plt.figure(figsize="(20,8),dpi=80)" plt.hist(df_per_user_amount_1) plt.xlabel('消费金额') plt.ylabel('用户数量') plt.show() < code></=1200')["order_amount"]>

Original: https://blog.csdn.net/kongqing23/article/details/122337298
Author: kongqing23
Title: 数据分析项目实战day2

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678944/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Neo4j – CQL使用

3.1 Neo4j – CQL简介 Neo4j的Cypher语言是为处理图形数据而构建的，CQL代表Cypher查询语言。像Oracle数据库具有查询语言SQL，Neo…

人工智能 2023年6月10日
0076
基于人工智能的图像处理技术：利用Opencv实现

基于人工智能的图像处理技术本文档基于电子科技大学软件工程学院的的一门图像处理技术课程要求所撰写，希望后来的学习学妹！！！！不要照抄！！！！！ *人工智能概述人工智能，作为计算机…

人工智能 2023年7月18日
0041
Java实现darknet+yolov4的目标检测

目录 1、darknet 简介 2、yolov4 3、java 如何实现 3.1、OpenCV 原理和内存管理 3.2、实现详解 3.3、完整代码 4、结语 1、darknet 简…

人工智能 2023年7月20日
0079
Jena Fuseki 内置推理规则实现Sparql查询推理结果

本文仅仅是能执行成功的步骤，具体原理希望看文的小伙伴自己去查一下~ 1.owl文件的准备我是用的protege自己建了一个本体，导出两个不同类型的本体文件，一个是rdf/xml格…

人工智能 2023年6月1日
0087
An End-to-End Document-level Framework for Chinese Financial Event Extraction论文笔记

背景持续经济增长使数字金融文件爆炸式增长,急需事件抽取帮助人民提取有价值的结构化信息. DCFEE不适用于文档级多事件任务挑战事件参数总分散在不同句子中,甚至多个此类事件提及…

人工智能 2023年6月1日
0092
【机器学习】K-means算法Python实现教程

阅读须知：阅读本文需要有一定的Python及Numpy基础本文将介绍： K-means算法实现步骤使用Python实现K-means算法借助Numpy的向量计算提升计算速度…

人工智能 2023年6月15日
0039
python pandas ewm 一次指数加权移动平均

文章目录一、公式二、DataFrame.ewm() 参数 * com span halflife alpha min_periods adjust ignore_na axis…

人工智能 2023年6月19日
00103
STM32F4 | PWM输出实验

开启 TIM3 和 GPIO 时钟，配置 PB1 选择复用功能 AF1 （ TIM3 ）输出要使用 TIM3，我们必须先开启 TIM3 的时钟。 HAL 库使能 TIM3 时钟和…

人工智能 2023年7月29日
0055
算法学习之gumbel softmax

1. gumbel_softmax有什么用呢? 假设如下场景:模型训练过程中, 网络的输出为p = [0.1, 0.7, 0.2], 三个数值分别为”向左”…

人工智能 2023年6月15日
0075
红外目标检测算法与数据集

1. 概述本文为作者在查找文献时发现的一些关于红外目标检测的算法和数据集。 2.开源作者 [1] 程明明：文章+代码+ LaTeX+PPT 3. 算法 [1] Saed Mora…

人工智能 2023年5月26日
0091
一、KNN算法

一、 KNN 算法 1.1 概述 KNN(全称K Nearest Neighbors)可以说是最简单的分类算法之一，同时，它也是最常用的分类算法之一。绿色的点就是我们要预测的那个…

人工智能 2023年7月1日
00105
spark DataFrame 常见操作

scala;gutter:true; spark dataframe派生于RDD类，但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。</p> <p&g…

人工智能 2023年6月2日
0082
神经网络、结构、权重和矩阵

介绍我们在机器学习教程的前一章中介绍了有关神经网络的基本思想。我们已经指出了生物学中神经元和神经网络之间的相似性。我们还引入了非常小的人工神经网络，并引入了决策边界和 XOR …

人工智能 2023年7月13日
0079
Windows YOLOv5 训练部署及其问题解决

Yolov5训练步骤参考的是以下博客 YOLOv5训练自己的数据集（超详细完整版）_深度学习菜鸟的博客-CSDN博客_yolov5训练自己数据集 (4条消息) YOLOv5训练自…

人工智能 2023年7月12日
0088
关键词检测任务调研（Keyword Spotting）（4）

目录说明 Abstract Introduction Method Experiment Conclusion 笔者发言说明这篇文章是对一些论文的简要描述。如果你想知道具体内…

人工智能 2023年5月25日
0070
学习实践案例：YOLOv3实现目标检测

YOLO 网络介绍 YOLO是单阶段方法的开山之作。它将检测任务表述成一个统一的、端到端的回归问题，并且以只处理一次图片同时得到位置和分类而得名。 YOLOV1是典型的目标检测on…

人工智能 2023年7月11日
0072

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据分析项目实战day2

1.人口数据分析

1.导入并查看相关文件信息

2.进行数据操作

2.政治献金数据分析

1.读取数据查看相关信息

2.进行数据操作

3.用户消费数据分析

1.数据预处理

2.按月进行分析

大家都在看