python 计量经济学案例分析_python数据分析案例（三）

2023年7月8日上午7:00 • 人工智能 • 阅读 107

数据来源：https://pan.baidu.com/s/1MUqs391emlIUsf_wyX2GAg#list/path=%2F

密码：utbp

第一部分按性别/年份统计出生数

思路：加载所有txt文件并进行整合，创建数据透视表，运用DataFrame内置绘图

step1

import pandas as pd
years=range(1880, 2011)
babynames = []
#&#x5EFA;&#x7ACB;&#x5217;&#x8868;&#xFF0C;&#x4EE5;&#x5B58;&#x653E;&#x591A;&#x4E2A;DataFrame
for year in years:
    frame = pd.read_csv(r'C:UsersAdministratorDownloadspydata-book-2nd-editiondatasetsbabynamesyob%d.txt'% year, names=['name','gender','births'])
    frame['year'] = year
    #&#x65B0;&#x589E;year&#x5217;
    babynames.append(frame)
names = pd.concat(babynames, ignore_index=True)
#&#x53BB;&#x9664;&#x539F;DataFrame&#x4E2D;&#x7684;&#x7D22;&#x5F15;

step2

table=names.pivot_table('births',index='year',columns='gender',aggfunc='sum')
#&#x9700;&#x8981;&#x6307;&#x5B9A;&#x5177;&#x4F53;&#x5BF9;&#x8C61;&#x2014;&#x2014;names&#xFF0C;&#x521B;&#x5EFA;&#x6309;&#x6027;&#x522B;/&#x5E74;&#x5EA6;&#x7EDF;&#x8BA1;&#x7684;&#x51FA;&#x751F;&#x6570;
table.head()
gender         F        M
year
1880       90993   110493
1881       91955   100748
1882      107851   113687
1883      112322   104632
1884      129021   114445
#&#x89C2;&#x6D4B;&#x524D;&#x4E94;&#x884C;&#x6570;&#x636E;

step3

table.plot()
#&#x4F7F;&#x7528;DataFrame&#x5185;&#x7F6E;&#x7ED8;&#x56FE;

第二部分按性别/年份统计各名字使用数占比

思路：定义函数，新增占比列，进行有效性检查

step1

def add_prop(group):
    group['prop'] = group['births'] / group['births'].sum()
    return group
#&#x5B9A;&#x4E49;&#x51FD;&#x6570;add_prop
data=names.groupby(['year', 'gender']).apply(add_prop)
#&#x6839;&#x636E;names&#x4E2D;&#x7684;year&#x548C;gender&#x4E3A;&#x5206;&#x7EC4;&#x952E;&#xFF0C;&#x8C03;&#x7528;&#x51FD;&#x6570;
data.tail()
              name  gender  birth  year      prop
1690779    Zymaire       M      5  2010  0.000003
1690780     Zyonne       M      5  2010  0.000003
1690781  Zyquarius       M      5  2010  0.000003
1690782      Zyran       M      5  2010  0.000003
1690783      Zzyzx       M      5  2010  0.000003

step2

data.groupby(['year', 'gender'])['prop'].sum()[:5]
year  gender
1880  F         1.0
      M         1.0
1881  F         1.0
      M         1.0
1882  F         1.0
#&#x68C0;&#x67E5;&#x5206;&#x7C7B;&#x540E;&#x7684;prop&#x5217;&#x603B;&#x548C;&#x662F;&#x5426;&#x4E3A;1

第三部分各个名字流行度分析

思路：在names基础上，按年份/性别进行分组处理保留每组出生数为前1000名的数据行，以此创建数据透视表，分析每个名字在每一年的使用数量及男女出生数

step1

def get_top1000(group):
    return group.sort_values(by='births', ascending=False)[:1000]
    #&#x5982;&#x679C;&#x76F4;&#x63A5;&#x4F7F;&#x7528;sort_values,&#x53EA;&#x4F1A;&#x83B7;&#x5F97;&#x4E00;&#x4E2A;series&#xFF0C;&#x6240;&#x6709;&#x6570;&#x636E;&#x4E2D;&#x7684;&#x524D;1000&#x4E2A;
grouped = data.groupby(['year', 'gender'])
#data&#x4E3A;names&#x52A0;&#x4E0A;'prop'&#x5217;
top1000 = grouped.apply(get_top1000)
#&#x53D6;&#x5206;&#x7EC4;&#x540E;&#x7684;&#x6BCF;&#x7EC4;&#x524D;1000&#x4E2A;&#x540D;&#x5B57;
top1000.reset_index(inplace=True, drop=True)

step2

table1=top1000.pivot_table('births', index='year',columns='name',aggfunc='sum')
#&#x9488;&#x5BF9;&#x6309;&#x6027;&#x522B;/&#x5E74;&#x4EFD;&#x5206;&#x7EC4;&#x540E;&#x7684;&#x6BCF;&#x7EC4;&#x7684;&#x524D;1000&#x4E2A;&#x540D;&#x5B57;&#x521B;&#x5EFA;&#x6570;&#x636E;&#x900F;&#x89C6;&#x8868;&#xFF0C;&#x5F97;&#x5230;&#x6BCF;&#x5E74;&#x5404;&#x4E2A;&#x540D;&#x5B57;&#x7684;&#x53D6;&#x540D;&#x6570;

step3

name1=table1[['Peter','Mike','Tom','Nancy']]
name1.plot()
#&#x53D6;&#x51E0;&#x4E2A;&#x540D;&#x5B57;&#xFF0C;&#x7ED8;&#x5236;&#x7EBF;&#x56FE;&#xFF0C;&#x89C2;&#x5BDF;&#x53D6;&#x540D;&#x6570;&#x968F;&#x65F6;&#x95F4;&#x7684;&#x53D8;&#x5316;&#x8D8B;&#x52BF;

第四部分名字的多样性分析

思路：分析每年前1000个流行名字男/女在总人数中的占比趋势

step1

table2=top1000.pivot_table('prop',index='year',columns='gender',aggfunc='sum')
#&#x9488;&#x5BF9;&#x6309;&#x6027;&#x522B;/&#x5E74;&#x4EFD;&#x5206;&#x7EC4;&#x540E;&#x7684;&#x6BCF;&#x7EC4;&#x7684;&#x524D;1000&#x4E2A;&#x540D;&#x5B57;&#x521B;&#x5EFA;&#x6570;&#x636E;&#x900F;&#x89C6;&#x8868;&#xFF0C;&#x5206;&#x522B;&#x8BA1;&#x7B97;&#x6BCF;&#x5E74;&#x7537;/&#x5973;&#x540D;&#x5B57;&#x6570;&#x5360;&#x6BD4;&#x603B;&#x548C;

step2

table2.plot
#&#x6839;&#x636E;&#x65F6;&#x95F4;&#x53D8;&#x5316;&#xFF0C;&#x524D;1000&#x4E2A;&#x53D6;&#x540D;&#x6570;&#x6700;&#x591A;&#x7684;&#x5360;&#x6BD4;&#x6570;&#x91CF;&#x660E;&#x663E;&#x4E0B;&#x964D;&#xFF0C;&#x53EF;&#x4EE5;&#x770B;&#x51FA;&#x540D;&#x5B57;&#x7684;&#x591A;&#x6837;&#x6027;&#x51FA;&#x73B0;&#x4E86;&#x589E;&#x957F;

第五部分所有名字末字母的分布变化

思路：定义函数获得名字的末字母，创建数据透视表，并将末字母作为索引行

step1 数据映射

get_last_letter = lambda x: x[-1]
#&#x5B9A;&#x4E49;&#x51FD;&#x6570;&#xFF0C;&#x53EF;&#x83B7;&#x5F97;&#x5B57;&#x6BB5;&#x7684;&#x672B;&#x5B57;&#x6BCD;
last_letters = data['name'].map(get_last_letter)
last_letters[:5]
0    y
1    a
2    a
3    h
4    e

step2

table3=names.pivot_table('births',index=last_letters,columns=['gender', 'year'], aggfunc='sum')
#&#x6BCF;&#x4E00;&#x5E74;&#x7537;/&#x5973;&#x672B;&#x5B57;&#x6BCD;&#x5BF9;&#x5E94;&#x53D6;&#x540D;&#x6570;

table4=data3 / data3.sum()
#&#x6BCF;&#x4E00;&#x5E74;&#x7537;/&#x5973;&#x5BF9;&#x5E94;&#x5B57;&#x6BCD;&#x53D6;&#x540D;&#x6570;/&#x6BCF;&#x4E00;&#x5E74;&#x7537;/&#x5973;&#x603B;&#x51FA;&#x751F;&#x6570;

table4['F'].loc[['n','t','e']].T.head()
name         n        t        e
year
1880  0.033057 0.023650 0.366819
1881  0.032179 0.023544 0.370616
1882  0.033157 0.022244 0.374582
1883  0.034161 0.022738 0.373159
1884  0.034932 0.021896 0.372722
#&#x53D6;&#x524D;&#x4E94;&#x884C;['n','t''e']&#x672B;&#x5B57;&#x6BCD;&#x53D6;&#x540D;&#x60C5;&#x51B5;&#xFF0C;&#x5E76;&#x8FDB;&#x884C;&#x8F6C;&#x7F6E;

step3

table4['F'].loc[['n','t','e']].T.plot()
#&#x5973;&#x5B69;&#x672B;&#x5B57;&#x6BCD;&#x53D6;&#x540D;&#x8D8B;&#x52BF;

table4['M'].loc[['n','t','e']].T.plot()
#&#x7537;&#x5B69;&#x672B;&#x5B57;&#x6BCD;&#x53D6;&#x540D;&#x8D8B;&#x52BF;

Original: https://blog.csdn.net/weixin_29476767/article/details/112453360
Author: 游龙浴火
Title: python 计量经济学案例分析_python数据分析案例（三）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/677995/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

半监督学习的优势是什么

半监督学习的优势是什么半监督学习是机器学习中一种特殊的学习方式，它利用未标记的数据来提升模型的性能。相比于监督学习，它能够在只有少量标记数据的情况下获得更好的性能。半监督学习的优…

人工智能 2023年12月31日
00109
【一】gym环境安装以及安装遇到的错误解决

人工智能 2023年5月26日
00117
TensorFlow各个GPU版本CUDA和cuDNN对应版本整理

CUDA Toolkit and Minimum Compatible Driver Versions CUDA Toolkit Toolkit Driver VersionLin…

人工智能 2023年5月24日
0087
机器学习训练营——基于逻辑回归的鸢花数据（iris）分类预测

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月2日
0062
ESP32+INMP441+DHT11+OLED+网页+Arduino——“智能”语音天气站（1）：INMP441录音并显示

在决定使用INMP441作为麦克风的时候，我们对麦克风的相关知识并不是很了解，所以过程中出了很多问题。出现问题，那就针对debug的结果和自己的猜想一个个去查，去实验，最后终于解决…

人工智能 2023年5月23日
00147
《机器学习实战》——第9章树回归

第8章介绍的线性回归包含了一些强大的方法，但这些方法创建的模型需要拟合所有的样本点（局部加权线性回归除外）。当数据拥有众多特征并且特征之间关系十分复杂时，构建全局模型的想法就显得太…

人工智能 2023年6月18日
0090
【Pytorch教程】：RNN 循环神经网络 (回归)

Pytorch教程目录 Torch and Numpy变量 (Variable)激励函数关系拟合（回归）区分类型 (分类)快速搭建法批训练加速神经网络训练Optimizer优化器卷…

人工智能 2023年6月18日
0085
Colab使用教程

最近在学习NLP，但是学习 深度学习算法，需要有 GPU，也就是显卡。而显卡，需要是 NV…

人工智能 2023年6月16日
0070
Pandas对日期数据的处理

Pandas对日期数据的处理文章目录前言一、将字符串转换为日期类型 * 1、将字符串形式的日期数据转换成为日期类型，方便后续处理 2、根据多列中的数据，组成一列为日期类型二…

人工智能 2023年7月8日
0049
Jetson Xavier NX系统烧录(使用NVIDIA SDK Manager)

目录一、在host主机下安装NVIDIA SDK Manager 二、安装系统镜像三、设置SSD为系统启动项四、安装CUDA等环境的包注意：本文使用的是国产开发套件，不支持…

人工智能 2023年7月27日
0083
TRANSFORMER TRANSDUCER: A STREAMABLE SPEECH RECOGNITION MODELWITH TRANSFORMER ENCODERS AND RNN-T

题目： TRANSFORMER TRANSDUCER: A STREAMABLE SPEECH RECOGNITION MODEL WITH TRANSFORMER ENCODER…

人工智能 2023年7月13日
0059
图像分割与实战（一）——基于主动轮廓（snake）的图像分割

1.主动轮廓图像分割算法的概述 1.1主要思想将图像分割问题转化为轮廓进化问题 1.2工作原理将一条曲线在内外力的共同作用下，使得曲线逐步收敛到目标轮廓 1.3 算法流程初始…

人工智能 2023年7月19日
0099
CUDA安装和检测【全】（nvcc命令找不到的解决办法）

一、安装CUDA流程注意！CUDA只能运行在NVIDIA显卡上，因此在安装CUDA之前，要确保自己的电脑是NVIDIA显卡。怎么确认电脑显卡，可参照上一篇博客。NVIDIA显卡型…

人工智能 2023年7月20日
00260
Tensorflow2.0学习-加载和预处理数据 (七)

import tensorflow as tf AUTOTUNE = tf.data.experimental.AUTOTUNE 数据准备 import pathlib data_…

人工智能 2023年5月24日
00111
基于python的微博舆情分析与研究—以《北京冬奥会》为关键词

创作不易，如果以下内容对你有帮助，记得三连呀，让更多的小伙伴能看到吧~~ 1. 研究内容本课题研究的是基于Python的微博舆情热点分析与研究。在PyCharm、Jupiter …

人工智能 2023年6月19日
0077
Java+Python健康码(红/黄码)识别

希望疫情笼罩的日子尽早过去因为疫情来的猛，公司内部为了监控员工健康码状态，要求系统自动识别，并且将情况通知到对应的人员进行后续跟踪。运行环境和使用到的技术：ubuntu20、py…

人工智能 2023年6月19日
00115

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python 计量经济学案例分析_python数据分析案例（三）

大家都在看