数据分析项目：股票数据预处理/双均线量化策略/各州人口分布分析/美国大选献金项目数据分析

2023年8月21日下午7:56 • Python • 阅读 56

1，股票数据预处理（计算茅台酒股票从15年到21年买卖的收入）
import tushare as ts
import pandas as pd
from pandas import DataFrame,Series
import numpy as np

获取某只股票的历史行情数据

code股票代码,data交易时间，open开盘价，close收盘价，volume成交量

df=ts.get_k_data(code=’600519′,start=’2000-01-01′)

将互联网上获取的数据存到本地,to_xxx为写入本地

df.to_csv(‘./maotao.csv’)

将本地的文本数据读到df中

df=pd.read_csv(‘./maotao.csv’)

查看每一列的数据类型

df.info()

将time列转为时间序列类型

df[‘date’]=pd.to_datetime(df[‘date’])

删除df中Unnamed:0的一列,axis=0表示列，1表示行,在drop中相反

df.drop(labels=’Unnamed: 0′,axis=1,inplace=True)

将date列作为源数据的行索引

df.set_index(‘date’,inplace=True)

df.loc[(df[‘open’]-df[‘close’])/df[‘open’]>0.03].index

df[‘close’].shift(1)

new_df=df[‘2015-01′:’2021-2’]

每月第一个交易日对应的行数据

df_monthly=new_df.resample(‘M’).first()

买入金额总花费

cost=df_monthly[‘open’].sum() _100
df_yearly=new_df.resample(‘A’).last()[:-1]
#计算卖出股票到手的钱
resv=df_yearly[‘open’].sum() 1200
#最后手中剩余的股票需要估量其价值总收益中
#取2020年12月最后收盘的数据,两个月没收盘故×200
last_money=new_df[‘close’][-1] 200
resv+last_money-cost
2，双均线量化策略
import tushare as ts
import pandas as pd
from pandas import Series
from pandas import DataFrame,Series
import numpy as np
import matplotlib.pyplot as plt
#获取某只股票的历史行情数据
#code股票代码,data交易时间，open开盘价，close收盘价，volume成交量
df=ts.get_k_data(code=’600519′,start=’2010-01-01′)
#将互联网上获取的数据存到本地,to_xxx为写入本地
df.to_csv(‘./maotao.csv’)
#将本地的文本数据读到df中
df=pd.read_csv(‘./maotao.csv’)
#drop中，o表示行，1表示列
df=pd.read_csv(‘./maotao.csv’).drop(labels=’Unnamed: 0′,axis=1)
#将time列转为时间序列类型
df[‘date’]=pd.to_datetime(df[‘date’])
#将date列作为源数据的行索引
df.set_index(‘date’,inplace=True)
ma5=df[‘close’].rolling(5).mean()
ma30=df[‘close’].rolling(30).mean()
#用matplotlib画线
%matplotlib inline
plt.plot(ma5[30:])
plt.plot(ma30[30:])
s1=ma5 100)#//为整除，p 100为一手的股票,hand_count为买了多少手
hold=hand_count_100
money-=(hold _p)#把买股票的钱从money中减去
else:
#将买入的股票卖出去
#找出卖出股票的单价
death_time=s.index[i]#死叉时间
p_death=df.loc[death_time][‘open’]#卖股票的单价
money+=(p_death_hold)#卖出的股票收入加入到money

如何判断最后一天为金叉还是死叉

last_money=hold*df[‘close’][-1]#剩余股票的价值

总收益

money+last_money-first_money
3，各州人口分布分析
import numpy as np
import pandas as pd
from pandas import DataFrame

导入文件，查看原始数据

abb=pd.read_csv(‘./data/state-abbrevs.csv’)#存储的是洲名字state和缩写abb
area=pd.read_csv(‘./data/state-areas.csv’)#洲名state和洲面积area
pop=pd.read_csv(‘./data/state-population.csv’)#导入各州人口state/region,ages,year,population
abb_pop=pd.merge(abb,pop,left_on=’abbreviation’,right_on=’state/region’,how=’outer’)

删除重复的abb和state/region中的一项，drop中1为列，0为行

abb_pop.drop(labels=’abbreviation’,axis=1,inplace=True)#删除abbreviation

查看存在缺失数据的列

方式1：isnull（），notnull（），any，all,0表示列

abb_pop.isnull().any(axis=0)#state和population存在空值

方式2：.info()

abb_pop.info()

找出state中空值对应的简称找到，且对简称进行去重/将state空值对应的行数据取出，从该行数据中就可以取出简称的值

1，将state中的空值定位

abb_pop[‘state’].isnull()#np.nan

2.将上述的布尔值作为源数据的行索引取出state为空的行数据

abb_pop.loc[abb_pop[‘state’].isnull()]

3,将简称取出

abb_pop.loc[abb_pop[‘state’].isnull()][‘state/region’]

4,对简称去重

abb_pop.loc[abb_pop[‘state’].isnull()][‘state/region’].unique()

结论：只有PR/USA对应的全称数据为空值

为找到的这些state/region的state项补上正确的值，从而去除掉state这一列的所有NaN

不可以用fillna的空的紧邻值填充，要用元素赋值的方式进行填充

1.先给USA全称对应的空值进行批量赋值（由于只是名没写，故需要写名字）

1.1将USA对应的行数据找出（行数据中就存在state的空值）

abb_pop[‘state/region’]’USA’
abb_pop.loc[abb_pop[‘state/region’]’USA’]#将对应的行数据取出

1.2将USA对应的全称空对应的行索引取出

indexs=abb_pop.loc[abb_pop[‘state/region’]’USA’].index
abb_pop.iloc[indexs]
abb_pop.loc[indexs,’state’]=’United States’

2.将PR的全称进行赋值

abb_pop[‘state/region’]’PR’
abb_pop.loc[abb_pop[‘state/region’]’PR’]#PR对应的行数据
indexs=abb_pop.loc[abb_pop[‘state/region’]’PR’].index
abb_pop.loc[indexs,’state’]=’PPPRRR’

-合并各州面积

abb_pop_area=pd.merge(abb_pop,area,how=’outer’)

找出area这一列缺失数据，找出哪些是缺失行

abb_pop_area[‘area (sq. mi)’].isnull()
abb_pop_area.loc[abb_pop_area[‘area (sq. mi)’].isnull()]#空值对应的行数据
indexs=abb_pop_area.loc[abb_pop_area[‘area (sq. mi)’].isnull()].index

取出含有缺失数据的行

abb_pop_area.drop(labels=indexs,axis=0,inplace=True)

找出2010年的全民人口数据（基于df做条件查询）

abb_pop_area.query(‘ages”total”&year==2010’)

计算各州的人口密度（人口/面积）,并加入表中

abb_pop_area[‘tensity’]=abb_pop_area[‘population’]/abb_pop_area[‘area (sq. mi)’]

排序，并找出人口密度最高的洲,ascending为False表示降序,iloc[0]表示取第一行

abb_pop_area.sort_values(by=’tensity’,axis=0,ascending=False).iloc[0][‘state’]

项目三美国大选献金项目数据分析

Original: https://blog.csdn.net/weixin_43679037/article/details/113998250
Author: 谢白羽
Title: 数据分析项目：股票数据预处理/双均线量化策略/各州人口分布分析/美国大选献金项目数据分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/756018/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

关于django中配置静态文件static后引入文件报错did you forget to register or load this tag?

问题：报错static,did you forget to register or load this tag? 1.setting已经注册static文件 TEMPLATES模版…

Python 2023年8月6日
0077
Nginx 防盗链

Nginx 防盗链本篇主要介绍一下 nginx 中防盗链的具体配置 , 以及http 的 referer 头概述 防盗&#…

Python 2023年10月12日
0039
【docker】介绍及安装

Docker概述 Docker与传统虚拟机区别 docker架构 docker安装一、配置基础环境二、安装docker 如何卸载docker 三、开启Docker远程访问 Do…

Python 2023年6月3日
0072
pythonxlabel位置_Matplotlib：如何为每个子区域添加xlabel，标题

我正在尝试使用plt.subplots来绘制多个热图。我发现的一个例子如下：如果我评论以下两行(在上面的例子中完成)Matplotlib：如何为每个子区域添加xlabel，标题 i…

Python 2023年9月5日
0061
【Python游戏】Python魔塔样板，自带Demo游戏内容（Powered by Pygame）| 附带源码

相关文件想学Python的小伙伴可以关注小编的公众号【Python日志】有很多的资源可以白嫖的哈，不定时会更新一下Python的小知识的哈！！需要源码的小伙伴可以在公众号回复 …

Python 2023年9月19日
0054
pandas处理Excel基本方法

学习总结主要参考了视频内容 https://www.bilibili.com/video/BV1hk4y1C73S?p=2&vd_source=7771577bd8c0c6…

Python 2023年8月7日
0063
XAF新手入门 – 模块(Module)

模块概述谈到模块大家应该都不会感到陌生，不管是前端还是后端都有模块的概念，XAF中的模块概念与大多数框架中的模块概念是相通的。XAF模块首先是一个.NET类库，同时它还包含一个继…

Python 2023年10月17日
0054
Jupyter Notebook 默认储存地址更改方法

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月20日
0048
推荐两个非常实用的，Python装饰器

这个函数的作用在于可以给任意可能会hang住的函数添加超时功能，这个功能在编写外部API调用、网络爬虫、数据库查询的时候特别有用 timeout装饰器的代码如下： import …

Python 2023年5月25日
0060
Scrapy

@Scrapy学习 Scrapy使用异步网络库处理网络通讯，安装Scrapy pip install Scrapy 可能遇到的坑报错1 VC++14.0 Twisted 解决方…

Python 2023年10月1日
0056
学习笔记–Java中final关键字

Java中final关键字，学习记录19 Java中final关键字关于Java语言中的final关键字： final是一个关键字，表示：最终的，不可改变 final修饰的类无法…

Python 2023年6月3日
0082
Flask 生成图片验证码

目录一、Flask 图片验证码 * – + * – + 1 接收前端传来的uuid + 2生成一个随机的图片验证码由数字字母组成(字母区分大小写) 设定…

Python 2023年8月14日
0049
Plotly：最强Python可视化库，没有之一

之前一直使用 matplotlib，这也导致我花费了不知多少个深夜，在 StackOverflow 上搜索如何”格式化日期”或”增加第二个Y轴&…

Python 2023年8月30日
0066
python基本语法

字符型 str str() name=”你好呀世界” name[3] 取出第四个字符列表 list 数组 [] list() extends() 拼接值 …

Python 2023年5月24日
0079
DRF 多对一反向查找序列化

本文主要看序列化以下公式二选一:从表属性写主表s属性 = 主表serializers()主表属性写从表_set = 从表serializers(many=True, read…

Python 2023年8月4日
0057
【yolov5】pytorch模型导出为onnx模型

博主想拿官网的yolov5训练好pt模型，然后转换成rknn模型，然后在瑞芯微开发板上调用模型检测。但是官网的版本对npu不友好，所以采用改进结构的版本：将Focus层改成Con…

Python 2023年8月2日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31