数据分析 | Pandas 200道练习题，每日10道题，学完必成大神（7）

2023年7月9日上午5:11 • 人工智能 • 阅读 72

文章目录

*
– 前期准备
– 1. 以df的列名创建一个DataFrame
– 2. 打印所有换手率为非数字的行
– 3. 删除所有换手率为非数字的行
– 4. 重置df的行号
– 5. 绘制’还手’密度曲线
– 6. 计算后一天和前一天收盘价的差值
– 7. 计算后一天与前一天收盘价的变化率
– 8. 设置时间索引
– 9. 使用时间索引，分别按年份，月份取值
– 10. 以5个数据作为数据滑动窗口在这5个数据上取均值（收盘价）

本章使用还是金融数据集，不仅回顾的旧的知识点，还拓展了一些新的内容，主要的难点在于重置索引 reset_index()，计算一列的差分 diff()，时间索引的操作，滑动窗口的使用 rolling()

前期准备

import pandas as pd
import numpy as np

from matplotlib import pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']

plt.rcParams['axes.unicode_minus'] = False

df = pd.read_excel(r'D:\Python work space\jupyter\Pandas必刷100道题\600000.SH.xls')
df.dropna(axis=0,how='any',inplace=True)
df

1. 以df的列名创建一个DataFrame

创建的DataFrame只有列名，并没有数据


temp = pd.DataFrame(columns=df.columns)
temp

2. 打印所有换手率为非数字的行

由表可知我们能够发现还手率都是小数，我们只需要判断该元素的数据类型是否为 float类型

temp = []
for i in range(len(df)):
    if type(df['换手率(%)'][i]) != float:
        temp.append(i)
df.iloc[temp]

由图我们可以知道换手率非数字的值均为 --

3. 删除所有换手率为非数字的行

因为还手率的非数字行的会影响后面的分析，所以我们要将其删除

本次例题因为后面只分析还手率，所以就直接删原数据了，但是在实际中，可能其他数据还有用，不能轻易的删除

temp = []
for i in range(len(df)):
    if type(df['换手率(%)'][i]) != float:
        temp.append(i)
df= df.drop(labels=temp)
df

4. 重置df的行号

因为删除过部分行之后，索引就不连续了，不便于观察数据一共有多少行，会影响一些分析，所以我们就要删除一部分数据
使用是 reset_index函数
参数

drop=True 删除上次的索引，默认不会删除
inplace=True 修改原数据，默认不会修改原数据，会返回一个新的对象


df.reset_index(drop=True,inplace=True)
df

观察最后几行，能够发现索引已经更新

5. 绘制’还手’密度曲线

绘制这个图形主要是能够让我们直观的观察到还手率集中到那个地方

df['换手率(%)'].plot(kind='kde')

从图中我们能够直观的发现数据多集中在0.0-0.2之间

6. 计算后一天和前一天收盘价的差值

使用 shift()函数
shift(n) 当 n为正数该列向下移动 n行，当 n负数时该列向上移动 |n|行


df['收盘价(元)'] - df['收盘价(元)'].shift(1)

使用 diff()函数默认为 一阶差分
进一步简化了同一列差值的计算
df[].diff(n) 等价于 df[] - df[]..shift(n)

df['收盘价(元)'].diff()

7. 计算后一天与前一天收盘价的变化率

pct_change()也是一个简化的形式
具体情况看代码部分


df['收盘价(元)'].pct_change()

8. 设置时间索引

设置索引，当所设置的列表示的是时间，就代表该索引是时间索引，时间索引值在实际生活中非常常见，时间索引也有自己独特的操作方式，按月取值，按周取值，取一年中的第几天等这些在普通索引看来非常困难的事情，对于时间索引来说却非常简单

df.set_index('日期')

9. 使用时间索引，分别按年份，月份取值

只取2016年的数据

df['2016']

取2017年3月份的数据

df['2017-3']

另外还可以按照季度，周目，获取某一年的第几天，时间索引的操作我会单独

10. 以5个数据作为数据滑动窗口在这5个数据上取均值（收盘价）

滑动窗口，每次移动一个单位，窗口内的数据始终是5个，

df['收盘价(元)'].rolling(5).mean()

Original: https://blog.csdn.net/qq_52007481/article/details/127623404
Author: 小鱼干儿♛
Title: 数据分析 | Pandas 200道练习题，每日10道题，学完必成大神（7）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/680056/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

TensorFlow实现条件批归一化（Conditional Batch Normalization）

条件批归一化（Conditional Batch Normalization）批归一化 (Batch Normalization, BN) 是深度学习中常用的网络训练技巧，它不仅…

人工智能 2023年5月23日
0081
什么是结构化数据？为什么要执行它？

结构化数据是一种提供网页相关信息的标准化方法。它有助于像 Google 这样的搜索引擎更好地了解你的内容。但是，它对你有什么好处，你要如何实施它呢？让我们开始吧！结构化数据如何帮…

人工智能 2023年6月1日
0095
基于OpenCV实现暗通道先验去雾算法及改进，效果惊人

治愈生活的良方就是保持对生活的热爱哈喽，大家好，我是一条。每次和女朋友出去玩，拍照是必须的，天气好还行，天气要是不好，加上我这破手机，那拍的简直惨不忍睹，自己都不过去。但是…

人工智能 2023年6月17日
0065
【机器学习入门】(3) 朴素贝叶斯算法：多项式、高斯、伯努利，实例应用（心脏病预测）附python完整代码及数据集

各位同学好，今天我和大家分享一下朴素贝叶斯算法中的三大模型。在上一篇文章中，我介绍了朴素贝叶斯算法的原理，并利用多项式模型进行了文本分类预测。朴素贝叶斯算法 —…

人工智能 2023年7月2日
00155
人脸表情识别

文章目录一、相关概念及流程 * 1.HOG提取原理 2.流程二、代码及运行结果 * 1.训练数据集 2.检测函数查看结果 3.读取图片判别及摄像头判别三、总结参考链接一、…

人工智能 2023年6月22日
0086
【Python 初学者】从零开始构建自己的神经网络

此图为使用神经网络预测猫狗案例。原创：CSDN/知乎：川川菜鸟文章目录 * – 什么是神经网络？ – 训练神经网络 – 前向传播 &#8211…

人工智能 2023年7月30日
0051
做数据分析的36款常用工具！！！初学者必备，纯干货！！

1、Excel 比如if函数、sum函数、甚至vlookup函数；还有数据透视表和一些常用的数据分析方法。 2、SQL 可以用于存取数据以及查询、更新和管理关系型数据库系统。 3、…

人工智能 2023年7月15日
0057
关系数据库系统的查询处理

查询优化分类：代数优化：指关系代数表达式的优化物理优化：指存取路径和底层操作算法的选择查询处理步骤关系数据库管理系统查询处理阶段： 1.查询分析2.查询检查3.查询优化4…

人工智能 2023年6月1日
0069
如何评估一个PyTorch模型的性能

评估PyTorch模型性能介绍在深度学习中，评估模型的性能是一个重要的任务。通过准确评估模型的性能，我们可以衡量模型在解决特定问题上的表现，并以此为基础来改进模型和算法。在本文…

人工智能 2024年1月2日
0053
基于matlab的车牌识别(含子程序)

基于matlab的车牌识别系统一、对车辆图像进行预处理 1.载入车牌图像： function [d]=main(jpg) [filename, pathname] = uiget…

人工智能 2023年7月29日
0077
Android实现实时视频聊天功能｜源码 Demo 分享

疫情期间，很多线下活动转为线上举行，实时音视频的需求剧增，在视频会议，在线教育，电商购物等众多场景成了”生活新常态”。本文将教你如何通过即构ZEGO 音视…

人工智能 2023年6月3日
0078
逻辑回归的损失函数是什么

问题：关于逻辑回归的损失函数是什么？详细介绍：逻辑回归是一种常用的统计学习方法，用于处理二分类问题。它通过在输入变量的线性组合上应用一个非线性函数（称为激活函数）来预测一个离散…

人工智能 2024年1月6日
0064
音频的预处理

1分帧语音信号是短期平稳信号，所以需要加一个窗，而两个相邻帧重叠的部分原因是语音信号是时变的，在短期范围内特征变化很小，所以将其作为稳态处理；但在这个短期范围之外，语音信号会发生…

人工智能 2023年5月25日
0055
YOLOv5训练coco128数据集流程

一、安装pytorch 1、创建虚拟环境使用Anaconda安装，建议先创建一个虚拟环境。启动Anaconda Prompt，在命令行输入： conda create -name…

人工智能 2023年6月17日
00100
小白量化彩票实战（4）彩票特征号码重号、邻号、连号和表格展示

小白量化彩票实战（4）彩票特征号码重号、邻号、连号和表格展示我写彩票的博客,不是鼓励大家去买彩票，读者要以学习编程和娱乐的思想来看待。兴趣是学习最大的动力！彩票的号码特征很多…

人工智能 2023年7月7日
0071
物理信息神经网络PINNs : Physics Informed Neural Networks 详解

本博客主要分为两部分：1、PINN模型论文解读2、PINN模型相关总结第一部分：PINN模型论文解读一、摘要基于物理信息的神经网络（Physics-informed Neur…

人工智能 2023年6月12日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31