利用python进行股票分析（四）pandas

2023年8月6日下午5:02 • Python • 阅读 57

文章目录

4. pandas
*
4.1. 环境配置
4.2. pandas基础
–
pandas

4.1. 环境配置

pip3 install pandas

4.2. pandas基础

4.2.1. 简单的pandas


import pandas as pd
test_data = {
    "country":["China","China","China"],
    "sites":["baidu","sougou","hao123"],
    "rank":[1,3,2]
}
df1 = pd.DataFrame(test_data)
print(df1)

  country   sites  rank
0   China   baidu     1
1   China  sougou     3
2   China  hao123     2

4.2.2. pandas Series简单示例


se1 = pd.Series(["Hello","world"], index=["a","b"])
print(se1)
print(se1["a"])

a    Hello
b    world
dtype: object
Hello

4.2.3. 通过字典来创建Series


dict1 = {1:"hello", 2:"world", "3":"kelvin"}
se1 = pd.Series(dict1)
se1

1     hello
2     world
3    kelvin
dtype: object

4.2.4. DataFrame，如果不指定index的话，默认就是从0开始编号


my_data = [["kelvin","31"],["tom","29"],["kipper","13"]]
my_column = ["name", "age"]
df = pd.DataFrame(data = my_data, columns = my_column)
print(df)

     name age
0  kelvin  31
1     tom  29
2  kipper  13

4.2.5. DataFrame获取数据 df.loc[0]


my_data = [["kelvin","31"],["tom","29"],["kipper","13"]]
my_column = ["name", "age"]
df = pd.DataFrame(data = my_data, columns = my_column)
print(df)
print()
print(df.loc[0])
print()
print(df.loc[0]["name"])

     name age
0  kelvin  31
1     tom  29
2  kipper  13

name    kelvin
age         31
Name: 0, dtype: object

kelvin

4.2.6. DataFrame返回多行数据


data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}
df = pd.DataFrame(data, index = ["day1", "day2", "day3"])
print(df)
df.loc[["day1","day2"]]
print(df)

      calories  duration
day1       420        50
day2       380        40
day3       390        45
      calories  duration
day1       420        50
day2       380        40
day3       390        45

4.2.7. DataFrame写入到csv


name = ["kelvin", "tom", "kipper"]
age = [31, 29, 15]
region = ["江苏", "上海", "杭州"]
dict1 = {"name":name, "age":age, "region":region}
df = pd.DataFrame(dict1)
print(df)
df.to_csv("test_csv.csv")

     name  age region
0  kelvin   31     江苏
1     tom   29     上海
2  kipper   15     杭州

4.2.8. pandas读取csv, read_csv, head, tail


df = pd.read_csv("nba.csv")
df.head(10)
print(df)

              Name            Team  Number Position   Age Height  Weight  \
0    Avery Bradley  Boston Celtics     0.0       PG  25.0    6-2   180.0
1      Jae Crowder  Boston Celtics    99.0       SF  25.0    6-6   235.0
2     John Holland  Boston Celtics    30.0       SG  27.0    6-5   205.0
3      R.J. Hunter  Boston Celtics    28.0       SG  22.0    6-5   185.0
4    Jonas Jerebko  Boston Celtics     8.0       PF  29.0   6-10   231.0
..             ...             ...     ...      ...   ...    ...     ...

453   Shelvin Mack       Utah Jazz     8.0       PG  26.0    6-3   203.0
454      Raul Neto       Utah Jazz    25.0       PG  24.0    6-1   179.0
455   Tibor Pleiss       Utah Jazz    21.0        C  26.0    7-3   256.0
456    Jeff Withey       Utah Jazz    24.0        C  26.0    7-0   231.0
457            NaN             NaN     NaN      NaN   NaN    NaN     NaN

               College     Salary
0                Texas  7730337.0
1            Marquette  6796117.0
2    Boston University        NaN
3        Georgia State  1148640.0
4                  NaN  5000000.0
..                 ...        ...

453             Butler  2433333.0
454                NaN   900000.0
455                NaN  2900000.0
456             Kansas   947276.0
457                NaN        NaN

[458 rows x 9 columns]

4.2.9. 构造DataFrame：从json构建DataFrame


json1 = [
    {"name":"kelvin","age":"31","region":"江苏"},
    {"name":"tom","age":"29","region":"上海","unkonwn":"111"},
    {"name":"kipper","age":"15","region":"杭州"}
]
df = pd.DataFrame(json1)
print(df)
df.to_json()

     name age region unkonwn
0  kelvin  31     江苏     NaN
1     tom  29     上海     111
2  kipper  15     杭州     NaN
'{"name":{"0":"kelvin","1":"tom","2":"kipper"},"age":{"0":"31","1":"29","2":"15"},"region":{"0":"\\u6c5f\\u82cf","1":"\\u4e0a\\u6d77","2":"\\u676d\\u5dde"},"unkonwn":{"0":null,"1":"111","2":null}}'

4.2.10. 构造DataFrame：字典格式的json


json1 = {
    "2021-07-01":{"name":"kelvin","age":"31","region":"江苏"},
    "2021-07-02":{"name":"tom","age":"29","region":"上海","unkonwn":"111"},
    "2021-07-03":{"name":"kipper","age":"15","region":"杭州"}
}
df = pd.DataFrame(json1).T
print(df)

              name age region unkonwn
2021-07-01  kelvin  31     江苏     NaN
2021-07-02     tom  29     上海     111
2021-07-03  kipper  15     杭州     NaN

4.2.11. DataFrame去掉空数据 dropna()


df = pd.read_csv("property-data.csv")
print(df)
print(df.isnull())
print()
print(df.dropna())

           PID  ST_NUM     ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH SQ_FT
0  100001000.0   104.0      PUTNAM            Y            3        1  1000
1  100002000.0   197.0   LEXINGTON            N            3      1.5    --
2  100003000.0     NaN   LEXINGTON            N          NaN        1   850
3  100004000.0   201.0    BERKELEY           12            1      NaN   700
4          NaN   203.0    BERKELEY            Y            3        2  1600
5  100006000.0   207.0    BERKELEY            Y          NaN        1   800
6  100007000.0     NaN  WASHINGTON          NaN            2   HURLEY   950
7  100008000.0   213.0     TREMONT            Y            1        1   NaN
8  100009000.0   215.0     TREMONT            Y           na        2  1800
     PID  ST_NUM  ST_NAME  OWN_OCCUPIED  NUM_BEDROOMS  NUM_BATH  SQ_FT
0  False   False    False         False         False     False  False
1  False   False    False         False         False     False  False
2  False    True    False         False          True     False  False
3  False   False    False         False         False      True  False
4   True   False    False         False         False     False  False
5  False   False    False         False          True     False  False
6  False    True    False          True         False     False  False
7  False   False    False         False         False     False   True
8  False   False    False         False         False     False  False

           PID  ST_NUM    ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH SQ_FT
0  100001000.0   104.0     PUTNAM            Y            3        1  1000
1  100002000.0   197.0  LEXINGTON            N            3      1.5    --
8  100009000.0   215.0    TREMONT            Y           na        2  1800

4.2.12. 读取csv的时候，可以指定哪些是空数据


missing_value = ["na","--"]
df = pd.read_csv("property-data.csv", na_values = missing_value)
print(df)

           PID  ST_NUM     ST_NAME OWN_OCCUPIED  NUM_BEDROOMS NUM_BATH   SQ_FT
0  100001000.0   104.0      PUTNAM            Y           3.0        1  1000.0
1  100002000.0   197.0   LEXINGTON            N           3.0      1.5     NaN
2  100003000.0     NaN   LEXINGTON            N           NaN        1   850.0
3  100004000.0   201.0    BERKELEY           12           1.0      NaN   700.0
4          NaN   203.0    BERKELEY            Y           3.0        2  1600.0
5  100006000.0   207.0    BERKELEY            Y           NaN        1   800.0
6  100007000.0     NaN  WASHINGTON          NaN           2.0   HURLEY   950.0
7  100008000.0   213.0     TREMONT            Y           1.0        1     NaN
8  100009000.0   215.0     TREMONT            Y           NaN        2  1800.0

4.2.13. 指定列，如果有空数据，则删除整行


df = pd.read_csv("property-data.csv")
print(df)
print()
df.dropna(subset=["ST_NUM"])
print(df)

           PID  ST_NUM     ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH SQ_FT
0  100001000.0   104.0      PUTNAM            Y            3        1  1000
1  100002000.0   197.0   LEXINGTON            N            3      1.5    --
2  100003000.0     NaN   LEXINGTON            N          NaN        1   850
3  100004000.0   201.0    BERKELEY           12            1      NaN   700
4          NaN   203.0    BERKELEY            Y            3        2  1600
5  100006000.0   207.0    BERKELEY            Y          NaN        1   800
6  100007000.0     NaN  WASHINGTON          NaN            2   HURLEY   950
7  100008000.0   213.0     TREMONT            Y            1        1   NaN
8  100009000.0   215.0     TREMONT            Y           na        2  1800

           PID  ST_NUM     ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH SQ_FT
0  100001000.0   104.0      PUTNAM            Y            3        1  1000
1  100002000.0   197.0   LEXINGTON            N            3      1.5    --
2  100003000.0     NaN   LEXINGTON            N          NaN        1   850
3  100004000.0   201.0    BERKELEY           12            1      NaN   700
4          NaN   203.0    BERKELEY            Y            3        2  1600
5  100006000.0   207.0    BERKELEY            Y          NaN        1   800
6  100007000.0     NaN  WASHINGTON          NaN            2   HURLEY   950
7  100008000.0   213.0     TREMONT            Y            1        1   NaN
8  100009000.0   215.0     TREMONT            Y           na        2  1800

4.2.14. 填充NaN，空数据，替换


df = pd.read_csv("property-data.csv")
print(df)
df["ST_NUM"].fillna(10000, inplace=True)
print()
print(df)

           PID  ST_NUM     ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH SQ_FT
0  100001000.0   104.0      PUTNAM            Y            3        1  1000
1  100002000.0   197.0   LEXINGTON            N            3      1.5    --
2  100003000.0     NaN   LEXINGTON            N          NaN        1   850
3  100004000.0   201.0    BERKELEY           12            1      NaN   700
4          NaN   203.0    BERKELEY            Y            3        2  1600
5  100006000.0   207.0    BERKELEY            Y          NaN        1   800
6  100007000.0     NaN  WASHINGTON          NaN            2   HURLEY   950
7  100008000.0   213.0     TREMONT            Y            1        1   NaN
8  100009000.0   215.0     TREMONT            Y           na        2  1800

           PID   ST_NUM     ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH SQ_FT
0  100001000.0    104.0      PUTNAM            Y            3        1  1000
1  100002000.0    197.0   LEXINGTON            N            3      1.5    --
2  100003000.0  10000.0   LEXINGTON            N          NaN        1   850
3  100004000.0    201.0    BERKELEY           12            1      NaN   700
4          NaN    203.0    BERKELEY            Y            3        2  1600
5  100006000.0    207.0    BERKELEY            Y          NaN        1   800
6  100007000.0  10000.0  WASHINGTON          NaN            2   HURLEY   950
7  100008000.0    213.0     TREMONT            Y            1        1   NaN
8  100009000.0    215.0     TREMONT            Y           na        2  1800

4.2.15. 修改DataFrame中的错误数据


person = {
  "name": ['Google', 'Runoob' , 'Taobao'],
  "age": [50, 40, 12345]
}
df = pd.DataFrame(person)
print(df)
print()
df.loc[2,"age"] = 30
print(df)

     name    age
0  Google     50
1  Runoob     40
2  Taobao  12345

     name  age
0  Google   50
1  Runoob   40
2  Taobao   30

4.2.16. DataFrame的遍历，遍历DataFrame


person = {
  "name": ['Google', 'Runoob' , 'Taobao'],
  "age": [50, 200, 12345]
}
df = pd.DataFrame(person)
print(df)
print(df.index)
for x in df.index:
    print(x)
    if df.loc[x, "age"] > 120:
        df.loc[x, "age"] = 1

print(df)

     name    age
0  Google     50
1  Runoob    200
2  Taobao  12345
RangeIndex(start=0, stop=3, step=1)
0
1
2
     name  age
0  Google   50
1  Runoob    1
2  Taobao    1

Original: https://blog.csdn.net/sdfiiiiii/article/details/119422583
Author: Kelvin写代码
Title: 利用python进行股票分析（四）pandas

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/738001/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

scrapy 爬虫的基础配置与使用

文章目录 * – 安装Python环境 – 安装Scrapy环境 – 安装Twisted – pip的安装 – scra…

Python 2023年10月3日
0044
解决Pytorch模型在Gunicorn部署无法运行或者超时问题

训练出了一个Pytorch 文本生成模型，想要用Flask+Gunicorn的方法部署。但是请求模型进行生成的接口时，一直没有结果，最后导致timeout。我的模型生成接口大概长…

Python 2023年8月10日
0047
python游戏制作

游戏开发过程学习参考网站：https://www.pygame.org/news常用函数总结： scene = pygame.display.set_mode([屏幕宽，屏幕高])…

Python 2023年9月21日
0046
JAVA学习笔记- – – day 1

💕前言：作者是一名正在学习JAVA的初学者，每天分享自己的学习笔记，希望能和大家一起进步成长💕 目录 💕前言：作者是一名正在学习JAVA的初学者，每天分享自己的学习笔记，希望能和大…

Python 2023年9月15日
0030
Python 代码智能感知 —— 类型标注与特殊的注释（献给所有的Python人）

一个不会写好的类型标注和注释的Python程序员，是让使用TA的代码的人都痛苦无比的事情…… —— 某某大佬想必大部分现代的集成开发环境（IDE）都…

Python 2023年10月21日
0038
Pandas – 一维数组Series的创建以及索引使用 -很简单

Series一维带标签数组 Series数组创建 * 1、直接用series创建 2、同时创建标签index值 3、通过字典进行创建 4、对数组的数据结构进行修改索引： * 1、…

Python 2023年8月8日
0077
python自定义cmap_Python matplotlib的使用并自定义colormap的方法

0.前言添加colormap的对象是灰度图，可以变成热量图，从而更加明显的发现一些规律，适用于一些雷达图像等 from PIL import Image 将彩色图片转换成黑白图片…

Python 2023年9月4日
0050
Python头歌合集（题集附解）

目录一、Python初识-基本语法第1关：Hello Python! 第2关：我想看世界第3关：学好Python 第4关：根据圆的半径计算周长和面积第5关：货币转换二、t…

Python 2023年8月3日
0041
【机器学习】向量化计算 — 机器学习路上必经路

Python 2023年5月24日
0050
区块链如何提高支付安全性

信任，但要核实”(Trust, but verify)是前美国总统罗纳德·里根在上世纪80年代讨论美苏关系时使用的标志性口号。有趣的是，这一口号是他从俄罗斯谚语&#82…

Python 2023年11月8日
0023
【控制】动力学建模简介 –＞牛顿-欧拉 (Newton-Euler) 法和拉格朗日 (Lagrange) 法

文章目录 1 机器人动力学建模方法 * 1.1 牛顿-欧拉法 1.2 拉格朗日法 2 机器人动力学建模方法分类 Ref. 1 机器人动力学建模方法多体系统动力学形成了多种建模和分…

Python 2023年9月29日
0068
3.2 特征图尺寸计算与参数共享|池化层的作用|整体网络架构|VGG网络架构|残差网络Resnet|感受野的作用

文章目录 * – 特征图尺寸计算与参数共享 – 池化层的作用 – 整体网络架构 – VGG网络架构（了解向，背景向） –…

Python 2023年11月7日
0032
【多服务场景化解决方案】AR虚拟技术助力智能家装

1 、介绍总览本应用采用了华为图形引擎服务的AR虚拟技术，您可以在手机相机里摆放想要购置的家具家电，交互式体验让您可以轻松操控它们的3D图例，以此来确定这些家具家电是否适合…

Python 2023年10月17日
0052
Google Earth Engine（GEE）——python检测 Sentinel-1 图像中的变化（part1）万字长文

在本教程中，我们将分析合成孔径雷达 (SAR) 图像，以检测地球表面具有统计意义的变化。正如副词”统计地”暗示的那样，我们需要对 SAR 图像的统计特性有基…

Python 2023年9月5日
0054
从零开始撸python

30天挑战系列开始挑战30天从零开始———>python全栈工程师 Day1：图书管理系统没有选用pycharm，选择了更轻量化的Su…

Python 2023年10月31日
0038
pytest单元测试框架

1.pytest基本使用方法 1.1 断言 import pytest 功能1：计算a+b def add(a, b): return a + b 功能2：判断素数 def is_…

Python 2023年9月13日
0026

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

利用python进行股票分析（四）pandas

文章目录

4.1. 环境配置

4.2. pandas基础

4.2.1. 简单的pandas

4.2.2. pandas Series简单示例

4.2.3. 通过字典来创建Series

4.2.4. DataFrame，如果不指定index的话，默认就是从0开始编号

4.2.5. DataFrame获取数据 df.loc[0]

4.2.6. DataFrame返回多行数据

4.2.7. DataFrame写入到csv

4.2.8. pandas读取csv, read_csv, head, tail

4.2.9. 构造DataFrame：从json构建DataFrame

4.2.10. 构造DataFrame：字典格式的json

4.2.11. DataFrame去掉空数据 dropna()

4.2.12. 读取csv的时候，可以指定哪些是空数据

4.2.13. 指定列，如果有空数据，则删除整行

4.2.14. 填充NaN，空数据，替换

4.2.15. 修改DataFrame中的错误数据

4.2.16. DataFrame的遍历，遍历DataFrame

大家都在看