利用python进行股票分析（四）pandas

2023年8月16日上午2:22 • Python • 阅读 69

文章目录

4. pandas
*
4.1. 环境配置
4.2. pandas基础
–
pandas

4.1. 环境配置

pip3 install pandas

4.2. pandas基础

4.2.1. 简单的pandas


import pandas as pd
test_data = {
    "country":["China","China","China"],
    "sites":["baidu","sougou","hao123"],
    "rank":[1,3,2]
}
df1 = pd.DataFrame(test_data)
print(df1)

  country   sites  rank
0   China   baidu     1
1   China  sougou     3
2   China  hao123     2

4.2.2. pandas Series简单示例


se1 = pd.Series(["Hello","world"], index=["a","b"])
print(se1)
print(se1["a"])

a    Hello
b    world
dtype: object
Hello

4.2.3. 通过字典来创建Series


dict1 = {1:"hello", 2:"world", "3":"kelvin"}
se1 = pd.Series(dict1)
se1

1     hello
2     world
3    kelvin
dtype: object

4.2.4. DataFrame，如果不指定index的话，默认就是从0开始编号


my_data = [["kelvin","31"],["tom","29"],["kipper","13"]]
my_column = ["name", "age"]
df = pd.DataFrame(data = my_data, columns = my_column)
print(df)

     name age
0  kelvin  31
1     tom  29
2  kipper  13

4.2.5. DataFrame获取数据 df.loc[0]


my_data = [["kelvin","31"],["tom","29"],["kipper","13"]]
my_column = ["name", "age"]
df = pd.DataFrame(data = my_data, columns = my_column)
print(df)
print()
print(df.loc[0])
print()
print(df.loc[0]["name"])

     name age
0  kelvin  31
1     tom  29
2  kipper  13

name    kelvin
age         31
Name: 0, dtype: object

kelvin

4.2.6. DataFrame返回多行数据


data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}
df = pd.DataFrame(data, index = ["day1", "day2", "day3"])
print(df)
df.loc[["day1","day2"]]
print(df)

      calories  duration
day1       420        50
day2       380        40
day3       390        45
      calories  duration
day1       420        50
day2       380        40
day3       390        45

4.2.7. DataFrame写入到csv


name = ["kelvin", "tom", "kipper"]
age = [31, 29, 15]
region = ["江苏", "上海", "杭州"]
dict1 = {"name":name, "age":age, "region":region}
df = pd.DataFrame(dict1)
print(df)
df.to_csv("test_csv.csv")

     name  age region
0  kelvin   31     江苏
1     tom   29     上海
2  kipper   15     杭州

4.2.8. pandas读取csv, read_csv, head, tail


df = pd.read_csv("nba.csv")
df.head(10)
print(df)

              Name            Team  Number Position   Age Height  Weight  \
0    Avery Bradley  Boston Celtics     0.0       PG  25.0    6-2   180.0
1      Jae Crowder  Boston Celtics    99.0       SF  25.0    6-6   235.0
2     John Holland  Boston Celtics    30.0       SG  27.0    6-5   205.0
3      R.J. Hunter  Boston Celtics    28.0       SG  22.0    6-5   185.0
4    Jonas Jerebko  Boston Celtics     8.0       PF  29.0   6-10   231.0
..             ...             ...     ...      ...   ...    ...     ...

453   Shelvin Mack       Utah Jazz     8.0       PG  26.0    6-3   203.0
454      Raul Neto       Utah Jazz    25.0       PG  24.0    6-1   179.0
455   Tibor Pleiss       Utah Jazz    21.0        C  26.0    7-3   256.0
456    Jeff Withey       Utah Jazz    24.0        C  26.0    7-0   231.0
457            NaN             NaN     NaN      NaN   NaN    NaN     NaN

               College     Salary
0                Texas  7730337.0
1            Marquette  6796117.0
2    Boston University        NaN
3        Georgia State  1148640.0
4                  NaN  5000000.0
..                 ...        ...

453             Butler  2433333.0
454                NaN   900000.0
455                NaN  2900000.0
456             Kansas   947276.0
457                NaN        NaN

[458 rows x 9 columns]

4.2.9. 构造DataFrame：从json构建DataFrame


json1 = [
    {"name":"kelvin","age":"31","region":"江苏"},
    {"name":"tom","age":"29","region":"上海","unkonwn":"111"},
    {"name":"kipper","age":"15","region":"杭州"}
]
df = pd.DataFrame(json1)
print(df)
df.to_json()

     name age region unkonwn
0  kelvin  31     江苏     NaN
1     tom  29     上海     111
2  kipper  15     杭州     NaN
'{"name":{"0":"kelvin","1":"tom","2":"kipper"},"age":{"0":"31","1":"29","2":"15"},"region":{"0":"\\u6c5f\\u82cf","1":"\\u4e0a\\u6d77","2":"\\u676d\\u5dde"},"unkonwn":{"0":null,"1":"111","2":null}}'

4.2.10. 构造DataFrame：字典格式的json


json1 = {
    "2021-07-01":{"name":"kelvin","age":"31","region":"江苏"},
    "2021-07-02":{"name":"tom","age":"29","region":"上海","unkonwn":"111"},
    "2021-07-03":{"name":"kipper","age":"15","region":"杭州"}
}
df = pd.DataFrame(json1).T
print(df)

              name age region unkonwn
2021-07-01  kelvin  31     江苏     NaN
2021-07-02     tom  29     上海     111
2021-07-03  kipper  15     杭州     NaN

4.2.11. DataFrame去掉空数据 dropna()


df = pd.read_csv("property-data.csv")
print(df)
print(df.isnull())
print()
print(df.dropna())

           PID  ST_NUM     ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH SQ_FT
0  100001000.0   104.0      PUTNAM            Y            3        1  1000
1  100002000.0   197.0   LEXINGTON            N            3      1.5    --
2  100003000.0     NaN   LEXINGTON            N          NaN        1   850
3  100004000.0   201.0    BERKELEY           12            1      NaN   700
4          NaN   203.0    BERKELEY            Y            3        2  1600
5  100006000.0   207.0    BERKELEY            Y          NaN        1   800
6  100007000.0     NaN  WASHINGTON          NaN            2   HURLEY   950
7  100008000.0   213.0     TREMONT            Y            1        1   NaN
8  100009000.0   215.0     TREMONT            Y           na        2  1800
     PID  ST_NUM  ST_NAME  OWN_OCCUPIED  NUM_BEDROOMS  NUM_BATH  SQ_FT
0  False   False    False         False         False     False  False
1  False   False    False         False         False     False  False
2  False    True    False         False          True     False  False
3  False   False    False         False         False      True  False
4   True   False    False         False         False     False  False
5  False   False    False         False          True     False  False
6  False    True    False          True         False     False  False
7  False   False    False         False         False     False   True
8  False   False    False         False         False     False  False

           PID  ST_NUM    ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH SQ_FT
0  100001000.0   104.0     PUTNAM            Y            3        1  1000
1  100002000.0   197.0  LEXINGTON            N            3      1.5    --
8  100009000.0   215.0    TREMONT            Y           na        2  1800

4.2.12. 读取csv的时候，可以指定哪些是空数据


missing_value = ["na","--"]
df = pd.read_csv("property-data.csv", na_values = missing_value)
print(df)

           PID  ST_NUM     ST_NAME OWN_OCCUPIED  NUM_BEDROOMS NUM_BATH   SQ_FT
0  100001000.0   104.0      PUTNAM            Y           3.0        1  1000.0
1  100002000.0   197.0   LEXINGTON            N           3.0      1.5     NaN
2  100003000.0     NaN   LEXINGTON            N           NaN        1   850.0
3  100004000.0   201.0    BERKELEY           12           1.0      NaN   700.0
4          NaN   203.0    BERKELEY            Y           3.0        2  1600.0
5  100006000.0   207.0    BERKELEY            Y           NaN        1   800.0
6  100007000.0     NaN  WASHINGTON          NaN           2.0   HURLEY   950.0
7  100008000.0   213.0     TREMONT            Y           1.0        1     NaN
8  100009000.0   215.0     TREMONT            Y           NaN        2  1800.0

4.2.13. 指定列，如果有空数据，则删除整行


df = pd.read_csv("property-data.csv")
print(df)
print()
df.dropna(subset=["ST_NUM"])
print(df)

           PID  ST_NUM     ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH SQ_FT
0  100001000.0   104.0      PUTNAM            Y            3        1  1000
1  100002000.0   197.0   LEXINGTON            N            3      1.5    --
2  100003000.0     NaN   LEXINGTON            N          NaN        1   850
3  100004000.0   201.0    BERKELEY           12            1      NaN   700
4          NaN   203.0    BERKELEY            Y            3        2  1600
5  100006000.0   207.0    BERKELEY            Y          NaN        1   800
6  100007000.0     NaN  WASHINGTON          NaN            2   HURLEY   950
7  100008000.0   213.0     TREMONT            Y            1        1   NaN
8  100009000.0   215.0     TREMONT            Y           na        2  1800

           PID  ST_NUM     ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH SQ_FT
0  100001000.0   104.0      PUTNAM            Y            3        1  1000
1  100002000.0   197.0   LEXINGTON            N            3      1.5    --
2  100003000.0     NaN   LEXINGTON            N          NaN        1   850
3  100004000.0   201.0    BERKELEY           12            1      NaN   700
4          NaN   203.0    BERKELEY            Y            3        2  1600
5  100006000.0   207.0    BERKELEY            Y          NaN        1   800
6  100007000.0     NaN  WASHINGTON          NaN            2   HURLEY   950
7  100008000.0   213.0     TREMONT            Y            1        1   NaN
8  100009000.0   215.0     TREMONT            Y           na        2  1800

4.2.14. 填充NaN，空数据，替换


df = pd.read_csv("property-data.csv")
print(df)
df["ST_NUM"].fillna(10000, inplace=True)
print()
print(df)

           PID  ST_NUM     ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH SQ_FT
0  100001000.0   104.0      PUTNAM            Y            3        1  1000
1  100002000.0   197.0   LEXINGTON            N            3      1.5    --
2  100003000.0     NaN   LEXINGTON            N          NaN        1   850
3  100004000.0   201.0    BERKELEY           12            1      NaN   700
4          NaN   203.0    BERKELEY            Y            3        2  1600
5  100006000.0   207.0    BERKELEY            Y          NaN        1   800
6  100007000.0     NaN  WASHINGTON          NaN            2   HURLEY   950
7  100008000.0   213.0     TREMONT            Y            1        1   NaN
8  100009000.0   215.0     TREMONT            Y           na        2  1800

           PID   ST_NUM     ST_NAME OWN_OCCUPIED NUM_BEDROOMS NUM_BATH SQ_FT
0  100001000.0    104.0      PUTNAM            Y            3        1  1000
1  100002000.0    197.0   LEXINGTON            N            3      1.5    --
2  100003000.0  10000.0   LEXINGTON            N          NaN        1   850
3  100004000.0    201.0    BERKELEY           12            1      NaN   700
4          NaN    203.0    BERKELEY            Y            3        2  1600
5  100006000.0    207.0    BERKELEY            Y          NaN        1   800
6  100007000.0  10000.0  WASHINGTON          NaN            2   HURLEY   950
7  100008000.0    213.0     TREMONT            Y            1        1   NaN
8  100009000.0    215.0     TREMONT            Y           na        2  1800

4.2.15. 修改DataFrame中的错误数据


person = {
  "name": ['Google', 'Runoob' , 'Taobao'],
  "age": [50, 40, 12345]
}
df = pd.DataFrame(person)
print(df)
print()
df.loc[2,"age"] = 30
print(df)

     name    age
0  Google     50
1  Runoob     40
2  Taobao  12345

     name  age
0  Google   50
1  Runoob   40
2  Taobao   30

4.2.16. DataFrame的遍历，遍历DataFrame


person = {
  "name": ['Google', 'Runoob' , 'Taobao'],
  "age": [50, 200, 12345]
}
df = pd.DataFrame(person)
print(df)
print(df.index)
for x in df.index:
    print(x)
    if df.loc[x, "age"] > 120:
        df.loc[x, "age"] = 1

print(df)

     name    age
0  Google     50
1  Runoob    200
2  Taobao  12345
RangeIndex(start=0, stop=3, step=1)
0
1
2
     name  age
0  Google   50
1  Runoob    1
2  Taobao    1

Original: https://blog.csdn.net/sdfiiiiii/article/details/119422583
Author: Kelvin写代码
Title: 利用python进行股票分析（四）pandas

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/750733/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Matplotlib打卡5

样式色彩 matplotlib的绘图样式(style) 四种批量设置全局样式的方法 1.matplotlib预先定义样式 import matplotlib as mpl impo…

Python 2023年9月6日
0081
Django连接mysql数据库步骤非常详细

一.修改数据库连接以上内容是创建django项目的时候是自动创建的。这个是告诉你，django默认连接sqllite。 ENGINE：是指连接数据库驱动的名称， NAME是指要连…

Python 2023年8月3日
0047
pandas子集选取的三种方法：[]、.loc[]、.iloc[]

pandas读取Excel、csv文件中的数据时，得到的大多是表格型的二维数据，在pandas中对应的即为 DataFrame数据结构。在处理这类数据时，往往要根据据需求先获取数据…

Python 2023年11月3日
0044
Java并发编程 | 从进程、线程到并发问题实例解决

计划写几篇文章讲述下Java并发编程，帮助一些初学者成体系的理解并发编程并实际使用，而不只是碎片化的了解一些Synchronized、ReentrantLock等技术点。在讲述的过…

Python 2023年10月20日
0065
我面试的人成了我的领导，我该不该离职？

大家好，我是张飞洪，感谢您的阅读，我会不定期和你分享学习心得，希望我的文章能成为你成长路上的垫脚石，让我们一起精进。有一次领导让我参加面试，被面的岗位是技术总监。不知道为什么，每…

Python 2023年10月21日
0069
pytest——01 入门

安装及入门 Python支持版本: Python 2.6,2.7,3.3,3.4,3.5,Jython,PyPy-2.3 支持的平台: Unix/Posix and Windows…

Python 2023年9月15日
0046
Python练习实例020

问题：一球从100米高度自由落下，每次落地后反跳回原高度的一半；再落下，求它在第10次落地时，共经过多少米？第10次反弹多高？ #! /usr/bin/env python3 -*…

Python 2023年6月11日
0078
【机器学习】李宏毅——Anomaly Detection（异常检测）

异常检测概述首先要明确一下什么是异常检测任务。对于异常检测任务来说，我们希望能够通过现有的样本来训练一个架构，它能够根据输入与现有样本之间是否足够相似，来告诉我们这个输入是否是异…

Python 2023年10月28日
0044
基本数据类型概述

想想上面的苹果(运输、储存、加工)或者下面的包装苹果是不是很容易处理。 [En] Think about whether it is easy to deal with the a…

Python 2023年5月23日
0071
python中subplot的用法_[小白系列][可视化基础]多个子图(Axes), 使用 subplot() 快速绘制…

subplot使用 subplot： matplotlib下, 一个 Figure 对象可以包含多个子图(Axes), 可以使用 subplot() 快速绘制 subplot(nu…

Python 2023年9月2日
0080
Numpy&Pandas&Matploty

Numpy 矩阵计算和操作矩阵用空格隔开，不是逗号可以直接通过下标索引（从0开始），第一个是行，第二个是列可以通过切片遍历 import numpy as np array =…

Python 2023年8月25日
0065
我的第一个游戏小程序-鬼畜大冒险

1.首选对于游戏的设计，需要安装pygame模块，至于怎么去安装点击这里这里会有具体的安装教程，实在不会，再自行百度，总能找到办法。2.其次这个游戏还要用到random的随机函数，…

Python 2023年9月25日
0046
Django对于MySQL数据库操作

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月5日
0057
Python工具箱系列(十三)

如果在代码中写死了(hardcode)文件名，每次要加解密文件都要去改python源代码，显然有些太笨了。为此，可以使用命令行参数来在不改动源代码的情况下，对命令行参数所指定的文件…

Python 2023年10月30日
0045
机器学习实战-支持向量机

1.支持向量机简介英文名为Support Vector Machine简称为SVM，是一种二分类模型线性可分支持向量机：如下图就可以通过一条红色的直线将蓝色的球和红色的球完全区…

Python 2023年10月18日
0056
python3使用libpcap库进行抓包及数据处理

python版本：python 3.9 libpcap版本：1.11.0b7 python libpcap库是底层绑定c语言libpcap库的开发包，旨在提供python应用可访问…

Python 2023年10月31日
0060

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

利用python进行股票分析（四）pandas

文章目录

4.1. 环境配置

4.2. pandas基础

4.2.1. 简单的pandas

4.2.2. pandas Series简单示例

4.2.3. 通过字典来创建Series

4.2.4. DataFrame，如果不指定index的话，默认就是从0开始编号

4.2.5. DataFrame获取数据 df.loc[0]

4.2.6. DataFrame返回多行数据

4.2.7. DataFrame写入到csv

4.2.8. pandas读取csv, read_csv, head, tail

4.2.9. 构造DataFrame：从json构建DataFrame

4.2.10. 构造DataFrame：字典格式的json

4.2.11. DataFrame去掉空数据 dropna()

4.2.12. 读取csv的时候，可以指定哪些是空数据

4.2.13. 指定列，如果有空数据，则删除整行

4.2.14. 填充NaN，空数据，替换

4.2.15. 修改DataFrame中的错误数据

4.2.16. DataFrame的遍历，遍历DataFrame

大家都在看