pandas 笔记005
import numpy as np
import pandas as pd
a1 = pd.Series(np.arange(4),index=['a','b','c','d'])
a2 = pd.Series(np.arange(5),index=['a','r','c','u','k'])
print(a1)
print("="*20)
print(a2)
a 0
b 1
c 2
d 3
dtype: int32
====================
a 0
r 1
c 2
u 3
k 4
dtype: int32
有 相同的索引值相加后结果变为浮点数,不相同则返回 NAN
值。
a1 + a2
a 0.0
b NaN
c 4.0
d NaN
k NaN
r NaN
u NaN
dtype: float64
a3 = pd.DataFrame(np.arange(12).reshape(3,4),index=['a','b','c'],columns=['q','w','e','r'])
a4 = pd.DataFrame(np.arange(9).reshape(3,3),index=['a','u','c'],columns=['m','e','r'])
print(a3)
print("="*20)
print(a4)
q w e r
a 0 1 2 3
b 4 5 6 7
c 8 9 10 11
====================
m e r
a 0 1 2
u 3 4 5
c 6 7 8
只有 行和列索引都相同的才能运算,否则返回 NAN
值
a3 + a4
e m q r w
a 3.0 NaN NaN 5.0 NaN
b NaN NaN NaN NaN NaN
c 17.0 NaN NaN 19.0 NaN
u NaN NaN NaN NaN NaN
a1 = pd.Series(np.arange(4),index=['a','b','c','d'])
a2 = pd.Series(np.arange(5),index=['a','r','c','u','k'])
print(a1)
print("="*20)
print(a2)
print("="*20)
print(a1 + a2)
a 0
b 1
c 2
d 3
dtype: int32
====================
a 0
r 1
c 2
u 3
k 4
dtype: int32
====================
a 0.0
b NaN
c 4.0
d NaN
k NaN
r NaN
u NaN
dtype: float64
使用填充值,不会返回 NAN
值,如果a1,a2的索引值相同则将对应的值作算术运算,如果不同则作为一行新的数据,形成一个新的 Series
索引
a1.add(a2,fill_value=0)
a 0.0
b 1.0
c 4.0
d 3.0
k 4.0
r 1.0
u 3.0
dtype: float64
a3 = pd.DataFrame(np.arange(12).reshape(3,4),index=['a','b','c'],columns=['q','w','e','r'])
a4 = pd.DataFrame(np.arange(9).reshape(3,3),index=['a','u','c'],columns=['m','e','r'])
print(a3)
print("="*20)
print(a4)
print("="*20)
print(a3 + a4)
q w e r
a 0 1 2 3
b 4 5 6 7
c 8 9 10 11
====================
m e r
a 0 1 2
u 3 4 5
c 6 7 8
====================
e m q r w
a 3.0 NaN NaN 5.0 NaN
b NaN NaN NaN NaN NaN
c 17.0 NaN NaN 19.0 NaN
u NaN NaN NaN NaN NaN
只有当两个 DataFrame
索引独有的行和列独有的索引对应的值才返回 NAN
,例如下面的 b行m列返回NAN值,其索引值是由 a3独有的b和a4独有的m组成的, 行和列其中之一的索引值不是独有的,则返回对应 DataFrame
中的值,例如a行q列中的是a3,a4都有的,返回a3中 a行q列对应的值。
a3.add(a4,fill_value=0)
e m q r w
a 3.0 0.0 0.0 5.0 1.0
b 6.0 NaN 4.0 7.0 5.0
c 17.0 6.0 8.0 19.0 9.0
u 4.0 3.0 NaN 5.0 NaN
r 开头字母表示会翻转参数
1/a3
q w e r
a inf 1.000000 0.500000 0.333333
b 0.250 0.200000 0.166667 0.142857
c 0.125 0.111111 0.100000 0.090909
a3.rdiv(1)
q w e r
a inf 1.000000 0.500000 0.333333
b 0.250 0.200000 0.166667 0.142857
c 0.125 0.111111 0.100000 0.090909
reindex
指定索引和缺失值
将a3的列索引替换为a4的列索引 ,如果索引名字不相同,则返回 NAN
(不改变原 DataFrame
索引)
a3.reindex(columns=a4.columns))
m e r
a NaN 2 3
b NaN 6 7
c NaN 10 11
a3.reindex(columns=a4.columns,fill_value=66)
m e r
a 66 2 3
b 66 6 7
c 66 10 11
arr = np.arange(12).reshape(3,4)
arr
array([[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]])
取出第一行
arr[0]
array([0, 1, 2, 3])
每一行都减去第一行(按行进行广播)
arr - arr[0]
array([[0, 0, 0, 0],
[4, 4, 4, 4],
[8, 8, 8, 8]])
a3 = pd.DataFrame(np.arange(12).reshape(3,4),index=['a','b','c'],columns=['q','w','e','r'])
a3
q w e r
a 0 1 2 3
b 4 5 6 7
c 8 9 10 11
位置索引 iloc[m,n]
第一个参数m表示行,第二个参数n表示列
s1 = a3.iloc[0]
s1
q 0
w 1
e 2
r 3
Name: a, dtype: int32
每一行都减去第一行(按行进行广播)
a3-s1
q w e r
a 0 0 0 0
b 4 4 4 4
c 8 8 8 8
取出q这一列
s2 = a3['q']
s2
a 0
b 4
c 8
Name: q, dtype: int32
默认是行 axis=1
,指定 axis='index'
或 axis=0
,按列进行广播(a3所有列分别减去第q列)
a3.sub(s2,axis='index')
q w e r
a 0 1 2 3
b 0 1 2 3
c 0 1 2 3
a3.sub(s2,axis=0)
q w e r
a 0 1 2 3
b 0 1 2 3
c 0 1 2 3
a3.sub(s2)
a b c e q r w
a NaN NaN NaN NaN NaN NaN NaN
b NaN NaN NaN NaN NaN NaN NaN
c NaN NaN NaN NaN NaN NaN NaN
Original: https://blog.csdn.net/weixin_45499440/article/details/120995740
Author: 芒果去核
Title: pandas的对齐运算
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/741904/
转载文章受原作者版权保护。转载请注明原作者出处!