pandas基础_1

2023年7月17日上午8:32 • 人工智能 • 阅读 77

数据使用泰坦尼克数据

基本操作

读取训练集数据

df = pd.read_csv('train.csv')

常用的基本信息查询

df.head() #&#x9ED8;&#x8BA4;&#x67E5;&#x770B;&#x524D;5&#x6761;&#xFF0C;&#x53EF;&#x4EE5;&#x4F7F;&#x7528;head(10)&#x67E5;&#x770B;&#x524D;10&#x6761;
df.tail() #&#x9ED8;&#x8BA4;&#x67E5;&#x770B;&#x6700;&#x540E;5&#x884C;&#x6570;&#x636E;
df.info() #&#x8FD4;&#x56DE;&#x5F53;&#x524D;&#x4FE1;&#x606F;
df.index() #&#x7D22;&#x5F15;
df.columns #&#x5217;&#x540D;
df.dtype #&#x7C7B;&#x578B;
df.values #&#x503C;
df.describe()
#&#x6709;&#x6570;&#x503C;&#x7684;&#x5217;&#x7684;count(),mean(),std(),min(),0.25,0.5,0.75,max()

取指定的数据，取得的数据为Series结构（DataFrame中的一行或者一列）

age = df['Age']

可以重新设置自己想要的索引

df = df.set_index('Name')

把名字设置为索引之后，可以根据索引提取想要的数据

age['Allen, Mr. William Henry']

索引结构

df['Age'] # &#x5B9A;&#x4F4D;&#x67D0;&#x4E00;&#x5217;
df[['Age','Fare']][:5] #&#x5B9A;&#x4F4D;&#x4E24;&#x4E2A;&#x5217;&#xFF0C;&#x6CE8;&#x610F;&#x8981;&#x7528;[]&#x6765;&#x62EC;&#x4F4F;&#x8FD9;&#x4E24;&#x4E2A;&#x5217;

loc 用label来去定位
iloc 用position来去定位

df.iloc[0]
df.iloc[0:5] #&#x6B64;&#x65F6;&#x9ED8;&#x8BA4;&#x63D0;&#x51FA;&#x5168;&#x90E8;&#x5217;
df.iloc[0:5,1:3] #&#x63D0;&#x51FA;0-4&#x884C;&#xFF0C;1-2&#x5217;

df.set_index('Name')
df.loc['Allen, Mr. William Henry','Fare']
df.loc['Moran, Mr. James':'Andersson, Mr. Anders Johan',:]

df['Fare'] > 40 #&#x5927;&#x4E8E;40&#x8FD4;&#x56DE;True&#xFF0C;&#x5C0F;&#x4E8E;40&#x8FD4;&#x56DE;False
df[df['Fare'] > 40] #&#x8FD4;&#x56DE;&#x5927;&#x4E8E;40&#x7684;&#x884C;
df[df['Sex'] == 'male']
df.loc[df['Sex'] == 'male','Age'].mean() #&#x6C42;&#x7537;&#x6027;&#x7684;&#x5E73;&#x5747;&#x5E74;&#x9F84;
(df['Age'] > 70).sum()

GROUP BY

df1 = pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],'value':[0,5,10,5,10,15,10,15,20]}
df.groupby('key').sum()

#&#x8FD8;&#x53EF;&#x4EE5;&#x8FDB;&#x884C;numpy&#x91CC;&#x7684;&#x64CD;&#x4F5C;
df1.groupby('key').aggregate(np.mean)

#&#x5BF9;&#x6CF0;&#x5766;&#x5C3C;&#x514B;&#x6570;&#x636E;&#x6839;&#x636E;&#x6027;&#x522B;&#x8BA1;&#x7B97;&#x5E74;&#x9F84;&#x5747;&#x503C;
df.groupby('Sex')['Age'].mean()

#&#x6839;&#x636E;&#x6027;&#x522B;&#x8BA1;&#x7B97;&#x5E78;&#x5B58;&#x7387;
df.groupby('Sex')['Survived'].mean()

数值计算

#&#x9996;&#x5148;&#x6784;&#x9020;&#x4E00;&#x4E2A;DataFrame
df2 = pd.DataFrame([[1,2,3],[4,5,6]])
df2.index=['a','b']
df2.columns=['A','B','C']
print(df2)

数值计算的一些基本操作： sum(), mean(), max(), min(), median()等

print(df2.sum()) #df2.sum(axis = 0)
'''
A    5
B    7
C    9
'''
print(df2.sum(axis = 1)) #df2.sum(axis = 'columns)
'''
a    6
b    15
'''

二元统计

df = pd.read_csv('train.csv')

df.cov()
#&#x8FD4;&#x56DE;&#x7279;&#x5F81;&#x4E4B;&#x95F4;&#x7684;&#x534F;&#x65B9;&#x5DEE;

df.corr()
#&#x8FD4;&#x56DE;&#x7279;&#x5F81;&#x4E4B;&#x95F4;&#x7684;&#x76F8;&#x5173;&#x7CFB;&#x6570;&#xFF0C;&#x82E5;&#x4E24;&#x4E2A;&#x7CFB;&#x6570;&#x76F8;&#x5173;&#x6027;&#x5F3A;&#xFF0C;&#x5219;&#x53EF;&#x4EE5;&#x9009;&#x62E9;&#x5220;&#x9664;&#x5176;&#x4E2D;&#x4E00;&#x4E2A;&#x7CFB;&#x6570;

df['Age'].value_counts() #&#x7EDF;&#x8BA1;&#x6240;&#x6709;&#x9891;&#x6570;
df['Age'].value_counts(ascending = True) #&#x5347;&#x5E8F;&#x6392;&#x5217;
#&#x6B64;&#x65F6;&#x4F1A;&#x7EDF;&#x8BA1;&#x6BCF;&#x4E2A;&#x6570;&#x7684;&#x9891;&#x6570;&#xFF0C;&#x53EF;&#x4EE5;&#x6307;&#x5B9A;&#x53C2;&#x6570;bins&#xFF0C;&#x9650;&#x5B9A;&#x8303;&#x56F4;&#x8BA1;&#x7B97;&#x9891;&#x6570;
df['Age'].value_counts(ascending = True, bins = 5)
'''
(64.084, 80.0]       11
(48.168, 64.084]     69
(0.339, 16.336]     100
(32.252, 48.168]    188
(16.336, 32.252]    346
'''

df['Age'].count()
#&#x8FD4;&#x56DE;&#x4E0D;&#x4E3A;0&#x7684;&#x5217;&#x6709;&#x591A;&#x5C11;&#x4E2A;

对象操作

data = [10,11,12]
index = ['a','b','c']
s = pd.Series(data = data,index = index)
'''
a    10
b    11
c    12
'''

pandas的series类似表格中的一个列(column)，类似一维数组，可以保存任何数据类型，由索引和列组成 pandas.Series(data,index,dtype,name,copy)
数值的修改：

s[0] #10
s[0:2]
'''
a    10
b    11
'''

mask = [True,False,True]
s[mask]
'''
a    10
c    12
'''

s.loc['b'] # 11
s.iloc[1] # 11

s1 = s.copy()
s1['a'] = 100
s1.replace(to_replace = 100, value = 101, inplace = False)
 #inplace&#x6307;&#x5B9A;&#x4E3A;False&#xFF0C;&#x5219;&#x53EA;&#x4F1A;&#x5C55;&#x793A;&#x7ED3;&#x679C;&#xFF0C;&#x4F46;&#x4E0D;&#x4F1A;&#x6539;&#x53D8;s1&#xFF0C;&#x5F53;inplace&#x6539;&#x4E3A;True&#x65F6;&#x624D;&#x4F1A;&#x4FEE;&#x6539;s1&#x7684;&#x503C;

索引的修改：

s1.index
#Index(['a', 'b', 'c'], dtype='object')
s1.index = ['a','b','d']
#Index(['a', 'b', 'd'], dtype='object')

s1.rename(index = {'a':'A'},inplace=True)
#Index(['A', 'b', 'c'], dtype='object')

增加：

s2 = pd.Series([100,110],index = ['h','k'])
s1 = s1.append(s2)
s1['j'] = 500

s3 = s1.append(s2,ignore_index=False) #&#x4E0D;&#x4F1A;&#x751F;&#x6210;&#x65B0;&#x7D22;&#x5F15;
s3 = s1.append(s2,ignore_index=True) #&#x81EA;&#x52A8;&#x751F;&#x6210;&#x65B0;&#x7D22;&#x5F15;
print(s3.index)
#RangeIndex(start=0, stop=5, step=1)

删除：

del s1['A']
s1.drop(['b','c'],inplace = True)

data =[[1,2,3],[4,5,6]]
index=['a','b']
columns=['A','B','C']
df = pd.DataFrame(data = data, index = index, columns = columns)

查操作是类似的 loc()和 iloc()
修改：

df['a']['A'] = 150 #&#x6539;&#x503C;
df.index = ['f','g'] #&#x6539;&#x7D22;&#x5F15;

增加：

df.loc['c'] = [1,2,3] #&#x589E;&#x52A0;&#x4E00;&#x884C;

#&#x589E;&#x52A0;&#x591A;&#x884C;
data =[[1,2,3],[4,5,6]]
index=['j','h']
columns=['A','B','C']
df2 = pd.DataFrame(data = data, index = index, columns = columns)

df3 = pd.concat([df,df2])
#&#x8FD8;&#x53EF;&#x4EE5;&#x6307;&#x5B9A;&#x8F74;
df3 = pd.concat([df,df2]&#xFF0C;axis = 1)

#&#x589E;&#x52A0;&#x5217;
df2['Tang'] = [10,11]

df4 = pd.DataFrame([[10,11].[12,13]],index=['j','h'],columns=['D','E']) #&#x4FDD;&#x8BC1;index&#x76F8;&#x540C;&#x624D;&#x80FD;&#x65B0;&#x589E;&#x591A;&#x5217;
df5 = pd.concat([df2,df4],axis = 1)

删除：

df5.drop(['j'],axis=0,inplace = True) #&#x5220;&#x9664;&#x5355;&#x884C;
del df5['Tang'] #&#x5220;&#x9664;&#x5355;&#x5217;
df5.drop(['A','B','C'],axis = 1,inplace = True) # &#x5220;&#x9664;&#x591A;&#x5217;

merge函数

left = pd.DataFrame({'key':['k0','k1','k2','k3'],
                     'A':['A0','A1','A2','A3'],
                     'B':['B0','B1','B2','B3']})
right = pd.DataFrame({'key':['k0','k1','k2','k3'],
                     'C':['C0','C1','C2','C3'],
                     'D':['D0','D1','D2','D3']})
pd.merge(left,right,on='key') #on&#x6307;&#x5B9A;&#x4EE5;&#x4EC0;&#x4E48;&#x952E;&#x5408;&#x5E76;
'''
    A   B   key C   D
0   A0  B0  K0  C0  D0
1   A1  B1  K1  C1  D1
2   A2  B2  K2  C2  D2
3   A3  B3  K3  C3  D3
'''

合并时有重复的列，但并不是主键，则会生成_x,_y

left = pd.DataFrame({'key1':['k0','k1','k2','k3'],
                     'key2':['k0','k1','k2','k3'],
                     'A':['A0','A1','A2','A3'],
                     'B':['B0','B1','B2','B3']})
right = pd.DataFrame({'key1':['k0','k1','k2','k3'],
                     'key2':['k0','k1','k2','k3'],
                     'C':['C0','C1','C2','C3'],
                     'D':['D0','D1','D2','D3']})
print(pd.merge(left,right,on='key1'))
'''
    key1    key2_x  A       B       key2_y  C   D
0   k0      k0      A0      B0      k0      C0  D0
1   k1      k1      A1      B1      k1      C1  D1
2   k2      k2      A2      B2      k2      C2  D2
3   k3      k3      A3      B3      k3      C3  D3
'''

连接的不同类型

left = pd.DataFrame({'key1':['k0','k1','k2','k3'],
                     'key2':['k0','k1','k2','k3'],
                     'A':['A0','A1','A2','A3'],
                     'B':['B0','B1','B2','B3']})
right = pd.DataFrame({'key1':['k0','k1','k2','k3'],
                     'key2':['k0','k1','k2','k4'],
                     'C':['C0','C1','C2','C3'],
                     'D':['D0','D1','D2','D3']})
pd.merge(left,right,on=['key1','key2'])
#&#x6B64;&#x65F6;&#x53EA;&#x6709;0&#xFF0C;1&#xFF0C;2&#x4E09;&#x5217;&#xFF0C;&#x9ED8;&#x8BA4;&#x4E3A;&#x5185;&#x8FDE;&#x63A5;&#xFF0C;&#x6307;&#x5B9A;&#x53C2;&#x6570;how&#x51B3;&#x5B9A;&#x4EC0;&#x4E48;&#x8FDE;&#x63A5;&#x65B9;&#x5F0F;,how&#x7684;&#x53D6;&#x503C;&#x6709;inner(&#x9ED8;&#x8BA4;),outer,left,right
pd.merge(left,right,on=['key1','key2'],how = 'outer')
#&#x6307;&#x5B9A;&#x5916;&#x8FDE;&#x63A5;&#xFF0C;&#x6B64;&#x65F6;&#x6BCF;&#x4E00;&#x5217;&#x90FD;&#x4F1A;&#x51FA;&#x73B0;&#xFF0C;&#x4F46;&#x8FDE;&#x63A5;&#x4E0D;&#x5230;&#x7684;&#x5730;&#x65B9;&#x4F1A;&#x51FA;&#x73B0;NaN
pd.merge(left,right,on=['key1','key2'],how = 'outer',indicator = True) #&#x6307;&#x5B9A;&#x5668;indicator&#x4F1A;&#x5728;&#x6BCF;&#x884C;&#x7684;&#x6700;&#x540E;&#x544A;&#x8BC9;&#x4F60;&#x662F;both&#x3001;left_only&#x3001;right_only

显示设置

get&#xFF1A;&#x67E5;&#x8BE2;&#xFF0C;set&#xFF1A;&#x8BBE;&#x7F6E;
pd.get_option('display.max_rows')
pd.set_option('display.max_rows',6) #&#x8BBE;&#x7F6E;&#x663E;&#x793A;&#x51FA;&#x6765;&#x7684;&#x884C;&#x6570;&#x4E3A;6&#x884C;
pd.set_option('display.max_columns',6) #&#x8BBE;&#x7F6E;&#x663E;&#x793A;&#x51FA;&#x6765;&#x7684;&#x5217;&#x6570;&#x4E3A;6&#x5217;
pd.set_option('display.max_colwodth',100) #&#x8BBE;&#x7F6E;&#x5B57;&#x7B26;&#x4E32;&#x7684;&#x957F;&#x5EA6;&#x663E;&#x793A;
pd.set_option('display.precision',20) #&#x8BBE;&#x7F6E;&#x5C0F;&#x6570;&#x7684;&#x7CBE;&#x5EA6;

pivot数据透视表

example = pd.DataFrame({'Month':['Jan','Jan','Jan','Feb','Feb','Feb','Mar','Mar','Mar',],
                     'Category':['cola','tea','coffee','cola','tea','coffee','cola','tea','coffee'],
                     'Amount':[74,235,32,46,346,32,57,96,76]})
example_pivot = example.pivot(index = 'Category',columns= 'Month',values='Amount')
#&#x8FD9;&#x6837;&#x4F7F;&#x7528;&#x8981;&#x6C42;index+columns&#x53EF;&#x4EE5;&#x751F;&#x6210;&#x552F;&#x4E00;&#x5B57;&#x6BB5;
print(example_pivot)
#index&#x4E3A;&#x900F;&#x89C6;&#x8868;&#x7684;&#x884C;&#xFF0C;columns&#x4E3A;&#x5217; values&#x662F;&#x7EDF;&#x8BA1;&#x503C;
'''
Month     Feb  Jan  Mar
Category
coffee     32   32   76
cola       46   74   57
tea       346  235   96
'''
print(example_pivot.sum(axis=1))
'''
Category
coffee    140
cola      177
tea       677
'''
print(example_pivot.sum(axis=0))
'''
Month
Feb    424
Jan    341
Mar    229
'''

数据透视表pivot在实际数据中的使用方式：

df = pd.read_csv('train.csv')
df_pivot = df.pivot_table(index = 'Sex',columns='Pclass',values='Fare')
print(df_pivot)
#&#x9ED8;&#x8BA4;&#x6C42;&#x5E73;&#x5747;&#x503C;,&#x53EF;&#x4EE5;&#x8BBE;&#x7F6E;aggfunc&#x53C2;&#x6570;&#xFF0C;&#x6C42;max(),min(),count()&#x7B49;
'''
Pclass           1          2          3
Sex
female  106.125798  21.970121  16.118810
male     67.226127  19.741782  12.661633
'''
df_pivot = df.pivot_table(index = 'Sex',columns='Pclass',values='Fare',aggfunc='max')
print(df_pivot)
'''
Pclass         1     2      3
Sex
female  512.3292  65.0  69.55
male    512.3292  73.5  69.55
'''

#&#x5F53;&#x6570;&#x636E;&#x900F;&#x89C6;&#x8868;&#x7EDF;&#x8BA1;count&#x65F6;&#xFF0C;&#x8FD8;&#x53EF;&#x4EE5;&#x4F7F;&#x7528;crosstab
df_crosstab = pd.crosstab(index=df['Sex'],columns=df['Pclass'])

df_pivot = df.pivot_table(index = 'Pclass',columns='Sex',values='Survived',aggfunc='mean')
print(df_pivot)
'''
Sex       female      male
Pclass
1       0.968085  0.368852
2       0.921053  0.157407
3       0.500000  0.135447
'''
df['Underaged'] = df['Age'] < 18
df_pivot = df.pivot_table(index = 'Underaged',columns='Sex',values='Survived',aggfunc='mean')
print(df_pivot)
'''
Sex          female      male
Underaged
False      0.752896  0.165703
True       0.690909  0.396552
'''

时间操作

import datetime
dt = datetime.datetime(year=2017,month=11,day=24,hour=10,minute=30)
print(dt) #2017-11-24 10:30:00

在pandas中的时间操作

ts = pd.Timestamp('2017-11-24') #&#x65F6;&#x95F4;&#x6233;
ts #Timestamp('2017-11-24 00:00:00')
ts.month # 11
ts.day #24
ts +pd.Timedelta('5 days') #Timestamp('2017-11-29 00:00"00')
pd.to_datetime('2017-11-24')
pd.to_datetime('24/11/2017')

#&#x8BFB;&#x5165;&#x8868;&#xFF0C;&#x5BF9;&#x8868;&#x4E2D;&#x65F6;&#x95F4;&#x8FDB;&#x884C;&#x8F6C;&#x6362;

data = pd.resd_csv('time.csv')
data['Time'] = pd.to_datetime(data['Time']) #&#x628A;&#x539F;&#x672C;&#x7684;Time&#x5217;&#x8F6C;&#x6362;&#x4E3A;&#x65F6;&#x95F4;&#x683C;&#x5F0F;
data = data.set_index('Time') #&#x628A;Time&#x8BBE;&#x7F6E;&#x4E3A;&#x7D22;&#x5F15;

data = pd.read_csv('time.csv',index_col=0,parse_dates=True) #&#x4E5F;&#x53EF;&#x4EE5;&#x5BFC;&#x5165;&#x7684;&#x65F6;&#x5019;&#x4E00;&#x6B65;&#x8BBE;&#x7F6E;&#x597D;

'''

                        L06_347         LS06_347    LS06_348    month
Time
2009-01-01 00:00:00     0.137417        0.097500    0.016833    1
2009-01-01 03:00:00     0.131250        0.088833    0.016417    1
2009-01-01 06:00:00     0.113500        0.091250    0.016750    1
'''

#&#x53D6;&#x6570;&#x636E;
data[pd.Timestamp('2012-01-01 09:00'):pd.Timestamp('2012-01-01 19:00')] #&#x4E0D;&#x52A0;Timestamp&#x4E5F;&#x53EF;&#x4EE5;&#x53D6;&#x51FA;&#x6765;

#&#x60F3;&#x76F4;&#x63A5;&#x53D6;2013&#x5E74;&#x7684;&#x6570;&#x636E;
data['2013']
#&#x53D6;2012&#x5E74;1&#x6708;&#x5230;3&#x6708;
data['2012-01':'2012-03']
#&#x53E6;&#x4E00;&#x79CD;&#x53D6;&#x6CD5;&#xFF0C;&#x53D6;&#x6240;&#x6709;1&#x6708;&#x7684;&#x6570;&#x636E;&#xFF08;12&#x5E74;1&#x6708;&#x4EFD;&#x3001;13&#x5E74;1&#x6708;&#x4EFD;&#xFF09;
data[data.index.month == 1]
data[(data.index.hour > 8) & (data.index.hour <12)] #所有8-12点 #取时间还可以用between_time,这个就包含两头的端点 data.between_time('08:00','12:00') < code></12)]>

时间序列重采样

#&#x8BA1;&#x7B97;&#x6BCF;&#x5929;&#x7684;&#x5747;&#x503C;
data.resample('D').mean().head() #&#x591A;&#x5929;&#x6307;&#x5B9A;3D&#x5373;&#x53EF;
'''
                L06_347         LS06_347    LS06_348    month
Time
2009-01-01      0.125010        0.092281    0.016635    1
2009-01-02      0.124146        0.095781    0.016406    1
'''
data.resample('M').mean().plot() #&#x53EF;&#x4EE5;&#x76F4;&#x63A5;&#x753B;&#x56FE;

常用操作

按照指定顺序进行排序

data = pd.DataFrame({'group':['a','a','a','b','b','b','c','c','c',],
                     'data':[4,3,2,1,12,3,4,5,7]})
data.sort_values(by=['group','data'],ascending=[False,True],inplace=True)
#group&#x964D;&#x5E8F;&#xFF0C;&#x518D;data&#x5347;&#x5E8F;
print(data)
'''
   data group
6     4     c
7     5     c
8     7     c
3     1     b
5     3     b
4    12     b
2     2     a
1     3     a
0     4     a
'''

删除重复值

data1 = pd.DataFrame({'k1':['one']*3+['two']*4,
                      'k2':[3,2,1,3,3,4,4]})
data1 = data1.drop_duplicates() #&#x53BB;&#x6389;&#x91CD;&#x590D;&#x7684;&#x503C;
data1 = data1.drop_duplicates(subset='k1') #&#x6307;&#x5B9A;&#x67D0;&#x4E00;&#x5217;&#x53BB;&#x91CD;
'''
    k1  k2
0  one   3
3  two   3
'''
print(data1)

map映射

data = pd.DataFrame({'food':['A1','A2','B1','B2','B3','C1','C2'],
                     'data':[1,2,3,4,5,6,7]})
food_map = {'A1':'A','A2':'A','B1':'B','B2':'B','B3':'B','C1':'C','C2':'C'}
data['food_map'] = data['food'].map(food_map)
#map&#x6620;&#x5C04;&#xFF0C;map&#x5FC5;&#x987B;&#x662F;&#x5B57;&#x5178;
print(data)
'''
  food  data food_map
0   A1     1        A
1   A2     2        A
2   B1     3        B
3   B2     4        B
4   B3     5        B
5   C1     6        C
6   C2     7        C
'''

添加比率的另一种写法，以及去除某列

df = pd.DataFrame({'data1':np.random.randn(3),
                   'data2':np.random.randn(3)})
df = df.assign(ration = df['data1']/df['data2'])
print(df)
'''
      data1     data2    ration
0  1.764052  2.240893  0.787209
1  0.400157  1.867558  0.214268
2  0.978738 -0.977278 -1.001494
'''
df.drop('ration',axis='columns',inplace=True)
print(df)
'''
      data1     data2
0  1.764052  2.240893
1  0.400157  1.867558
2  0.978738 -0.977278
'''

age = [13,23,35,23,36,24,12,17,22,30]
bins = [10,20,30,40]
bins_res = pd.cut(age,bins)
print(bins_res)
#[(10, 20], (20, 30], (30, 40], (20, 30], (30, 40], (20, 30], (10, 20], (10, 20], (20, 30], (20, 30]]
#print(bins_res.labels)
print(pd.value_counts(bins_res))
'''
(20, 30]    5
(10, 20]    3
(30, 40]    2
'''
#&#x8FD8;&#x53EF;&#x4EE5;&#x6307;&#x5B9A;&#x7EC4;&#x540D;
group_name = ['10&#x4EE3;','20&#x4EE3;','30&#x4EE3;']
print(pd.value_counts(pd.cut(age,bins,labels=group_name)))
'''
20&#x4EE3;    5
10&#x4EE3;    3
30&#x4EE3;    2
'''

查看空值

df = pd.DataFrame([range(3),[0,np.nan,0],[0,0,np.nan],range(3)])
print(df.isnull())
'''
       0      1      2
0  False  False  False
1  False   True  False
2  False  False   True
3  False  False  False
'''
print(df.isnull().any())#&#x8FD8;&#x53EF;&#x4EE5;&#x6307;&#x5B9A;axis=1
'''
0    False
1     True
2     True
'''
#&#x627E;&#x5230;&#x7F3A;&#x5931;&#x503C;&#x6240;&#x5728;&#x4F4D;&#x7F6E;
print(df[df.isnull().any(axis = 1)])
df = df.fillna(5) #&#x7528;5&#x6765;&#x586B;&#x5145;&#x7F3A;&#x5931;&#x503C;
print(df)

Original: https://blog.csdn.net/qq_45003520/article/details/123551945
Author: indigo女孩
Title: pandas基础_1

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/698261/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

YOLOV7开源代码讲解–训练参数解释

目录训练参数说明： –weights: — cfg: –data: –hpy: –epoch: –batc…

人工智能 2023年6月22日
0091
《Let’s be Humorous: Knowledge Enhanced Humor Generation》论文解读

文本幽默相关研究作者贡献 1、第一次通过相关句子信息以及相关知识背景生成笑点。2、提出了一个框架，可以将知识融合到端到端的模型。3、提供了第一个与笑话配对的知识数据集。一…

人工智能 2023年5月31日
0077
机器学习系列(10)_决策树与随机森林回归

注：本篇文章接上一篇文章》》机器学习系列(9)_决策树详解01 文章目录一、决策树优缺点二、泰坦尼克号幸存者案例三、随机森林介绍 * 1、随机森林的分类 2、重要参数 &#8…

人工智能 2023年6月17日
0069
【python小项目】用python写一个小工具——番茄钟

用python写一个小工具——番茄钟最近听到朋友说在用番茄钟，有点兴趣也想下载一个来用用，后面仔细一想这玩意做起来也不难，索性自己顺手写一个算了，在这里也分享给大家了一、功能简…

人工智能 2023年7月29日
0067
【无标题】Torch_geometric安装教程，问题汇总详解。

前情提要：本文只谈通过pip方式安装，conda安装的方式博主没有试过，感兴趣的小伙伴可以参考本文自己尝试一下。首先，在核心上，Torch_geometric的安装方法几乎和py…

人工智能 2023年7月22日
0064
数据分类分级指南范围

引言在大数据应用日益广泛的今天，政府数据资源共享和开放已经成为促进大数据产业发展的关键，但由于政府数据的敏感性，加之政府数据分类分级标准的滞后和缺失，使政府数据开放和共享面临…

人工智能 2023年7月3日
0080
2s-AGCN【复现】EOFError: Ran out of input 问题解决记录（win10+pycharm）

在 win10上用 pycharm复现 2s-AGCN论文程序，在环境和文件路径都调通之后在终端里输入 python main.py –config ./config/nturg…

人工智能 2023年5月28日
00105
一文了解循环神经网络

循环神经网络一、什么是循环神经网络：循环神经网络（Rerrent Neural Network, RNN），是神经网络的一种，类似的还有深度神经网络DNN，卷积神经网络CNN，…

人工智能 2023年5月30日
0076
图像处理学习路线总结 python

记录一下我的图像处理学习路线，后续有其他想法了再补充。目录 1.图像处理基础知识 1.1 数字图像处理公开课 2.利用opencv进行实现 2.1 在pycharm里安装open…

人工智能 2023年6月22日
0078
【完整教程】在win10平台下使用d435i深度相机读取数据并保存到本地，以便进行后续3D点云处理

1 下载RealSense SDK 2.0 进入网址：RealSense SDK 2.0直接拉到网站最下端，在Asset下可以看到很多exe可执行软件，由于我的电脑是win10，所…

人工智能 2023年5月26日
0076
机器学习-算法-半监督学习：半监督学习（Semi-supervised Learning）算法

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月31日
0078
什么是卷积神经网络（CNN），它在深度学习中的应用是什么

什么是卷积神经网络（CNN）？卷积神经网络（Convolutional Neural Network，缩写为CNN）是一种深度学习模型，特别适用于处理具有网络结构的数据，如图像、…

人工智能 2024年1月1日
0032
Tensorflow-gpu 1.15安装

文章目录 CUDA和cuDNN安装 * Tensorflow 与cuda的对应关系 cuda与显卡驱动对应关系 CUDA下载网址 cuDNN下载网址 cuDNN操作 tensorf…

人工智能 2023年5月25日
0091
李宏毅机器学习–课后作业HW_1

看了李宏毅老师讲的机器学习课程，真的是受益匪浅，老师讲课非常有意思，不是空洞的讲数学公式，以及抽象的理论，而是通过在课堂上加入游戏元素来引导大家学习，我个人觉得这种方式是很好的，而…

人工智能 2023年6月15日
0092
SVM&神经网络

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月14日
00102
深度学习之多分类损失函数用法

均方误差（MSE）的含义是求一个batch中n个样本的n个输出与期望输出的差的平方的平均值。比如对于一个神经元（单输入单输出，sigmoid函数）,定义其代价函数为（其中y是我们期…

人工智能 2023年7月13日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31