基于Anaconda的pandas学习

2023年7月7日上午5:20 • 人工智能 • 阅读 63

基于Anaconda的pandas学习

*
– Pandas安装
– 创建对象
–
+ 创建Series对象
+ 创建DataFrame对象
+ 创建date_range
– 查看数据
– 获取数据
–
+ 直接获取
+ 索引获取
– 增删改数据
–
+ 索引及缺失值操作
– 运算
– 字符串操作

Pandas安装

第一步：找到开始桌面下的anaconda下面的anaconda prompt！

第二步：输入如下命令，如果提示你更新，那就去更新。

conda install pandas

创建对象

创建Series对象

import pandas as pd
pandas&#x57FA;&#x4E8E;numpy &#x6545;&#x9700;&#x8981;&#x5BFC;&#x5165;numpy
import numpy as np
&#x521B;&#x5EFA;series&#x5BF9;&#x8C61; np.nan=not a number &#x9ED8;&#x8BA4;&#x7D22;&#x5F15;&#x4ECE;0&#x5F00;&#x59CB;
s1=pd.Series([10,20,30,40,np.nan])
print(s1)

查看相关数据：

当然也可以自己指定索引！在Series函数中传入参数index=list(‘abcde’)试试！

创建DataFrame对象

方法一：传入数据

series&#x662F;&#x4E00;&#x7EF4; dataframe&#x662F;&#x4E8C;&#x7EF4;
df1=pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]])
print(df1)

方法二：传入数据和参数

series&#x662F;&#x4E00;&#x7EF4; dataframe&#x662F;&#x4E8C;&#x7EF4;
df1=pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]],index=list('abc'),columns=list('ABC'))
print(df1)

方法三：用字典方式创建（其为列索引奥）

series&#x662F;&#x4E00;&#x7EF4; dataframe&#x662F;&#x4E8C;&#x7EF4;
df1=pd.DataFrame({'a':[1,2,3],'b':[2,4,6],'c':[3,6,9]})
print(df1)

如果想要改变行索引，则传入相应参数即可！

series&#x662F;&#x4E00;&#x7EF4; dataframe&#x662F;&#x4E8C;&#x7EF4;
df1=pd.DataFrame({'a':[1,2,3],'b':[2,4,6],'c':[3,6,9]},index=list('ABC'))
print(df1)

创建date_range

&#x521B;&#x5EFA;date_range&#x7D22;&#x5F15; &#x5FC5;&#x987B;&#x6307;&#x5B9A;start end periods&#x7684;&#x4E24;&#x4E2A;&#x53C2;&#x6570;&#x503C; &#x5426;&#x5219;&#x62A5;&#x9519;
df2=pd.date_range('20220101',periods=12)
print(df2)

加入频率：D表示天 M表示月

&#x521B;&#x5EFA;date_range&#x7D22;&#x5F15; &#x5FC5;&#x987B;&#x6307;&#x5B9A;start end periods&#x7684;&#x4E24;&#x4E2A;&#x53C2;&#x6570;&#x503C; &#x5426;&#x5219;&#x62A5;&#x9519;
df2=pd.date_range('20220101',periods=12,freq='3D')
print(df2)

查看数据

df3=pd.DataFrame(np.random.randint(1,20,(12,5)),index=df2,columns=['&#x5C0F;&#x767D;&#x83DC;','&#x7AF9;&#x7B0B;','&#x9C7C;&#x7C7D;&#x70E7;','&#x7D2B;&#x85AF;&#x7403;','&#x9E21;&#x7FC5;'])
&#x5982;&#x679C;&#x76F4;&#x63A5;print&#x53EF;&#x80FD;&#x5BF9;&#x4E0D;&#x9F50; &#x8FD9;&#x91CC;&#x4F7F;&#x7528;display&#x81EA;&#x5E26;&#x8868;&#x683C;
display(df3)

如果数据太多，查看相关数据的方法！

&#x67E5;&#x770B;&#x5934;&#x90E8;&#x6570;&#x636E; &#x9ED8;&#x8BA4;5&#x6761;
df3.head()

&#x67E5;&#x770B;&#x5C3E;&#x90E8;&#x7684;&#x6570;&#x636E; &#x9ED8;&#x8BA4;5&#x6761; &#x53EF;&#x4EE5;&#x4F20;&#x9012;&#x53C2;&#x6570;
df3.tail(3)

&#x663E;&#x793A;&#x7EDF;&#x8BA1;&#x6458;&#x8981;
df3.describe()

&#x63D2;&#x5165;&#x6570;&#x636E; &#x7B2C;&#x4E00;&#x4E2A;&#x53C2;&#x6570;&#x662F;&#x63D2;&#x5165;&#x7684;&#x5217;&#x7D22;&#x5F15;
df3.insert(len(df3.columns),'&#x6D4B;&#x8BD5;',list('abcdefghijkl'))

索引排序：

sort_index(axis=0, ascending=True, inplace=False, by=None)
axis&#xFF1A;0&#x6309;&#x7167;&#x884C;&#x7D22;&#x5F15;&#x6392;&#x5E8F;&#xFF1B;1&#x6309;&#x7167;&#x5217;&#x7D22;&#x5F15;&#x6392;&#x5E8F;
ascending&#xFF1A;&#x9ED8;&#x8BA4;True&#x5347;&#x5E8F;&#x6392;&#x5217;&#xFF1B;False&#x964D;&#x5E8F;&#x6392;&#x5217;
inplace&#xFF1A;&#x9ED8;&#x8BA4;False&#xFF0C;&#x5426;&#x5219;&#x6392;&#x5E8F;&#x4E4B;&#x540E;&#x7684;&#x6570;&#x636E;&#x76F4;&#x63A5;&#x66FF;&#x6362;&#x539F;&#x6765;&#x7684;&#x6570;&#x636E;&#x96C6;
by&#xFF1A;&#x6309;&#x7167;&#x67D0;&#x4E00;&#x5217;&#x6216;&#x51E0;&#x5217;&#x6570;&#x636E;&#x8FDB;&#x884C;&#x6392;&#x5E8F;&#xFF0C;&#x4F46;&#x662F;by&#x53C2;&#x6570;&#x5B98;&#x65B9;&#x4E0D;&#x5EFA;&#x8BAE;&#x4F7F;&#x7528;
&#x6848;&#x4F8B;&#xFF1A;
df5 = pd.DataFrame({'b': [1, 2, 2, 3], 'a': [4, 3, 2, 1], 'c': [1, 3, 8, 2]}, index=[2, 0, 1, 3])
print(df5)
print('* ' * 30)
df6 = df5.sort_index()
&#x9ED8;&#x8BA4;axis=0, &#x884C;&#x53D8;&#x5217;&#x4E0D;&#x53D8;, &#x9ED8;&#x8BA4;&#x6839;&#x636E;&#x884C;&#x7D22;&#x5F15;&#x5347;&#x5E8F;
print(df6)

值排序：

DataFrame.sort_values(by, axis=0, ascending=True, inplace=False)
by&#x53C2;&#x6570;:&#x5982;&#x679C;axis=0&#xFF0C;by="&#x5217;&#x540D;"&#x3002;&#x5982;&#x679C;axis=1&#xFF0C;&#x90A3;&#x4E48;by="&#x884C;&#x540D;"&#x3002;&#x5982;&#x679C;&#x884C;&#x6216;&#x5217;&#x7684;&#x540D;&#x79F0;&#x7C7B;&#x578B;&#x662F;&#x6570;&#x5B57;&#x5219; by=&#x6570;&#x5B57;
&#x6848;&#x4F8B;&#xFF1A;
df7 = df5.sort_values(by='c')
&#x9ED8;&#x8BA4;&#xFF1A;ascending=True, axis=0
print(df5)
print('-'*20)
df7 = df5.sort_values(by=2, axis=1)
print(df7)

获取数据

直接获取

我们比较推荐最优化的pandas对数据进行处理，而不是python或者numpy。

例如.at, .iat, .loc, .iloc and .ix。

首先构造数据！

import pandas as pd
import numpy as np
&#x6784;&#x9020;Dataframe&#x5BF9;&#x8C61;
arr = np.random.uniform(50, 101, (10, 5))
names = ['&#x66F9;&#x64CD;', '&#x5218;&#x5907;', '&#x5B59;&#x6743;', '&#x9646;&#x900A;', '&#x5F20;&#x662D;', '&#x8BF8;&#x845B;&#x4EAE;', '&#x5173;&#x7FBD;', '&#x8D75;&#x4E91;', '&#x5415;&#x5E03;', '&#x5178; &#x97E6;']
courses = ['&#x8BED;&#x6587;', '&#x6570;&#x5B66;', '&#x82F1;&#x8BED;', '&#x653F;&#x6CBB;', 'Python']
df = pd.DataFrame(arr, index=names, columns=courses)
&#x67E5;&#x770B;&#x524D;&#x4E94;&#x884C;&#x6570;&#x636E;
head_5 = df.head(5)
display(head_5)
&#x67E5;&#x770B;&#x57FA;&#x672C;&#x4FE1;&#x606F;
df.info()

获取列数据：

&#x67E5;&#x770B;df&#x4E2D;&#x67D0;&#x4E00;&#x5217;&#x7684;&#x6570;&#x636E;
lang = df.&#x8BED;&#x6587;
&#x7B49;&#x540C;&#x4E8E;df['&#x8BED;&#x6587;']
print(type(lang))
<class 'pandas.core.series.series'>
print(lang)
&#x53EF;&#x4EE5;&#x901A;&#x8FC7;df[['&#x8BED;&#x6587;', '&#x6570;&#x5B66;']]&#x67E5;&#x770B;&#x591A;&#x5217;&#x6570;&#x636E;
</class>

获取行数据（切片）：

&#x67E5;&#x770B;&#x4E00;&#x884C;&#x6216;&#x8005;&#x8FDE;&#x7EED;&#x591A;&#x884C;&#x6570;&#x636E; &#x5207;&#x7247;&#x5DE6;&#x5305;&#x542B;&#x53F3;&#x4E0D;&#x5305;&#x542B;
line = df[0: 1]
print(line)
print('*' * 30)
lines = df[1:3]
print(lines)

同时获取行列：

&#x540C;&#x65F6;&#x83B7;&#x53D6;&#x884C;&#x548C;&#x5217;
rows_cols = df[0:2][['&#x8BED;&#x6587;', '&#x6570;&#x5B66;', '&#x82F1;&#x8BED;']]
print(rows_cols)

索引获取

loc名称索引：使用索引名称作为参数来获取数据，有两个输入参数：
第一个参数指定行名，第二个指定列名。当只有一个参数时，默认是行名（即抽取整行），所有列都选中。（包含最后一个的）

行和列均是既可以用切片，又可以用列表（数组）。

1. df.loc[&#x53C2;&#x6570;]&#x83B7;&#x53D6;&#x4E00;&#x884C;,&#x53C2;&#x6570;&#x662F;index&#x6216;&#x8005;column&#x7684;&#x540D;&#x79F0;
line = df.loc['&#x66F9;&#x64CD;']
print(type(line)) # <class 'pandas.core.series.series'> print(line)
1.1 df.loc[&#x53C2;&#x6570;]&#x83B7;&#x53D6;&#x591A;&#x884C;
lines = df.loc[['&#x66F9;&#x64CD;', '&#x5415;&#x5E03;']]
print(lines)
1.2 df.loc[&#x53C2;&#x6570;]&#x83B7;&#x53D6;&#x591A;&#x5217;,&#x6240;&#x6709;&#x884C;&#x7684;&#x6570;&#x636E;
lines = df.loc[:, ['&#x8BED;&#x6587;', '&#x82F1;&#x8BED;']]
print(lines)
1.3 df.loc[&#x53C2;&#x6570;]&#x83B7;&#x53D6;&#x591A;&#x5217;,&#x591A;&#x884C;&#x7684;&#x6570;&#x636E;
lines = df.loc['&#x66F9;&#x64CD;': '&#x5173;&#x7FBD;', '&#x6570;&#x5B66;': '&#x653F;&#x6CBB;': 2]
print(lines)
loc&#x7684;&#x5207;&#x7247;&#x64CD;&#x4F5C;, &#x5305;&#x542B;&#x7ED3;&#x675F;
1.4 df.loc[&#x53C2;&#x6570;]&#x83B7;&#x53D6;&#x591A;&#x5217;,&#x6240;&#x6709;&#x884C;&#x7684;&#x6570;&#x636E;
lines = df.loc['&#x66F9;&#x64CD;': '&#x5173;&#x7FBD;', ::2]
print(lines)
</class>

iloc位置索引：使用位置索引（注意区分前面的名称索引）来获取！

iloc的切片操作, 不包含结束！！（试一下就知道啦！

2.df.iloc[&#x53C2;&#x6570;]&#x83B7;&#x53D6;&#x4E00;&#x884C;,&#x53C2;&#x6570;&#x662F;&#x884C;&#x6216;&#x5217;&#x7D22;&#x5F15;&#x7684;&#x5E8F;&#x53F7;(&#x6570;&#x5B57;)
line = df.iloc[0]
display(line)
2.1 df.iloc[&#x53C2;&#x6570;]&#x83B7;&#x53D6;&#x591A;&#x884C;
lines = df.iloc[[0, -2]]
display(lines)
2.2 df.iloc[&#x53C2;&#x6570;]&#x83B7;&#x53D6;&#x591A;&#x5217;,&#x6240;&#x6709;&#x884C;&#x7684;&#x6570;&#x636E;
lines = df.iloc[:, [0, 2]]
display(lines)
2.3 df.iloc[&#x53C2;&#x6570;]&#x83B7;&#x53D6;&#x591A;&#x5217;,&#x6240;&#x6709;&#x884C;&#x7684;&#x6570;&#x636E;
lines = df.iloc[0: -3, 1: -1: 2]
display(lines)
iloc&#x7684;&#x5207;&#x7247;&#x64CD;&#x4F5C;, &#x4E0D;&#x5305;&#x542B;&#x7ED3;&#x675F;

布尔索引：

&#x4E00;&#x4E2A;&#x6761;&#x4EF6;
bools = df['Python'] > 70
print(bools)
df2 = df[bools]
&#x5E03;&#x5C14;&#x7D22;&#x5F15;
print(df2)
df2 = df.loc[bools]
print(df2)
&#x591A;&#x4E2A;&#x6761;&#x4EF6;
bools2 = (df['Python'] > 70) & (df['Python'] <= 85) bools2="(df['Python']"> 70) & (df['&#x653F;&#x6CBB;'] > 70)
print(bools2)
print(df[bools2])
&#x6EE1;&#x8DB3;&#x6761;&#x4EF6;&#x540E;&#x8D4B;&#x503C;
df.loc[df['Python'] > 70, 'Python'] = 85
print(df)
&#x8FC7;&#x6EE4;&#x6570;&#x636E; # &#x5224;&#x65AD;Python&#x5217;&#x7684;&#x503C;&#x662F;&#x5426;&#x5305;&#x542B;[50, 51, 52]&#x4E2D;&#x4EFB;&#x610F;&#x4E00;&#x4E2A;
bools3 = df['Python'].isin([50, 51, 52])
print(bools3)
df2 = df.loc[bools3]
print(df2)
</=>

增删改数据

由于不断增删改，为了避免自己忘记了，可以动态获取行列索引值！

&#x63D2;&#x5165;&#x4E00;&#x5217;, &#x53EF;&#x4EE5;&#x4F7F;arr, list, Series&#x7B49;&#x3002;
arr = np.random.randint(50, 100, (10,))
&#x5217;&#x7684;&#x7D22;&#x5F15;&#x4F4D;&#x7F6E;&#xFF1A;len(df.columns), &#x5217;&#x540D;&#x79F0;&#xFF1A;'Java', &#x5217;&#x503C;&#xFF1A;arr
df.insert(len(df.columns), 'Java', arr)
&#x529F;&#x80FD;&#x540C;&#x4E0B;
df['Java'] = arr
&#x63D2;&#x5165;&#x4E00;&#x884C;
df3 = pd.DataFrame(np.random.randint(50, 100, (1, 6)), columns=df.columns, index=['&#x5F20;&#x98DE;'])
print(df3)
print('--' * 30)
df2 = df.append(df3)
print(df2)
&#x5220;&#x9664;&#x6307;&#x5B9A;&#x7684;&#x5217;
df3 = df.drop('&#x8BED;&#x6587;', axis=1)
&#x5220;&#x9664;&#x5217;('&#x8BED;&#x6587;')&#x7684;&#x65F6;&#x5019;&#x9700;&#x8BBE;&#x7F6E;axis=1
df3 = df.drop(['Java', '&#x8BED;&#x6587;'], axis=1)
&#x5220;&#x9664;&#x591A;&#x5217;
print(df3)
&#x5220;&#x9664;&#x6307;&#x5B9A;&#x7684;&#x884C;
df3 = df3.drop('&#x66F9;&#x64CD;', axis=0)
&#x5220;&#x9664;&#x884C;&#x7684;&#x65F6;&#x5019;&#x9700;&#x8BBE;&#x7F6E;axis=0
print(df3)

索引及缺失值操作

reindex()方法用于创建一个符合新索引的新对象!

&#x5BF9;&#x4E8E;Series&#x7C7B;&#x578B;&#xFF0C;&#x8C03;&#x7528;reindex()&#x4F1A;&#x5C06;&#x6570;&#x636E;&#x6309;&#x7167;&#x65B0;&#x7684;&#x7D22;&#x5F15;&#x8FDB;&#x884C;&#x6392;&#x5217;,&#x5982;&#x679C;&#x67D0;&#x4E2A;&#x7D22;&#x5F15;&#x503C;&#x4E4B;&#x524D;&#x4E0D;&#x5B58;&#x5728;&#xFF0C; &#x5219;&#x5F15;&#x5165;&#x7F3A;&#x5931;&#x503C;
s1=pd.Series([1,7,3,9],index=['d','c','a','f'])
print(s1)
s2=s1.reindex(['a','b','c','d','e','f'])
print(s2)

&#x5BF9;&#x4E8E;DataFrame&#x4E2D;&#xFF0C;reindex()&#x53EF;&#x4EE5;&#x6539;&#x53D8;&#x884C;&#x7D22;&#x5F15;&#x548C;&#x5217;&#x7D22;&#x5F15;
df = pd.DataFrame(np.arange(9).reshape((3, 3)), index=['a', 'c', 'd'], columns=['Ohio', 'Texas', 'California'])
print(df)
&#x9ED8;&#x8BA4;&#x91CD;&#x5EFA;&#x884C;&#x7D22;&#x5F15;
df2 = df.reindex(['a', 'b', 'c', 'd'])
print(df2)
&#x53EF;&#x4EE5;&#x4F7F;&#x7528;columns&#x5173;&#x952E;&#x5B57;&#x91CD;&#x5EFA;&#x5217;&#x7D22;&#x5F15;
states = ['Texas', 'Utah', 'California']
df2.reindex(columns=states)

set_index()可以设置单索引和复合索引,调用这个函数会生成一个新的DataFrame, 新的df使用一个列或多个列作为索引。

df3=pd.DataFrame([['BAR','ONE','Z',1],['BAR','TWO','Y',2],['FOO','ONE','X',3],['FOO','TWO','W',3]],columns=list('abcd'))
display(df3)
c&#x8FD9;&#x4E00;&#x5217;&#x4F5C;&#x4E3A;&#x7D22;&#x5F15; &#x5982;&#x679C;&#x4E0D;&#x60F3;&#x539F;&#x6765;&#x7684;c&#x5220;&#x9664; &#x5219;&#x6DFB;&#x52A0;drop&#x53C2;&#x6570;
df4=df3.set_index('c',drop=False)
display(df4)

&#x8BBE;&#x7F6E;&#x591A;&#x5217;&#x7D22;&#x5F15;
df4 = df3.set_index(['a', 'b'])
print(df4)

reset_index()，它是set_index()的反操作,调用它分层索引的索引层级会被还原到列中。

df4.reset_index()

缺失值处理：缺失值占整体不太多，可以直接删除，如果很多，那就需要填充！

df = pd.DataFrame(np.arange(9).reshape((3, 3)), index=['a', 'c', 'd'], columns=['Ohio', 'Texas', 'California'])
df.iloc[-1] = np.nan
print(df)

注意在numpy和pandas中axis规则不同！

&#x5220;&#x9664;nan  axis=0&#x662F;&#x5220;&#x9664;&#x884C; axis=1&#x662F;&#x5220;&#x9664;&#x5217;
df4 = df.dropna(axis=0, how='all') # any:&#x5305;&#x542B;&#x4E00;&#x4E2A;nan&#x5C31;&#x5220;&#x9664;&#x4E86;&#xFF0C;all&#x662F;&#x6240;&#x6709;&#x503C;&#x90FD;&#x662F;nan&#x624D;&#x5220;&#x9664;
display(df4)

&#x586B;&#x5145;nan &#x4E00;&#x822C;&#x586B;&#x5145;&#x4E0D;&#x662F;&#x968F;&#x4FBF;&#x586B;&#x5145; &#x8FD9;&#x91CC;&#x4EC5;&#x4F5C;&#x6F14;&#x793A;
df.fillna(10, inplace=True) # inplace=True&#x76F4;&#x63A5;&#x4FEE;&#x6539;df3&#x7684;&#x503C;

运算

运算，一般不包括缺失值奥！

value_counts非常重要！

&#x6784;&#x9020;Dataframe&#x5BF9;&#x8C61;
arr = np.random.randint(50, 101, (10, 5))
names = ['&#x66F9;&#x64CD;', '&#x5218;&#x5907;', '&#x5B59;&#x6743;', '&#x9646;&#x900A;', '&#x5F20;&#x662D;', '&#x8BF8;&#x845B;&#x4EAE;', '&#x5173;&#x7FBD;', '&#x8D75;&#x4E91;', '&#x5415;&#x5E03;', '&#x5178; &#x97E6;']
courses = ['&#x8BED;&#x6587;', '&#x6570;&#x5B66;', '&#x82F1;&#x8BED;', '&#x653F;&#x6CBB;', 'Python']
df = pd.DataFrame(arr, index=names, columns=courses)
df.iloc[1, 3] = np.nan
df.iloc[2, 2] = np.nan
df.iloc[6, 4] = np.nan
print(df)

1.6 value_counts&#xFF1A;&#x6C42;&#x4E00;&#x7EC4;&#x6570;&#x636E;&#x4E2D;&#x6BCF;&#x4E2A;&#x503C;&#x51FA;&#x73B0;&#x7684;&#x6B21;&#x6570;&#xFF0C;&#x7528;&#x4E8E;&#x4E00;&#x884C;&#x6216;&#x4E00;&#x5217;&#x6570;&#x636E;&#x5373;Series
1.6.1 &#x6784;&#x5EFA;&#x5E73;&#x5747;&#x5206;&#x5217;&#x548C;&#x8BC4;&#x7EA7;&#x5217;:&#x4F18;&#x79C0;&#x3001;&#x826F;&#x597D;&#x3001;&#x53CA;&#x683C;&#x3001;&#x4E0D;&#x53CA;&#x683C;
level = df.mean(axis=1)
&#x5BF9;&#x539F;&#x6709;&#x6570;&#x636E;&#x590D;&#x5236;&#x4E00;&#x4EFD;
level_ = level.copy()
level_[(level >= 85) & (level <= 100)]="&#x4F18;&#x79C0;" level_[(level>= 75) & (level < 85)] = '&#x826F;&#x597D;'
level_[(level >= 60) & (level < 75)] = '&#x53CA;&#x683C;'
level_[(level >= 0) & (level < 60)] = '&#x4E0D;&#x53CA;&#x683C;'
&#x6DFB;&#x52A0;&#x5E73;&#x5747;&#x5206;&#x5217;&#x548C;&#x8BC4;&#x7EA7;&#x5217;
df['&#x5E73;&#x5747;&#x5206;'] = df.mean(axis=1)
print(df)
df['&#x8BC4;&#x7EA7;'] = level_
print(level_)
print(df)
</=>

1.6.2 &#x7EDF;&#x8BA1;level&#x4E2D;&#x5404;&#x7EA7;&#x522B;&#x51FA;&#x73B0;&#x7684;&#x6B21;&#x6570;
sort=True&#x6392;&#x5E8F;&#xFF0C;ascending=True&#x5347;&#x5E8F;
series = df['&#x8BC4;&#x7EA7;'].value_counts(sort=True, ascending=True)
print(series)

字符串操作

df = pd.DataFrame({'movie_names': [' &#x590D;&#x4EC7;&#x8005;&#x8054;&#x76DF;4&#xFF1A;&#x7EC8;&#x5C40;&#x4E4B;&#x6218; \n\r', '\n\r&#x963F;&#x51E1;&#x8FBE; Avatar', '&#x6CF0;&#x5766;&#x5C3C;&#x514B;&#x53F7; Titanic '], 'director': ['&#x5BFC;&#x6F14;: &#x5B89;&#x4E1C;&#x5C3C;&#xB7;&#x7F57;&#x7D20; / &#x4E54;&#xB7;&#x7F57;&#x7D20;', '&#x8A79;&#x59C6;&#x65AF;&#xB7;&#x5361;&#x6885;&#x9686;', '&#x8A79;&#x59C6; &#x65AF;&#xB7;&#x5361;&#x6885;&#x9686;'], 'actor': ['&#x5C0F;&#x7F57;&#x4F2F;&#x7279;&#xB7;&#x5510;&#x5C3C; / &#x514B;&#x91CC;&#x65AF;&#xB7;&#x57C3;&#x6587;&#x65AF; / &#x9A6C;&#x514B;&#xB7;&#x9C81;&#x5F17;&#x6D1B;', '&#x8428;&#x59C6;&#xB7;&#x6C83;&#x8F9B; &#x987F; / &#x4F50;&#x4F0A;&#xB7;&#x7D22;&#x5C14;&#x8FBE;&#x5A1C; / &#x897F;&#x683C;&#x59AE;&#xB7;&#x97E6;&#x5F17;', '&#x83B1;&#x6602;&#x7EB3;&#x591A;&#xB7;&#x8FEA;&#x5361;&#x666E;&#x91CC;&#x5965; / &#x51EF;&#x7279;&#xB7;&#x6E29;&#x4E1D;&#x83B1;&#x7279; / &#x6BD4;&#x5229;&#xB7;&#x8D5E;&#x6069;'], 'type': ['&#x5267;&#x60C5; / &#x52A8;&#x4F5C; / &#x79D1;&#x5E7B; / &#x5947;&#x5E7B; / &#x5192;&#x9669;', '&#x52A8;&#x4F5C; / &#x79D1;&#x5E7B; / &#x5192;&#x9669;', '&#x5267;&#x60C5; / &#x7231;&#x60C5; / &#x707E;&#x96BE;']})
display(df)
print('*' * 40)

1. replace&#x66FF;&#x6362;&#x5B57;&#x7B26;&#x4E32;
s = df['movie_names'].str.replace(r'\s+', '', regex=True)
r'\s+'&#x662F;&#x5426;&#x4E3A;&#x6B63;&#x5219;&#x8868;&#x8FBE;&#x5F0F;
df['movie_names'] = s
display(df)

2. split&#x62C6;&#x5206;&#x5B57;&#x7B26;&#x4E32;
s = df['type'].str.split('/')
display(s)

小测试：统计上述各类型出现次数！

types=[j for i in list(s) for j in i]
pd.Series(types).value_counts()

Original: https://blog.csdn.net/qq_43779149/article/details/122586367
Author: 雾里看花花里看雾
Title: 基于Anaconda的pandas学习

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675557/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python scale标准化函数_python pandas标准化列进行回归

I have the following df: Date Event_Counts Category_A Category_B 20170401 982457 0 1 20170…

人工智能 2023年6月18日
0078
什么是L1和L2正则化在深度学习中的作用

什么是L1和L2正则化在深度学习中的作用？在深度学习中，正则化是一种用来限制模型复杂度并防止过拟合的技术。正则化通过引入惩罚项，使得模型在训练过程中尽量减小参数的大小。L1和L2…

人工智能 2024年1月1日
0031
PASCAL VOC2012数据集的下载及简单讲解

PASCAL VOC2012数据集的下载及简单讲解：了解voc数据集的格式每个文件夹是干嘛的https://blog.csdn.net/qq_30263737/article/d…

人工智能 2023年5月26日
0082
Kaggle Tabular Playground Series – Jan 2022 学习笔记1（数据分析）

试题地址：Tabular Playground Series – Jan 2022 简介：给出了两家商店在三个国家在2015年-2018年的三种产品的每天的销售量，要求…

人工智能 2023年7月16日
0065
NLP-文本向量化：Word Embedding 一般步骤【字符串-＞分词-＞词汇序列化-＞词汇向量化】

; 一、字符串文本的序列化在word embedding的时候，不会直接把文本转化为向量，而是先转化为数字，再把数字转化为向量，那么这个过程该如何实现呢？这里我们可以考虑把文本…

人工智能 2023年5月31日
0075
多个相机内外参标定详解[halcon]

本次讲述一个halcon实例，如何对多个相机参数进行标定。相机的标定流程一般由以下几个部分：相机参数的初始化->读取标定文件->读取标定板图像->进行标定-&gt…

人工智能 2023年7月28日
00110
RuntimeError_ Input type (torch.FloatTensor) and weight type (torch.cuda.FloatTensor)

方案一：检查网络和数据是否都在GPU上 RuntimeError:输入类型(torch.FloatTensor)和权重类型(torch.cuda.FloatTensor)应该相同，…

人工智能 2023年7月20日
0054
NodePiece: Compositional and Parameter-Efficient Representations of Large Knowledge Graphs

研究问题将自然语言处理的WordPiece技巧迁移到知识图谱中并提出NodePiece，从而用较少的子实体嵌入去建模大规模知识图谱上的实体嵌入，并增强模型的泛化性能。背景动机 …

人工智能 2023年6月1日
0072
论文总结：Efficient Long Sequence Encoding via Synchronization

Tranformer模型处理长输入序列的效率低下，从而会限制两种使用场景：1）对长度超过输入限制的单个长文本进行编码；2）联合多个文档进行编码（如多跳推理和多文档摘要）这是因为每…

人工智能 2023年5月28日
0067
使用Python实现单隐藏层神经网络的训练

文章目录 * – 1 实验内容 – 2 实验要求 – 3 实验原理 – + 多层感知机： + 前向传播与后向传播 – 4…

人工智能 2023年7月13日
0063
python-sklearn数据分析-线性回归和支持向量机（SVM）回归预测（实战）

注：本文是小编学习实战心得分享，欢迎交流讨论！话不多说，直接附上代码和图示说明。目录一、分段示例 1.导入必要的库 2.读取数据，查看数据基本信息 3.简单查看有无重复值 4….

人工智能 2023年7月3日
0057
设计模式学习（十七）：状态模式

设计模式学习（十七）：状态模式作者：Grey 原文地址：博客园：设计模式学习（十七）：状态模式 CSDN：设计模式学习（十七）：状态模式状态模式状态模式是一种行为型模式。…

人工智能 2023年6月29日
0068
Pytorch实现中文文本分类任务（Bert，ERNIE，TextCNN，TextRNN，FastText，TextRCNN，BiLSTM_Attention, DPCNN, Transformer）

中文文本分类，基于pytorch，开箱即用。神经网络模型：TextCNN，TextRNN，FastText，TextRCNN，BiLSTM_Attention, DPCNN, T…

人工智能 2023年7月21日
0055
图片主色提取

文章目录提取主色 * 1. RGB Or HSV 2. KMeans 自适应 3. 整体过程及代码 4. 结果后续提取主色 [TencentCloudSDKException…

人工智能 2023年6月2日
00100
pointconv pytorch modelnet40 点云分类结果可视化

文章目录前言环境 * 服务器环境本地环境准备工作 * 下载项目文件下载数据集训练预测 * 下载训练权重预测 – 部分代码解析可视化输出运行预测查看…

人工智能 2023年7月3日
00105
使用opencv的透视变换裁剪倾斜人脸

需求人脸检测以后，有了检测框，需要将眼睛扶正，并裁剪，然后resize成需要的大小。人脸检测结果如下：其中蓝色是检测框，内部的红色框是我根据长宽扩展的正方形，绿色框是根据眼睛倾斜…

人工智能 2023年7月19日
0073

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

基于Anaconda的pandas学习

基于Anaconda的pandas学习

Pandas安装

创建对象

创建Series对象

创建DataFrame对象

创建date_range

查看数据

获取数据

直接获取

索引获取

增删改数据

索引及缺失值操作

运算

字符串操作

大家都在看