python列表反序后为什么结果是nonf_dataframe,python,numpy 问题索引1

2023年8月22日上午9:11 • Python • 阅读 72

20200724

data = data.apply(pd.to_numeric, errors=’ignore’)

应用时候忽略错误

20200719

TypeError: ‘Series’ objects are mutable, thus they cannot be hashed

result_quan.iloc[result_quan[‘相似度’]==1,’包含’]=1

loc没写

20200707

https://editor.csdn.net/md?articleId=107187574

对列表元素去重并保持原来顺序

20200624

https://blog.csdn.net/weixin_43368684/article/details/88756103

列中不包含某个字符

df[df[“col”].str.contains(‘this’|’that’)==False]

df = pd.DataFrame({“A”: [“Hello”, “this”, “World”, “apple”]})

df[df[‘A’].str.contains(“Hello|World”)==False]

1 this

3 apple

20200618

https://www.cnblogs.com/liulangmao/p/9301032.html

shift

pandas DataFrame.shift()函数可以把数据移动指定的位数

period参数指定移动的步幅,可以为正为负.axis指定移动的轴,1为行,0为列.

20200527

空表添加行数据

if (biaonr.shape[0]

https://blog.csdn.net/roamer314/article/details/80886075

20200518

zdlx=[ i if i in biaonr.columns else ” for i in zdlx.tolist()]

zdlx=sorted(zdlx)

zdlx=set(zdlx)

zdlx=list(zdlx)

zdlx=zdlx[1:]

列表中剔除某些元素

python列表反序后为什么结果是nonf_dataframe,python,numpy 问题索引1

列表追加转为dataframe

20200516

[ i if ‘pb’ in i else ” for i in ycjg.columns ]

列表生成式

20200515

perr=zengq.iloc[i:i+1,:]

加个冒号直接取出来就是dataframe 不是series 不需要再转换

fg[‘col_name’]=fg[‘col_name’].apply(lambda x:x.lstrip())

fg[‘comments’]=fg[‘comments’].apply(lambda x:x.lstrip())

去除单元格左边空格

20200514

dataframe 累乘是向下累乘

当单元格的值是列表或者元组的时候,分组聚合运算会出问题

In [25]: gb = df.groupby(‘gender’)

In [26]: gb.

gb.agg gb.boxplot gb.cummin gb.describe gb.filter gb.get_group gb.height gb.last gb.median gb.ngroups gb.plot gb.rank gb.std gb.transform

gb.aggregate gb.count gb.cumprod gb.dtype gb.first gb.groups gb.hist gb.max gb.min gb.nth gb.prod gb.resample gb.sum gb.var

gb.apply gb.cummax gb.cumsum gb.fillna gb.gender gb.head gb.indices gb.mean gb.name gb.ohlc gb.quantile gb.size gb.tail gb.weight

分组聚合运算类型

分组累乘之后索引会自动改成数字序列?

https://blog.csdn.net/zxyhhjs2017/article/details/93498104?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-30.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-30.nonecase

累乘

dataframe 中某列是元组使得dataframe 不能显示出来?

gp=duiying.groupby([‘qian’,’hou’],as_index=True)

pltj=gp[‘hou’].count()

pltj=pltj.to_frame(name=’num’)

pltj.index=range(pltj.shape[0])

pltj[‘index’]=list(pltj.index)

分组统计之后多层索引转换为列

20200423

求各行的和各列的和

https://my.oschina.net/u/2306127/blog/1920367

DataFrame数据预览

计算各列数据总和并作为新列添加到末尾

df[‘Col_sum’] = df.apply(lambda x: x.sum(), axis=1)

计算各行数据总和并作为新行添加到末尾

df.loc[‘Row_sum’] = df.apply(lambda x: x.sum())

最终数据结果：

data_=data_[data_.columns[0:-1]]

通过列名取出来一列还是dataframe 不用再从series转换

https://www.cnblogs.com/zhoudayang/p/5564219.html

https://blog.csdn.net/cow66/article/details/100119058

重点

同时对多列进行操作

ycjg[str(j)+’pb’] = ycjg.apply(lambda x:x[str(j)] ==x[‘mubc’],axis=1)

apply括号里面的x 代表前面传入的是 ycjg dataframe

要每个元素单独比较 axis=1 每列的每个元素对应比较

axis=0 每行的元素对应比较

多列比较两列比较两列操作

df[‘duplication’]=df.apply(lambda x: 1 if ((x[0]==x[1])) else 0 ,axis=0 )

只能是X[0] 这种形式,不能用x[‘mubc’]的形式

df[df[‘target’]==’脉搏’]

直接df通过true false 来筛选的时候,筛选的是整行

20200414

字符转换为数值

https://www.cnblogs.com/sench/p/10134094.html

from sklearn import preprocessing

le = preprocessing.LabelEncoder() #获取一个LabelEncoder

le = le.fit([“male”, “female”]) #训练LabelEncoder, 把male编码为0，female编码为1

sex = le.transform(sex) #使用训练好的LabelEncoder对原数据进行编码

print(sex)

20200413

行追加用append,concat

列插入用 insert

X.iloc[:, i_outlier] = X.iloc[:, i_outlier].astype(float)

类型转换花的时间很多！

20200410

https://blog.csdn.net/uvyoaa/article/details/79157786

分组取前n行

https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html

groupby api

grouped = df.groupby([‘class’]).head(2)

goupby之后就是对每类分别操作?

https://blog.csdn.net/The_Time_Runner/article/details/84076716

set_index:删除原来索引,并用新的数字列覆盖索引

reset_index:drop false 将原来的索引加入当前df作为列同时用数字改写行索引

drop true 不作为列同时用数字改写行索引

reset_index()

test_data.groupby(‘release_year’)[‘genre’].value_counts()

分组对某列计数

注意筛选条件最终的表现形式是True或False

看起来是相同的但是实际上有个有空格,导致分组统计的时候

会出现两个值

gb=df.groupby([‘target’],as_index=True)

gb_count=gb.size() 是series

对分组列本身值统计计数如图在上

不是size 而count的结果会把所有列索引保留

https://blog.csdn.net/meiqi0538/article/details/82533456

series 追加,添加值

列名的更改

df.rename(columns={‘原列名’：’新列名’}, inplace=True)

append,concat 出问题基本上就是两张表的行或者列索引

不一致导致的

20200408

ValueError: column index (256) not an int in range(256)

https://www.cnblogs.com/z-x-y/p/9639702.html

sigle_col=group.loc[i_gp, :]

sigle_col=(sigle_col.to_frame()).T

series 转dataframe

20200407

(df_test.loc[df_test.loc[:,’列1′]==’你好’,’列1′])=’大哥’

筛选赋值注意大圆括号不能少

series或者dataframe 才能赋值如果加iloc[0] 反而不能赋值

20200326

分组排序

df=df.groupby(‘LABEL1’).apply(lambda x:x.sort_values(‘行数’)).reset_index(drop=True)

test2=df_test.sort_values([‘列2′,’列3’],ascending=[True,True])

两种效果是一样的

20200325

statis.to_excel(path + ‘统计结果_’ + str(i_sam) + ‘.xls’)

前面的to_excel 如果和后面的xls 不对应的话

输出就会像上面的错误

dataframe 模糊的是df 进行比较没取到具体的值

20200322

def dot_index(x):

dot_index=re.search(r’.’,str(x)).span()[0]

return dot_index

df[‘len’] = df.iloc[:, i].apply(lambda x: 1 if ((x!=0)&(int(str(x)[(dot_index(x)+1):]) ==0) & (len(str(int(x)))==1)) else 2)

某个字符所在的索引,判断是否是个位数

for i_outlier in tqdm(range(df_.shape[1])):

print(i_outlier)

min_ = np.percentile(df_.iloc[:, i_outlier], 0.5, interpolation=’lower’)

max_ = np.percentile(df_.iloc[:, i_outlier], 99.5, interpolation=’higher’)

filter=df_.iloc[:, i_outlier][(df_.iloc[:, i_outlier] > max_) | (df_.iloc[:, i_outlier] < min_)]

df_.iloc[:, i_outlier][(df_.iloc[:, i_outlier] > max_) | (df_.iloc[:, i_outlier] < min_)] = 0

dataframe 大部分都是索引问题

如果for 的指和索引相同且索引存在重复时候,第四行将会改变所有相同的索引

20200321

min_ = np.percentile(df_.iloc[:, i_outlier], 0.5, interpolation=’lower’)

max_ = np.percentile(df_.iloc[:, i_outlier], 99.5, interpolation=’higher’)

filter=df_.iloc[:, i_outlier][(df_.iloc[:, i_outlier] > max_) | (df_.iloc[:, i_outlier] < min_)]

有可能取出来是空值,最小和最大的值的个数都很多

这样就筛选不出来

20200320

df_sample.loc[0seg:1(seg-1),str(i_1000)]=fuzhi #划分出的数据加到sample表,复制用dataframe不行,series 才可, 左右两边形式相同

series=series

dataframe=dataframe

20200319

df.loc[True]

df[True] 二者皆可以

20200319

df = df.loc[~df.iloc[:, 0].str.contains(‘心率’), :]

series 判断是否包含某些字符

20200318

df=df[~df[col_name[0]].isin([‘0’, ‘0.0’, ”])]

判断某列是否含有某值

20200317

X_train = df_train.iloc[:,0:-1]

索引-1 为最后一列

20200313

空值

isna() 不能识别”

替换成”,筛选的时候用 aa==”

excel里面的空白,读到dataframe 里面是不存在的

无法显示出来的,比如本来一列有10行,有两个空白

读入之后就只剩下8个数据,两个空白无法显示出来

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

(sigcol0.iloc[0] + sigcolna.iloc[0]) + sigcol00.iloc[0] > df.shape[0] * 0.5

sigcol0 是series 不能 sigcol0>15 不能直接判断

必须把值取出来再判断

apply 只适合于apply

20200311

https://blog.csdn.net/qq_22238533/article/details/70917102

随机打乱

concat 合并行或者

列索引不相同就会产生错误

df.notna() 非空值

dataframe 整体选择

df=df[df!=0] 零的部分变成nan,因为其要保存整体索引的不变

df=df[df.isna()] 这样好像是不起作用的

即使是按列来操作也是不行的,因为其要按最多值的列的索引

来concat 最终还是达不到只删除空值,非空值自动靠拢的目的

为什么非空值选不出来

20200310

指定位置插入列

df_minmax.insert(loc=0,column=’784′,value=”)

df_sample=pd.DataFrame({‘0’:[0]seg},index=[0]seg)

创建

正则要删除 “…” 主要”.”是通配符,需要转义

re.sub(r’…’, ‘.’, x) 替换的部分就不用转义了 in_file=in_file.loc[in_file.iloc[:,0]!= ‘.’] #去掉纯粹的点号

后面的等号是指整个字符为一个点号

pandas series 方法

df2 = df[df[columnname].str.contains(area)] 就是选择包含area变量中的字符串的行。

20200309

quantity=former_data.loc[former_data[‘target’]==target_,’quantity’]

dataframe 筛选

只有loc 才有上面那种用法相当于前面指定行,后面指定列

df整体只能是整行整行的筛选

csv 没有行数限制

xlsx 最高一百多万行

20200306

写条件判断的时候,多条件组合的所有情况

还有最边上的情况要考虑完全

xlsx输出变成了这样,csv 输出则为正常

df.sample.columns = [[df[‘target’].iloc[i]]]

columns 等于的值对象是列表的列表

numpy,ndarray,dataframe 行列的对应

20200305

删除 test_dict_df.drop([‘id’],axis=1)

dataframe 的坑

data_df=data_df.dropna(thresh=0.5*data_df.shape[0],axis=0)

这里的阈值一定要设置不然一旦有一个值为空整个都会被删掉

20200304

df.iloc[:, i_outlier][(df.iloc[:,i_outlier]>max_) or (df.iloc[:,i_outlier]or 的前后必须加括号不然就会默认 max _和or运算

对每一行和每一列进行循环处理好像只能for循环

而对每一行或者每一列里面的每个值进行处理则可以增加一行

或者一列来处理不用for循环

20200303

iloc 不能用于扩展,会报溢出错误

而loc可以直接添加行或者列

dataframe 的index 本身是个array 对象

https://blog.csdn.net/qwertyuiop5rghar/article/details/84454670

增加行只能用 loc？不能用iloc

扩充数据的时候用增加行比增加列容易

http://www.voidcn.com/article/p-fnoxvztw-bxs.html

用字典随机填充数据

填充的时候前后的形状要对齐

缺失值填充

https://blog.csdn.net/donghf1989/article/details/51167083/

20200302

def sort_handling(self, df):

df_=df.astype(float)

for i_col in df_.columns:

temp_sort=df_.loc[:, i_col].sort_values()

temp_sort.index=range(temp_sort.shape[0])

df_.loc[:, i_col] = temp_sort #排序后索引没对齐需要重新更改索引

每列单独排序

df_.loc[:, i_col] = df_.loc[:, i_col].sort_values() #排序后索引没对齐需要重新更改索引

索引对不齐执行不成功需要更改索引

20200302

找出nan以及inf

https://blog.csdn.net/alanguoo/article/details/77198503

20200228

numpy数据类型dtype转换

https://www.jianshu.com/p/a1da90edf87f

dataframe 所有值筛选

df=df[df!=0]

20200226

在类里面调用其中的某个函数时候用self.aa()

不能是在类内部,应该是在某个函数内部才能调用self

字符到数值的映射

https://blog.csdn.net/liulunyang/article/details/88089962

dataframe 增加列 insert

https://blog.csdn.net/W_weiying/article/details/85247436

dataframe array 相互转换

20200225

df[‘舒张压.17’]=df[‘舒张压.17’].apply(lambda x: ” if 1-bool(x.isdecimal()) else x)

1-bool(a) True 和 False的转换

if 的前面空值,直接写”,不用写x=” 隐含已经有x=了

https://blog.csdn.net/laoyuanpython/article/details/94214189

判断是否为数值

df_sort[‘身高’][df_sort[‘身高’]

Original: https://blog.csdn.net/weixin_28846405/article/details/113507195
Author: 桃花小鹿
Title: python列表反序后为什么结果是nonf_dataframe,python,numpy 问题索引1

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/756517/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python dataframe 和函数

python dataframe函数主要是介绍dataframe和python常数常用的 from cmath import isnan from typing import L…

Python 2023年8月7日
0059
pytest：hooks

pytest运行的整个过程中, 充满了各种Hook函数覆写Hook函数虽然无法改变pytest的执行流程, 但可以实现用户自定义行为比如collection阶段, 可以不局限于…

Python 2023年9月12日
0038
0021-python学习笔记：使用os库制作简单的自动执行程序

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年9月24日
0044
java多线程的基本操作

java多线程的基本操作进程时程序的一次动态执行的过程，需要经历代码加载、执行、执行完毕的一个完整的过程，这个过程也是进程从产生到结束的过程。多进程操作系统能同时运行多个进程，…

Python 2023年11月5日
0037
基于Tushare + bacaktrader的多组合量化回测

首先确定项目目的：基于Tushare建立一个多组合的量化策略。策略：1.趋势+择时算法：选择SH300每月累积涨幅排名靠前的10只股票；然后择时，计算在金叉，死叉点进行买卖。…

Python 2023年8月20日
0047
pandas.DataFrame.interpolate函数方法的使用

Pandas dataframe.interpolate()功能本质上是用来填充NA DataFrame 或系列中的值。但是，这是一个非常强大的功能，可以填补缺失的值。它使用各种插…

Python 2023年8月7日
0050
python plt.subplot_Python Matplotlib.pyplot.subplot()用法及代码示例

subplot()功能将子图添加到指定网格位置处的当前图形。它类似于subplots()函数，但是与subplots()不同，它一次添加一个子图。因此，要创建多个图，您将需要使用s…

Python 2023年9月6日
0094
pandas表合并

Pandas的 merge，相当于Sql的 join，将不同的表按key关联到一个表 merge语法： pd.merge(left,right,how=’inner’,on=Non…

Python 2023年8月16日
0066
pygame需要python基础吗_Python基础总结16（pygame应用）

1、图片显示 (1)set_mode(size) –> size是元祖：(长，宽), 单位是像素 (2)fill(颜色) –> 填充指定的颜色，…

Python 2023年9月25日
0044
web服务下同时启动定时任务

在web服务下是否可以启用定时任务？在2021年的时候其实就有这个疑问了，当时也没有去验证，今天找了个时间测试了一下，结果是可行的，就是程序结构设计会比较麻烦一些。验证方法其实很简…

Python 2023年8月13日
0079
硅谷华人天才CEO被开除，是否会有奇迹发生？

目录 1、事件始末 2、侯晓迪是谁？ 3、全球自动驾驶卡车领军者 4、侯晓迪公开信 5、会有奇迹发生？ 1、事件始末著名自动驾驶卡车公司图森未来（TuSimple, TSP）10…

Python 2023年10月8日
0043
python如何给某列数据打标签_Pandas/Matplotlib在一列上注释，在另一列上添加标签…

我想把我的情节一年一年地注释在一个分散的情节里。此外，我还想在pandas数据帧中的另一列上标记(添加图例)，在本例中是列：ds[‘label’]。我已经设…

Python 2023年8月21日
0040
Pytest框架 — 06、Pytest的Fixture（部分前后置）(一)

1、前言 2、Fixture的优势 3、Fixture的定义与调用（1）定义方法（2）参数简要说明（3）调用方法 1、前言 fixture中文名翻译为夹具，作用与上一篇中 s…

Python 2023年5月23日
0089
Bresenham直线算法

Bresenham直线算法 Bresenham概述根据前一个已知坐标((x_i,y_i))进行增量运算到((x_{i+1},y_{i+1}))主位移方向上每次递增一个单位，另一个…

Python 2023年6月6日
0078
Flask – Python 从零开始上手 – 部署腾讯云轻量应用服务器

关于这个轻量服务器的设置就不说了，按部就班来就OK了，我选择的是，宝塔Linux面板，方便管理。 * 点后面的设置进入python项目管理。* 添加项目,如下图设置，路径文件需…

Python 2023年8月15日
0066
python学生成绩管理系统【完整版】

✅作者简介：大家好我是hacker707,大家可以叫我hacker，新星计划第三季python赛道Top1🏆📃个人主页：hacker707的csdn博客🔥系列专栏：python💬推…

Python 2023年7月31日
0099

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python列表反序后为什么结果是nonf_dataframe,python,numpy 问题索引1

大家都在看