Pandas处理CSV文件的常用技巧

2023年6月19日下午1:29 • 人工智能 • 阅读 93

Pandas处理CSV文件，分为以下几步：

读取Pandas文件
统计列值出现的次数
筛选特定列值
遍历数据行
绘制直方图(柱状图📊)

读取Pandas文件

df = pd.read_csv(file_path, encoding='GB2312')
print(df.info())

注意：Pandas的读取格式默认是UTF-8，在中文CSV中会报错：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd1 in position 2: invalid continuation byte

修改编码为 GB2312 ，即可，或者忽略encode转义错误，如下：

df = pd.read_csv(file_path, encoding='GB2312')
df = pd.read_csv(file_path, encoding='unicode_escape')

df.info()显示df的基本信息，例如：

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3840 entries, 0 to 3839
Data columns (total 16 columns):

 0   实验时间批次         1280 non-null   object
 1   物镜倍数           1280 non-null   object
 2   板子编号           1280 non-null   object
 3   板子编号及物镜倍数      1280 non-null   object
 4   图名称            1280 non-null   object
 5   细胞类型           1280 non-null   object
 6   板子孔位置          1280 non-null   object
 7   孔拍摄位置          1280 non-null   int64
 8   细胞培养基          1280 non-null   object
 9   细胞培养时间（小时）     1280 non-null   int64
 10  扰动类别           1280 non-null   object
 11  扰动处理时间（小时）     1280 non-null   int64
 12  扰动处理浓度（ug/ml）  1280 non-null   float64
 13  标注激活(1/0)      1280 non-null   int64
 14  unique         1280 non-null   object
 15  tvt            1280 non-null   int64
dtypes: float64(1), int64(5), object(10)
memory usage: 170.0+ KB

遍历数据行

for idx, row in df_plate1_lb0.iterrows():，通过row[“列名”]，输出具体的值，如下：

for idx, row in df_plate1_lb0.iterrows():
    img_name = row["图名称"]
    img_ch_format = img_format.format(img_name, "{}")
    for i in range(1, 7):
        img_path = os.path.join(plate1_img_folder, img_ch_format.format(i))
        img = cv2.imread(img_path)
        print('[Info] img shape: {}'.format(img.shape))
    break

输出：

[Info] img shape: (1080, 1080, 3)
[Info] img shape: (1080, 1080, 3)
[Info] img shape: (1080, 1080, 3)
[Info] img shape: (1080, 1080, 3)
[Info] img shape: (1080, 1080, 3)
[Info] img shape: (1080, 1080, 3)

绘制直方图(柱状图📊)

统计去除背景颜色的灰度图字典


pix_bkg = np.argmax(np.bincount(img_gray.ravel()))
img_gray = np.where(img_gray  pix_bkg + 2, 0, img_gray)
img_gray = img_gray.astype(np.uint8)

hist = cv2.calcHist([img_gray], [0], None, [256], [0, 256])
hist = hist.ravel()

hist_dict = collections.defaultdict(int)
for i, v in enumerate(hist):
    hist_dict[i] += int(v)

hist_dict[0] = 0

绘制柱状图：

plt.subplots：设置多个子图，figsize背景尺寸，facecolor背景颜色
ax.set_title：设置标题
ax.bar：x轴的值，y轴的值
ax.set_xticks：x轴的显示间隔
plt.savefig：存储图像
plt.show：展示

fig, ax = plt.subplots(1, 1, figsize=(10, 8), facecolor='white')
ax.set_title('channel {}'.format(ci))
n_bins = 100
ax.bar(range(n_bins+1), [hist_dict.get(xtick, 0) for xtick in range(n_bins+1)])
ax.set_xticks(range(0, n_bins, 5))

plt.savefig(res_path)
plt.show()

效果：

Original: https://blog.csdn.net/u012515223/article/details/125073632
Author: SpikeKing
Title: Pandas处理CSV文件的常用技巧

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/639234/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器视觉软件开发入门（1）

机器视觉软件方面的教材很多，有关于算法层面的，有应用层面的。对于大多数用户来说学习应用就足够了，主要是解决问题啊我们也是从解决问题方面来入手，层层深入。但是许多学习者不知道该从哪里…

人工智能 2023年6月20日
0078
【YOLOv5-6.x】设置可学习权重结合BiFPN（Add操作）

修改yaml文件（以yolov5s为例）本文以 yolov5s.yaml为例进行修改，修改模型配置文件时要注意以下几点：这里的yaml文件只修改了一处，也就是将19层的Conc…

人工智能 2023年6月16日
0082
Attention is all you need?

论文地址：attention is all you need 论文代码：https://paperswithcode.com/paper/attention-is-all-you-…

人工智能 2023年5月28日
0057
彻底卸载并重装Anaconda环境与Python的方法

本文介绍在 Windows平台下，彻底删除 Anaconda环境与其自带 Python版本，并进行重新安装的方法。最近，由于原有 Anaconda环境中的部分第三方库出现了冲突的…

人工智能 2023年7月29日
0094
做了8年前端，感谢那些优秀的后端，陪伴我工作，教会我成长

☆ 前段时间由于一时的头脑发热，写了一篇《做了8年前端，细说那些曾经让你浴霸不能的后端》的博客，虽然每个细节也都属实吧，但始终是一些负能量的东西，建议大家不要去看了，今年互联网情况…

人工智能 2023年7月31日
00143
【计算机视觉】新冠肺炎COVID-19 CT影片阳性检测，感染区域分割，肺部分割，智慧医疗实践，医疗影像处理示例

引言新型冠状病毒肺炎（Corona Virus Disease 2019，COVID-19），简称”新冠肺炎”，世界卫生组织命名为”2019冠…

人工智能 2023年5月26日
0085
【JavaSE】继承

文章目录 1. 如何继承 2. 子类如何访问父类的成员 * 2.1 子类中访问父类的成员变量 2.2 子类中访问父类的成员方法 3. super关键字 4. 如何写构造方法前言：…

人工智能 2023年6月27日
0049
Anaconda已下载Pytorch但是无法在python环境中import torch

1.背景最近搭建Pytorch环境，但是安装好了以后反复出现如下问题无法在python环境下import torch,但是我使用pip list命令发现我是已经下载了的 ; 2….

人工智能 2023年7月5日
0072
MATLAB标定工业相机及应用于PNP测距的注意事项

一、前言因为项目采用PNP测距，需要知道工业相机的内参矩阵和畸变矩阵，所以采用MATLAB自带的标定应用CameraCalibrator进行标定工业相机（以迈德威视相机为例）。 …

人工智能 2023年7月19日
0077
yolov5和rknn模型的问题

rknn官方目前1.7.0对新算子的支持还没跟上, 需要将yolov5中的模型做下面的改变,改变之后重新训练新的模型. 再去转onnx, 然后转rknn (吐槽一下, rknn官…

人工智能 2023年6月24日
0090
03_使用决策树预测隐形眼镜类型

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月31日
0068
动态网络加速之早退机制:DeeBert[2020ACL] 与 FastBert[2020ACL]

这篇文章主要介绍两篇文章关于动态网络中的早退机制，有意思的是两篇文章都出自2020年ACL，并且两者有很多相似点。两篇论文地址如下： DeeBert FastBert 动机由于大…

人工智能 2023年5月28日
0070
YOLOv7训练自己的数据集(超详细）

介绍 2022年7月，YOLOv7来临，论文链接：https://arxiv.org/abs/2207.02696 代码链接： GitHub – WongKinYiu…

人工智能 2023年7月25日
0092
python pct_change_在pct_change（）和缺失值之前重新采样

我有一个数据帧：import pandas as pd df = pd.DataFrame([[‘A’, ‘G1’, ‘…

人工智能 2023年7月7日
0099
毕业设计深度学习机器视觉车位识别车道线检测 – python opencv

0 前言 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求…

人工智能 2023年6月18日
0079
图像兴趣点检测与描述的深度学习方法总结

图像的兴趣点（关键点、特征点）检测和描述往往是图像配准、相机标定、场景识别、目标跟踪的首要步骤，是计算机视觉研究的重要课题。检测子的目的是为了提取可匹配的兴趣点，而描述子可用于匹…

人工智能 2023年6月20日
00126

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas处理CSV文件的常用技巧

读取Pandas文件

遍历数据行

绘制直方图(柱状图📊)

大家都在看