使用Python中的Pandas库进行语料处理（词频统计、清洗数据、选取满足条件的对应行写入文件等）

2023年7月17日上午7:15 • 人工智能 • 阅读 88

import pandas as pd
import numpy as np
import json,math
import random
from tqdm import tqdm
from collections import Counter ,defaultdict
import re,nltk
import re
import pandas as pd
import csv

df=pd.read_csv("导出印地语数据1000条.csv")
df.title

使用Python中的Pandas库进行语料处理（词频统计、清洗数据、选取满足条件的对应行写入文件等）

df

df.columns

for x in range(32,128):
    print(f'{chr(x)}：{ord(chr(x))}',end=' ')
<!--
    print()
<!--

//统计词频
cnt_word=Counter()
for x in tqdm(df['body']):
    cnt_word.update(x.split(' '))
cnt_word.most_common()


cnt_word=Counter()
for x in tqdm(df['body']):
    cnt_word.update(x.split(' '))
cnt_word.most_common()

print(len(cnt_word))

去除特殊符号

def sub_specialspecial1(s):

    pattern1=re.compile('[\x8b-\xbd]')
    pattern2=re.compile('[\u2002-\uffff]')
    pattern3=re.compile(r'🇷🇺🌟🌸🎀🎥🏆👉💜💪😉😍🙃🙌🙏🦄')

    s=pattern3.sub(' ',pattern2.sub(' ',pattern1.sub(' ',s)))
    s=re.sub(r'([\u0021-\u0040]|[\u007b-\u007e])',r' \1 ',s)
    s=re.sub('( ){2,}|\t|\n',' ',s)
    s=re.sub('( ){2,}|\t|\n',' ',s)
    return s
df['body']= df['body'].apply(sub_specialspecial1)


cot=Counter()
for x in tqdm(df['body']):
    for s in x:
        cot.update(s)

dd=sorted(cot.keys())
dd

for x in dd:
    print(f'{x}：{ord(x)}',end=' ')
    print(hex(int.from_bytes(x.encode('utf-8'),byteorder='big')))

a='a'

print(a.encode('utf-8'))

decode与encode问题：python中的encode()和decode()函数

import sys
sys.getdefaultencoding()

ord('a')

chr(2409)

s=' !"#$%&\'()*+,-./:;?@[\\]中文^_`da da k;'
re.sub(r'([\u0021-\u0040]|[\u007b-\u007e])',r' \1 ',s)

df_all=pd.read_csv("导出印地语数据.csv",chunksize=10000)

chunksize分块读取，用于大文件的读取
数据处理：1 用pandas处理大型csv文件 2 使用Pandas分块处理大文件 3 分块读取

df_all.title

dic={}
for i in tqdm(df_all["category2"]):
    if i in dic:
        dic[i]+=1
    else:
        dic[i]=1

cnt=0
for i in dic:
    if dic[i]>5:
        cnt+=1
        print(i,dic[i])
print(cnt)

使用tqdm()可以显示进度条

将category2列中满足条件的数据的对应行，若该行body列数据满足64

Original: https://blog.csdn.net/GCTTTTTT/article/details/121870643
Author: GCTTTTTT
Title: 使用Python中的Pandas库进行语料处理（词频统计、清洗数据、选取满足条件的对应行写入文件等）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/698142/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【C语言】深剖字符串函数和内存函数

文章目录 0. 前言 1. 字符串操作函数 * 1.1 长度不受限制的字符串函数 – 1.1.1 strlen + 函数细节使用方法模拟实现 1.1.2 strcp…

人工智能 2023年5月30日
0078
使用Python分析餐厅订单数据

相信很多小伙伴都多少了解过Python爬虫，如果没了解爬虫，建议你先去看我的爬虫入门，一片博客带你简单爬虫入门，但是不知道小伙伴们是否思考过我们爬取数据的目的，简单来说，我们通过网…

人工智能 2023年7月6日
0074
【OpenCV 例程200篇】209. HSV 颜色空间的彩色图像分割

OpenCV 例程200篇总目录【youcans 的 OpenCV 例程300篇】209. HSV 颜色空间的彩色图像分割 5.1 HSV 颜色空间的彩色图像分割 HSV 模型…

人工智能 2023年6月17日
0076
是否有与模型部署相关的监控和日志记录机制

问题背景在机器学习模型的部署过程中，一个重要的问题是是否有与模型部署相关的监控和日志记录机制。监控和日志记录能够提供有关模型性能、模型输入输出以及异常情况的信息，对于模型的部署和…

人工智能 2024年1月4日
0031
论文：多智能体编队控制综述

目录多智能体编队基本分类多智能体编队的其他分类方式基于位置的编队控制：基于位移的编队控制基于距离的编队控制基于无向图的双积分模型：多智能体编队基本分类 &#x…

人工智能 2023年6月10日
00111
关于安装pytorch的简单步骤及一些问题解决

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月20日
0052
一文速学-时间序列分析算法之一次移动平均法和二次移动平均法详解+实例代码

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月4日
0058
祝福视频生成器（一图一文AI生成）

新年到，祝福来你还在用简单的话祝福你吗？ [En] Are you still using simple words to wish you well? 你还在为拜年视频发愁吗？…

人工智能 2023年5月23日
0097
Python知识点（史上最全）

Python期末考试知识点（史上最全） ✅作者简介：大家好我是编程ID📃个人主页：编程ID的csdn博客系列专栏：python💬推荐一款模拟面试、刷题神器👉点击跳转进入网站Pyth…

人工智能 2023年6月3日
0088
pytorch yolo5+Deepsort实现目标检测和跟踪

yolo是一种运行速度很快的目标检测AI模型，目前最新版本是yolov5，最大可处理1280像素的图像。当我们检测出图像中目标后，把视频分解成多幅图像并逐帧执行时，可看到目标跟踪框…

人工智能 2023年6月17日
0074
强化学习-学习笔记14 | 策略梯度中的 Baseline

本篇笔记记录学习在策略学习中使用 Baseline，这样可以降低方差，让收敛更快。 14. 策略学习中的 Baseline 14.1 Baseline 推导在策略学习中，我们…

人工智能 2023年6月4日
0072
matplotlib: AttributeError:‘DataFrame‘ object has no attribute ‘xx‘

画图的时候，发现bug：读取data文件发现没有相应的属性。问题在：csv文件的数据格式不对吧，正确格式应该为： “”,”Education&…

人工智能 2023年7月6日
0075
树莓派视觉小车 — OpenCV巡线(HSL色彩空间、PID)

目录试错试错1：形态学处理试错2：HSV色彩空间基础理论 1、HSV与HSL色彩空间 2、PID调节一、OpenCV图像处理 1、在HSL色彩空间下得到二值图 2、对二…

人工智能 2023年6月18日
0087
【附源码】Python计算机毕业设计企业人事管理系统

项目运行环境配置：Pychram社区版+ python3.7.7 + Mysql5.7 + HBuilderX+list pip+Navicat11+Django+nodejs。 …

人工智能 2023年6月28日
0082
【自然语言处理（NLP）】基于Skip-gram实现Word2Vec

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月26日
0046
(HDFS)搭建eclipse搭建hadoop开发平台以及hdfs api调用——大数据分析及其可视化4

在linux下成功的启动hadoop集群后回到windows下搭建eclipse开发平台 1.安装hadoop插件右击图表选择属性打开文件所在位置进入plugins文件夹…

人工智能 2023年7月16日
0043

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

使用Python中的Pandas库进行语料处理（词频统计、清洗数据、选取满足条件的对应行写入文件等）

大家都在看