用Python 处理文本数据

2023年6月19日下午6:59 • 人工智能 • 阅读 91

用Python 处理文本数据

前言

HI，好久不见，今天是关闭朋友圈的第60天，我是野蛮成长的AC-Asteroid。
人生苦短，我用Python,通过短短两周时间自学，从基础知识到项目实践，在这个过程中深刻体会到这款语言的魅力，今天带来一个有趣的项目，用Python处理文本数据，一起来看看今天的问题吧。

题目一用python处理文本数据

实验目的：
熟悉python的基本 数据结构，以及文件的输入与输出。
实验数据：
利用xxxx年xx机器学习会议的评测数据和评测任务，数据包括训练集和测试集，评测任务为通过给定的训练数据，预测测试集中的关系是正例还是负例，在每个样本最后给出1或者0。
数据描述如下，第一列为关系类型，第二列和第三列为人名，第四列是标题，第五列是关系为正例还是负例，1为正例，0为负例；第六列表示训练集。

事件人物1人物2标题关系（0 or 1)训练集

测试集描述如下图，格式基本与训练集类似，唯一不同的是第五列没有关系是正例还是负例的标记。

关系人物1人物2事件

实验内容：

对训练集数据进行处理，只留下前面五列，输出文本命名为exp1_1.txt。
在第一步得到的数据的基础上对19类关系进行分类，生成的文本存放在exp1_train文件夹下，按照关系类别出现的顺序，第一个关系类别的数据存放在1.txt中，第二个关系类别存放在2.txt中，直到19.txt。
测试集按照训练集的19个类别的顺序将各个样本按照关系类别归类，即相同关系类型的数据放到一个文本文件中，同样生成19个类别的测试文件，格式仍旧和测试文件保持一致。存放在exp1_test文件夹下，每个类别的文件仍旧命名为1_test.txt，2_test.txt…

同时对每个样本在原测试集中出现的位置进行记录，和19个测试文件一一对应起来。比如第一类”传闻不和”的每个样本在原文中处于第几行，在索引文件中进行记录，保存在文件index1.txt，index2.txt….

解题思路：

第一题是考察我们文件操作与列表的知识，主要考察的难点是对new文件的读取，根据要求处理后在生成一个txt文件，让我们看一下具体的代码实现：

import os

list = []
with open("task1.trainSentence.new", "r",encoding='xxx') as file_input:
    with open("exp1_1.txt", "w", encoding='xxx') as file_output:

        for Line in file_input:
            arr = Line.split('\t')
            if arr[0] not in list:
                list.append(arr[0])
            file_output.write(arr[0]+"\t"+arr[1]+"\t"+arr[2]+"\t"+arr[3]+"\t"+arr[4]+"\n")
file_input.close()
file_output.close()

第二题依旧考察了文件操作，在题目一生成的文件基础上，按照同一类型的事件对事件进行分类，是否能高效的分组需要利用循环条件来解决，我们来看看具体的代码实现

import os
file_1 = open("exp1_1.txt", encoding='xxx')
os.mkdir("exp1_train")
os.chdir("exp1_train")
a = file.readline()
arr = a.split("\t")
b = 1
file_2 = open("{}.txt".format(b), "w", encoding="xxx")
for line in file_1:
    arr_1 = line.split("\t")
    if arr[0] != arr_1[0]:
        file_2.close()
        b += 1
        f_2 = open("{}.txt".format(b), "w", encoding="xxx")
    arr = line.split("\t")
    f_2.write(arr[0]+"\t"+arr[1]+"\t"+arr[2]+"\t"+arr[3]+"t"+arr[4]+"\t""\n")
f_1.close()
f_2.close()

将训练集的19个类别按照人物的关系进行进一步的分类，我们可以通过字典对数据进行遍历，查找关系，把关系相同的内容放到一个文件夹中，不同则新建一个。

import os

with open("exp1_1.txt", encoding='xxx') as file_in1:
    i = 1
    arr2 = {}
    for line in file_in1:
        arr3 = line[0:2]
        if arr3 not in arr2.keys():
            arr2[arr3] = i
            i += 1
    file_in = open("task1.test.new")
    os.mkdir("exp1_test")
    os.chdir("exp1_test")
    for line in file_in:
        arr = line[0:2]
        with open("{}_test.txt".format(arr2[arr]), "a", encoding='xxx') as file_out:
            arr = line.split('\t')
            file_out.write(line)
    i = 1
    file_in.seek(0)
    os.mkdir("exp1_index")
    os.chdir("exp1_index")
    for line in file_in:
        arr = line[0:2]
        with open("index{}.txt".format(arr2[arr]), "a", encoding='xxx') as file_out:
            arr = line.split('\t')
            line = line[0:-1]
            file_out.write(line + '\t' + "{}".format(i) + "\n")
        i += 1

题目二用python处理数值型数据

实验目的：
熟悉python的基本数据结构，以及文件的输入与输出。
实验数据：
xxxx年xx天池大赛，也是中国高校第x届大数据挑战赛的数据。数据包括两个表，分别是用户行为表mars_tianchi_user_actions.csv和歌曲艺人表mars_tianchi_songs.csv。大赛开放抽样的歌曲艺人数据，以及和这些艺人相关的6个月内（20150301-20150831）的用户行为历史记录。选手需要预测艺人随后2个月，即60天（20150901-20151030）的播放数据。

实验内容：

对歌曲艺人数据mars_tianchi_songs进行处理，统计出艺人的个数以及每个艺人的歌曲数量。输出文件格式为exp2_1.csv，第一列为艺人的ID，第二列为该艺人的歌曲数目。最后一行输出艺人的个数。
将用户行为表和歌曲艺人表以歌曲song_id作为关联，合并为一个大表。各列名称为第一到第五列与用户行为表的列名一致，第六到第十列为歌曲艺人表中的第二列到第六列的列名。输出文件名为exp2_2.csv。
按照艺人统计每个艺人每天所有歌曲的播放量，输出文件为exp2_3.csv，各个列名为艺人id,日期Ds,歌曲播放总量。注意：这里只统计歌曲的播放量，不包括下载和收藏的数量。

解题思路：（利用pandas库）
1.

（1）利用.drop_duplicates() 删除重复值
（2）利用.loc[:,’artist_id’].value_counts() 求出歌手重复次数，即每个歌手的歌曲数目
（3）利用.loc[:,’songs_id’].value_counts() 求出歌曲没有重复

import pandas as pd
data = pd.read_csv(r"C:\mars_tianchi_songs.csv")
Newdata = data.drop_duplicates(subset=['artist_id'])
artist_sum = Newdata['artist_id'].count()

songChongFu_count = data.loc[:,'songs_id'].value_counts()
artistChongFu_count.loc['artist_sum'] = artist_sum

利用merge()合并两个表

import pandas as pd import os

data = pd.read_csv(r"C:\mars_tianchi_songs.csv")
data_two = pd.read_csv(r"C:\mars_tianchi_user_actions.csv")
num=pd.merge(data_two, data) num.to_csv('exp2_2.csv')

利用groupby()[].sum()进行重复性相加

import pandas as pd
data =pd.read_csv('exp2_2.csv')
DataCHongfu = data.groupby(['artist_id','Ds'])['gmt_create'].sum()

码字不易，记得一键三连哦😄 ！更多优质内容，敬请期待~ ✈

Original: https://blog.csdn.net/m0_52138323/article/details/125332929
Author: AC-Asteroid
Title: 用Python 处理文本数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/640014/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【NLP_命名实体识别】CRF++使用流程

重要参考用CRF做命名实体识别(一) – 简书 (jianshu.com)https://www.jianshu.com/p/12f2cdd86679 ; (8条消息…

人工智能 2023年5月31日
00108
TensorFlow2 实现神经风格迁移，DIY数字油画定制照片，面试必问知识点

[]( )使用VGG提取特征分类器CNN可以分为两部分：第一部分称为特征提取器 (feature extractor)，主要由卷积层组成；后一部分由几个全连接层组成，输出类概率得…

人工智能 2023年5月24日
0087
比特币数据分析ETL工具

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月16日
0076
【一起入门NLP】中科院自然语言处理第16课-简明扼要：红到发紫的prompt是什么？【上】

前几天自然语言处理课学到了”预训练语言模型”这一章，在最后老师介绍了今年刚刚提出来的Prompt，并强调：这东西现在很火🔥，想发论文的赶紧行动。由于和我的…

人工智能 2023年5月30日
0087
python用函数求n个数的平均值_Python pandaps创建一个函数来计算n列行的平均值

我有两个不同的抛硬币数据帧。我想做一个函数，它可以找到两件事：平均得分(满分100%)，其中正面=1，反面=0 他们为了得到这个分数而玩的游戏的数量是否可以为n列设置动态函数？在…

人工智能 2023年7月8日
0070
Ubuntu+3090Ti+tensorflow1环境配置

人工智能 2023年5月26日
0082
python 环境配置

文章目录一、python环境配置 * 1.官网下载python 安装包后安装 2.windows下python环境变量配置 3.Windows下虚拟环境创建 4.ubuntu 下…

人工智能 2023年7月5日
0065
pandas dataframe删除空行或者空列dropna，一般删除指定行或者列drop

dropna参见https://blog.csdn.net/roamer314/article/details/84816171 df[~(df[‘col’…

人工智能 2023年7月6日
00102
ORB匹配–基于OpenCV

ORB特征包含以下两部分： FAST角点提取：与原版不同的是计算了主方向 BRIEF描述子：使用了先前计算的方向信息 FAST关键点检测思想：如果一个像素与邻域像素差别较大，则…

人工智能 2023年6月22日
0068
DataWhale-(动手学数据分析)-Task01(数据加载及探索性数据分析)-202201

1第一节：数据加载 1.1 载入数据数据集下载 https://www.kaggle.com/c/titanic/overview 1.1.1 任务一：导入numpy和panda…

人工智能 2023年7月18日
0054
嵌入式端音频开发系列汇总（持续更新）

系列文章将从下面几个方面讲解嵌入式音频的开发：基础篇，协议篇，算法篇，实战篇，FFmpeg篇，sensory篇。待更新 Original: https://blog.csdn.n…

人工智能 2023年5月27日
0073
kmeans 聚类误差_从零实现机器学习算法（十一）KMeans

1. KMeans简介 KMeans是一种简单的聚类方法，它使用每个样本到聚类中心的距离作为度量来决定簇。其中 [TencentCloudSDKException] code:Fa…

人工智能 2023年6月2日
0082
python–selenium：元素点击不到，你需要的点击方法都在这

selenium自带click方法，有的时候不好用，元素定位到了，但是就是点不上。好，把我知道的所有点击方法都汇总在这，收藏一下以后清空面对点击不到元素的问题。详细情况： se…

人工智能 2023年7月5日
0051
数仓大宽表

个人建议是：宽表可以从很多的表中结合数据，但是鉴于宽表自身的缺陷，不建议过”宽”，在无法提前做测试的情况下，尽量只使用”小宽表”，…

人工智能 2023年7月17日
0050
数据挖掘竞赛lightgbm通过求最大auc调参

一、使用步骤 0.首先展示最后的结果参数含义 learning_rate 一般设置在0.05-0.1之间 n_estimators 100-1000 boosting的迭代次数 …

人工智能 2023年7月17日
0080
图数据库JanusGraph在windows下安装教程

JanusGraph在windows安装教程 JanusGraph简介安装过程 * JanusGraph下载下载Hadoop的本地工具 elasticsearch下载启动测试…

人工智能 2023年6月5日
0098

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

用Python 处理文本数据

前言

题目一 用python处理文本数据

题目二 用python处理数值型数据

大家都在看

题目一用python处理文本数据

题目二用python处理数值型数据