用Python 处理文本数据

用Python 处理文本数据

前言

HI,好久不见,今天是关闭朋友圈的第60天,我是野蛮成长的AC-Asteroid。
人生苦短,我用Python,通过短短两周时间自学,从基础知识到项目实践,在这个过程中深刻体会到这款语言的魅力,今天带来一个有趣的项目,用Python处理文本数据,一起来看看今天的问题吧。

题目一 用python处理文本数据

实验目的:
熟悉python的基本 数据结构,以及 文件的输入与输出。
实验数据:
利用xxxx年xx机器学习会议的评测数据和评测任务,数据包括训练集和测试集,评测任务为通过给定的训练数据,预测测试集中的关系是正例还是负例,在每个样本最后给出1或者0。
数据描述如下,第一列为关系类型,第二列和第三列为人名,第四列是标题,第五列是关系为正例还是负例,1为正例,0为负例;第六列表示训练集。

事件人物1人物2标题关系(0 or 1)训练集

测试集描述如下图,格式基本与训练集类似,唯一不同的是第五列没有关系是正例还是负例的标记。

关系人物1人物2事件

实验内容:

  1. 对训练集数据进行处理,只留下前面五列,输出文本命名为exp1_1.txt。
  2. 在第一步得到的数据的基础上对19类关系进行分类,生成的文本存放在exp1_train文件夹下,按照关系类别出现的顺序,第一个关系类别的数据存放在1.txt中,第二个关系类别存放在2.txt中,直到19.txt。
  3. 测试集按照训练集的19个类别的顺序将各个样本按照关系类别归类,即相同关系类型的数据放到一个文本文件中,同样生成19个类别的测试文件,格式仍旧和测试文件保持一致。存放在exp1_test文件夹下,每个类别的文件仍旧命名为1_test.txt,2_test.txt…

同时对每个样本在原测试集中出现的位置进行记录,和19个测试文件一一对应起来。比如第一类”传闻不和”的每个样本在原文中处于第几行,在索引文件中进行记录,保存在文件index1.txt,index2.txt….

解题思路:

  1. 第一题是考察我们文件操作与列表的知识,主要考察的难点是对new文件的读取,根据要求处理后在生成一个txt文件,让我们看一下具体的代码实现:
import os

list = []
with open("task1.trainSentence.new", "r",encoding='xxx') as file_input:
    with open("exp1_1.txt", "w", encoding='xxx') as file_output:

        for Line in file_input:
            arr = Line.split('\t')
            if arr[0] not in list:
                list.append(arr[0])
            file_output.write(arr[0]+"\t"+arr[1]+"\t"+arr[2]+"\t"+arr[3]+"\t"+arr[4]+"\n")
file_input.close()
file_output.close()
  1. 第二题依旧考察了文件操作,在题目一生成的文件基础上,按照同一类型的事件对事件进行分类,是否能高效的分组需要利用循环条件来解决,我们来看看具体的代码实现
import os
file_1 = open("exp1_1.txt", encoding='xxx')
os.mkdir("exp1_train")
os.chdir("exp1_train")
a = file.readline()
arr = a.split("\t")
b = 1
file_2 = open("{}.txt".format(b), "w", encoding="xxx")
for line in file_1:
    arr_1 = line.split("\t")
    if arr[0] != arr_1[0]:
        file_2.close()
        b += 1
        f_2 = open("{}.txt".format(b), "w", encoding="xxx")
    arr = line.split("\t")
    f_2.write(arr[0]+"\t"+arr[1]+"\t"+arr[2]+"\t"+arr[3]+"t"+arr[4]+"\t""\n")
f_1.close()
f_2.close()
  1. 将训练集的19个类别按照人物的关系进行进一步的分类,我们可以通过字典对数据进行遍历,查找关系,把关系相同的内容放到一个文件夹中,不同则新建一个。
import os

with open("exp1_1.txt", encoding='xxx') as file_in1:
    i = 1
    arr2 = {}
    for line in file_in1:
        arr3 = line[0:2]
        if arr3 not in arr2.keys():
            arr2[arr3] = i
            i += 1
    file_in = open("task1.test.new")
    os.mkdir("exp1_test")
    os.chdir("exp1_test")
    for line in file_in:
        arr = line[0:2]
        with open("{}_test.txt".format(arr2[arr]), "a", encoding='xxx') as file_out:
            arr = line.split('\t')
            file_out.write(line)
    i = 1
    file_in.seek(0)
    os.mkdir("exp1_index")
    os.chdir("exp1_index")
    for line in file_in:
        arr = line[0:2]
        with open("index{}.txt".format(arr2[arr]), "a", encoding='xxx') as file_out:
            arr = line.split('\t')
            line = line[0:-1]
            file_out.write(line + '\t' + "{}".format(i) + "\n")
        i += 1

题目二 用python处理数值型数据

实验目的:
熟悉python的基本数据结构,以及文件的输入与输出。
实验数据:
xxxx年xx天池大赛,也是中国高校第x届大数据挑战赛的数据。数据包括两个表,分别是用户行为表mars_tianchi_user_actions.csv和歌曲艺人表mars_tianchi_songs.csv。大赛开放抽样的歌曲艺人数据,以及和这些艺人相关的6个月内(20150301-20150831)的用户行为历史记录。选手需要预测艺人随后2个月,即60天(20150901-20151030)的播放数据。

用Python 处理文本数据

用Python 处理文本数据
用Python 处理文本数据
实验内容:
  1. 对歌曲艺人数据mars_tianchi_songs进行处理,统计出艺人的个数以及每个艺人的歌曲数量。输出文件格式为exp2_1.csv,第一列为艺人的ID,第二列为该艺人的歌曲数目。最后一行输出艺人的个数。
  2. 将用户行为表和歌曲艺人表以歌曲song_id作为关联,合并为一个大表。各列名称为第一到第五列与用户行为表的列名一致,第六到第十列为歌曲艺人表中的第二列到第六列的列名。输出文件名为exp2_2.csv。
  3. 按照艺人统计每个艺人每天所有歌曲的播放量,输出文件为exp2_3.csv,各个列名为艺人id,日期Ds,歌曲播放总量。注意:这里只统计歌曲的播放量,不包括下载和收藏的数量。

解题思路:(利用pandas库)
1.

(1)利用.drop_duplicates() 删除重复值
(2)利用.loc[:,’artist_id’].value_counts() 求出歌手重复次数,即每个歌手的歌曲数目
(3)利用.loc[:,’songs_id’].value_counts() 求出歌曲没有重复

import pandas as pd
data = pd.read_csv(r"C:\mars_tianchi_songs.csv")
Newdata = data.drop_duplicates(subset=['artist_id'])
artist_sum = Newdata['artist_id'].count()

songChongFu_count = data.loc[:,'songs_id'].value_counts()
artistChongFu_count.loc['artist_sum'] = artist_sum
  1. 利用merge()合并两个表
import pandas as pd import os

data = pd.read_csv(r"C:\mars_tianchi_songs.csv")
data_two = pd.read_csv(r"C:\mars_tianchi_user_actions.csv")
num=pd.merge(data_two, data) num.to_csv('exp2_2.csv')
  1. 利用groupby()[].sum()进行重复性相加
import pandas as pd
data =pd.read_csv('exp2_2.csv')
DataCHongfu = data.groupby(['artist_id','Ds'])['gmt_create'].sum()

码字不易,记得一键三连哦😄 !更多优质内容,敬请期待~ ✈

Original: https://blog.csdn.net/m0_52138323/article/details/125332929
Author: AC-Asteroid
Title: 用Python 处理文本数据

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/640014/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球