自然语言处理 -文本预处理以及逻辑回归分类的简单实现（附代码）

2023年5月28日上午8:56 • 人工智能 • 阅读 114

注：本博客基于python3.7 Anaconda

使用到的库

import nltk
from nltk import word_tokenize
import simplejson as jsons
import sklearn
from sklearn.feature_extraction.text import *
from sklearn.model_selection import train_test_split

from sklearn import linear_model
from sklearn import metrics

import numpy as np
import matplotlib.pyplot as plt

在文本预处理中，主要使用了nltk库，此外，nltk有可能需要手动下载一些包。
由于输入文本是json文件，我们需要用到simplejson读取。
sklearn主要用作后续的逻辑回归模型。

letter_percentage函数

参数：
text：字符串
letter: 字符（小写）
返回值：在字符串中特定字符出现的百分比（不考虑大小写）

def letter_percentage(text, letter):
    print("输入字符串为：", text)

    charlist = [char.lower() for char in text if char.isalpha()]

    fdist = nltk.FreqDist(charlist)

    frequency = fdist.freq(letter)

    character_percent = 100*frequency
    p = '{0:.2f}'.format(character_percent)
    print(letter,'字符在输入语句中占百分比为', p)
    return character_percent

Tokenization（标记化）

token：
文本字符串或文档的字符组
单一的”单词” + 可能的数字，标点等等

tokenization是文本预处理中很重要的一步。它的目的是接收一个字符串，或者一个list，内为nltk.text.Text类型的tokens。
接下来，把输入转换为单词的tokens，再把这些tokens用’universal’的标签集运行nltk的语言解释器。’

tokenizer主要省略空格，标点等。

parts_of_speech函数

参数：
s：字符串
printflag: 1为打印输入字符串，0为不打印
返回值：一个包含tokens和他们的POS标签的list

def parts_of_speech(s,printflag):
    '''例子：
    s = 'This is a sentence. And this is a second sentence! Cool.'
    z1, z2 = parts_of_speech(s,0)
        Tokens的总数量为14
        Tag: DET           Percentage of tokens =  28.57
        Tag: .             Percentage of tokens =  21.43
        Tag: NOUN          Percentage of tokens =  21.43
        ....

    '''
    if printflag == 1:
        print('输入为：',s)

    tokens = nltk.word_tokenize(s)

    tokens_and_tags = nltk.pos_tag(tokens, 'universal')

    n = len(tokens_and_tags)
    print('Tokens的总数量为',n)

    tag_counts = nltk.FreqDist(tags)

    sorted_tag_counts = tag_counts.most_common(len(tag_counts))

    for item in sorted_tag_counts:
        tag_percent = 100 * item[1]/n
        p = '{0:.2f}'.format(tag_percent)
        print('Tag:',item[0],'\t   Percentage of tokens = ', p )

    return tokens_and_tags

review_pos函数

读取json文件，运行parts_of_speech函数去计算每个数据的tokens的百分比

参数：
k：第k个数据
filename：读取文件

def review_pos(k,filename):
    print('加载文件: \n', filename)
    with open(filename, 'r') as jfile:
        data = json.load(jfile)
    print('提取的总数据个数为：', len(data),'\n')

    print('计算第',k,'条数据的百分比\n')

    d = data[k-1]

    s = d['text']
    print('第',k,'条数据的文本为：')
    print(s)
    parts_of_speech(s,0)

Bags of Words(BOW)

了解完上述简单几个步骤后，可以使用sklearn中的CountVectorizer函数直接把文本变成词袋（bags of words），从而向量化。

“CountVectorizer 类会将文本中的词语转换为词频矩阵，例如矩阵中包含一个元素a[i][j]，它表示j词在i类文本下的词频。它通过 fit_transform 函数计算各个词语出现的次数，通过get_feature_names()可获取词袋中所有文本的关键字，通过 toarray()可看到词频矩阵的结果。
————————————————
版权声明：本文为CSDN博主「木水_」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/m0_37324740/article/details/79411651”

create_bow_from_reviews函数

参数：
filename：读取文件
min_pos：大于等于这个数值，评分为1
max_pos：小于等于这个数值，评分为0

def create_bow_from_reviews(filename, min_pos=4, max_neg=2):

    print('加载文件:', filename)
    with open(filename, 'r') as jfile:
        data = json.load(jfile)
    print('提取的总数据个数为：', len(data))

    text = []

    Y = []

    print('正在提取每条数据的tokens，速度由数据量决定...')
    for d in data:

        review = d['text']
        stars = int(d['stars'])
        if stars >= min_pos:
            score = 1
        elif starsmax_neg:
            score = 0
        else:

            continue
        text.append(review)
        Y.append(score)

    vectorizer = CountVectorizer(stop_words = 'english', min_df = 0.01, ugram_range = (1,2))

    X = vectorizer.fit_transform(text)

    print('数据大小为：',X.shape)

    return X, Y, vectorizer

现在，需要把X，Y数据集（X为特征，Y为标签）分成训练集和测试集。
基于训练集，要建立一个逻辑回归分类模型。
再用测试集去判断模型的性能

logistic_classification函数

参数：
X：特征数据
Y：标签数据
test_fraction：拆分比例
返回值：分类模型

def logistic_classification(X, Y, test_fraction):

    X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size=test_fraction, random_state = 42)

    print("训练集的数量为：", X_train.shape[0])
    print("测试集的数量为：", X_test.shape[0])
    print("词汇的数量为：", X_train.shape[1])

    classifier = linear_model.LogisticRegression(penalty='l2', fit_intercept=True)

    print('\n使用',X_train.shape[0],'条数据训练模型中')
    classifier.fit(X_train, Y_train)
    train_predictions = classifier.predict(X_train)
    train_accuracy = metrics.accuracy.score(Y_train, train_predictions)

    class_probabilities_train = classifier.predict_proba(X_train)
    train_auc_score = metrics.roc_auc_score(Y_train, class_probabilities_train[:,1])

    print('\n训练集：')
    print('accuracy:', format(100*train_accuracy, '.2f'))
    print('AUC value:', format(100*train_auc_score, '.2f'))

    print('\n测试集：')
    test_predictions = classifier.predict(X_test)
    test_accuracy = metrics.accuracy_score(Y_test, test_predictions)
    print('accuracy:', format(100*test_accuracy, '.2f'))

    class_probabilities = classifier.predict_proba(X_test)
    test_auc_score = metrics.roc_auc_score(Y_test, class_probabilities[:,1])
    print('AUC value:', format(100*test_auc_score, '.2f'))

    return classifier

训练应用待续…

此博客仅用于自我学习的记录，如有不当请指正。02/03/2022

Original: https://blog.csdn.net/Jeremiah_218/article/details/122767671
Author: J_039
Title: 自然语言处理 -文本预处理以及逻辑回归分类的简单实现（附代码）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530676/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python之Tkinter使用详解

一、前言 *Tkinter是什么 Tkinter是Python标准库中的一个GUI（Graphical User Interface，图形用户界面）工具包，其目的是为Python开…

人工智能 2023年7月3日
0080
【机器学习笔记3】多项式回归模型

目录前置知识 Numpy c_函数问题引入多项式回归函数核心思路示例数据生成转化多项式回归训练集预测和绘图特征缩放补充：关于多项式的次数选择多项式回归虽然不再…

人工智能 2023年6月16日
00115
Neo4j图数据库入门实践

Neo4j作为图数据库和知识图谱伴随 2012 年 google 正式发布知识图谱搜索引擎和 2013 年 facebook 开放知识图谱搜索入口以来，知识图谱迎来了一波发展浪潮，…

人工智能 2023年6月1日
0078
蚁群算法解决旅行商问题Python

蚁群算法解决旅行商问题什么是旅行商问题蚁群算法概述代码实现蚁群算法学习视频YouTube：【数之道 04】解决最优路径问题的妙招-蚁群ACO算法什么是旅行商问题旅行商问…

人工智能 2023年6月26日
0079
linux 常用命令（含安装pytorch，tensorflow，cuda=10.2）

文章目录 * – 常用命令 – 安装pytorch – 安装tensorflow 个人用总结：常用命令 1.重启网络设置sudo servic…

人工智能 2023年5月24日
00107
检测网络中的RPN(Region Proposal Network)理解

0 引言目标检测包含2个基本问题：分类和定位。分类比较好做，分类任务是深度学习解决的最好的一类任务。定位则要困难一些，最简单的方式是通过滑窗，窗口滑动到某个位置也就完成了…

人工智能 2023年7月10日
0065
[YOLO专题-27]：YOLO V5 小目标检测遇到的问题与常见解决办法

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月12日
0082
Qt编写视频监控系统67-录像计划（支持64通道7*24录像设置）

一、前言录像计划这个功能一直挂了很久，之前做的也都有保存视频文件功能，其中还分了三大种，第一种是手动开启和停止录像；第二种是按照指定时长比如10s保存文件；第三种是定时30分钟一…

人工智能 2023年7月29日
0068
时序预测工具库（Prophet）介绍+代码

时序预测工具库（Prophet） * – 一、Prophet 简介 – 二、Prophet 适用场景 – 三、Prophet 算法的输入输出 &…

人工智能 2023年6月15日
00103
基于Matlab的Robotics Toolbox工具箱的机器人仿真函数介绍（运动学）

前言随着我们了解到机器人如何建立运动学模型和动力学模型之后，我们可以使用Matlab中的仿真工具箱内来对模型的准确性进行验证，并且可以通过内置的函数进行简单的轨迹规划和可视化观察…

人工智能 2023年6月1日
00121
tensorRT踩坑日常之训练模型转ONNX转engine

tensorRT是用来干嘛的在这里就不多介绍了在使用tensorRT提速之前需要先训练模型在将训练好的模型转ONNX再转engine 一、将训练好的模型转ONNX这里就提供将tor…

人工智能 2023年6月24日
00662
基于pytorch构建双向LSTM（Bi-LSTM）文本情感分类实例（使用glove词向量）

学长给的代码，感觉结构清晰，还是蛮不错的，想以后就照着这样的结构走好了，记录一下。首先配置环境 matplotlib==3.4.2 numpy==1.20.3 pandas==1…

人工智能 2023年7月2日
0084
语音识别唤醒python_python版百度语音识别功能

本文实例为大家分享了python版百度语音识别功能的具体代码，供大家参考，具体内容如下环境：使用的IDE是Pycharm 1.新建工程 2.配置百度语音识别环境 “F…

人工智能 2023年5月25日
0088
联合标定Android手机的IMU和Camera数据

通过局域网实现安卓手机和ROS的通讯，进一步通过Kalibr工具实现手机IMU和相机的联合标定。手机与PC通信基于ROS下的信息发布和订阅，手机和PC在一个局域网下进行信息（i…

人工智能 2023年7月20日
0046
python数据分析入门项目–分析全球五百强的数据

python数据分析入门项目–分析全球五百强的数据这里我用一个简单的简单数据分析入门项目，这里我就先不讲数据数据下载、抓取的问题，我直接给出CSV文件的链接，点击就可以下载。链接…

人工智能 2023年7月7日
0065
Apollo里常用的google protobuf简明教程

protobuf(Google Protocol Buffers)是Google提供一个具有高效的协议数据交换格式工具库(类似Json)。在看百度Apollo自动驾驶开源代码时，…

人工智能 2023年6月2日
0073

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31