NLP项目（二）——拼写纠错

2023年5月28日下午1:14 • 大数据 • 阅读 76

前言
一、数据集介绍
*
1-1、spell-errors.txt
1-2、vocab.txt
1-3、testdata.txt
二、拼写纠错代码
*
Part0：构建词库
Part1：生成所有的候选集合
Part2：读取语料库，为构建语言模型准备
Part3：构建语言模型，Bigram
Part4：构建每个单词的错误单词输入概率的词典。
Part5：使用测试数据来进行拼写纠错
总结

前言

在自然语言处理的过程中，我们常常会遇到一些拼写错误的单词，这时候我们需要用到拼写纠错来处理这些单词。

一、数据集介绍

1-1、spell-errors.txt

该数据集包含正确的单词以及常见的拼写错误的单词。

1-2、vocab.txt

该数据集是一个词库，

1-3、testdata.txt

该数据集是测试集。

二、拼写纠错代码

Part0：构建词库

import numpy as np
import re
import pandas as pd

构建词库
word_dic = []
通过迭代器访问: for word in f
用列表生成式直接将数据加入到一个空的列表中去
with open('./vocab.txt', 'r') as f:
    word_dic = set([word.rstrip() for word in f])

Part1：生成所有的候选集合

import string
def generate_candidates(word=''):
"""
    word: 给定的错误输入
    返回的是所有的候选集合
    生成编辑距离为1的单词
    1、insert
    2、delete
    3、replace
"""
    # string.ascii_lowercase: 所有的小写字母
    letters = ''.join([word for word in string.ascii_lowercase])
    # 将单词分割成一个元组，把所有的可能性添加到一个列表中去。
    # [('', 'abcd'), ('a', 'bcd'), ('ab', 'cd'), ('abc', 'd'), ('abcd', '')]
    splits = [(word[:i],word[i:]) for i in range(len(word)+1)]
    # 遍历字母，遍历所有的分割，把他们组合起来
    # 插入到所有可能的位置
    inserts = [L+i+R for L,R in splits for i in letters]
    # delete
    # 每次都是删除R的第一个元素（如果R存在的话）
    deletes = [L+R[1:] for L,R in splits if R]
    # replace
    # 替换嘛。就是插入和删除的合体。
    replaces = [L+i+R[1:] for L,R in splits if R for i in letters]
    return set(inserts+deletes+replaces)

def generate_edit_two(word=''):
"""
    给定一个字符串，生成编辑距离不大于2的字符串。
"""
    # 第一步，先生成编辑距离为1的候选集合。
    edit_one = generate_candidates(word)
    # 第二部，遍历编辑距离为1的候选集合，对每个元素都再次使用函数
    all_lis = []
    for i in edit_one:
        all_lis.extend(generate_candidates(i))

    # 上边的方法也可以直接写成一个列表生成式
    return set([j for i in generate_candidates(word) for j in generate_candidates(i)])

Part2：读取语料库，为构建语言模型准备

shift+tab 来调出函数的具体说明
读取一些句子，为了构建语言模型做准备。
从nltk中导入路透社语料库
路透社语料库
from nltk.corpus import reuters

输出语料库包含的类别
categories = reuters.categories()
corpus：包含许多句子的集合。
每个句子是列表形式：['ASIAN', 'EXPORTERS', 'FEAR', 'DAMAGE']
corpus = reuters.sents(categories=categories)

Part3：构建语言模型，Bigram

term_count: 代表所有字符以及其个数组成的一个字典。（单个字符）
term_count = {}
bigram_count：双字符字典
bigram_count = {}
for doc in corpus:
    # 每一个句子都加上起始符
    doc = [''] + doc
    # 遍历每一个句子的每一个字符，并将其个数记载入term_count字典里。
    for i in range(len(doc)-1):
        # term: 当前字符
        term = doc[i]
        # bigram:当前字符以及后一个字符组成的列表
        bigram = doc[i:i + 2]
        if term in term_count:
            term_count[term] += 1
        else:
            term_count[term] = 1
        # 把bigram变换成一个字符串。
        bigram = ' '.join(bigram)
        if bigram in bigram_count:
            bigram_count[bigram] += 1
        else:
            bigram_count[bigram] = 1

Part4：构建每个单词的错误单词输入概率的词典。

用户通常输入错的概率 - channel probability
channel_prob={}
打开拼写纠错记事本
with open("./spell-errors.txt", 'r', encoding='utf8') as f:
    # 遍历每一行
    for line in f:
        # 用冒号来进行分割
        # raining: rainning, raning变为['raining', ' rainning, raning\n']
        temp=line.split(":")
        # 正确的单词是列表里的第一个字符串并且去除掉前后空格
        correct=temp[0].strip()
        # 错误的单词是列表里的第二个字符串并且以逗号分隔开的几个单词。
        mistakes=[sub_mis.strip() for sub_mis in temp[1].strip().split(",")]

        # 将每一个单词和他的每个错误单词的比例组成一个键值对。
        # 键是正确单词，值是一个花括号。
        channel_prob[correct]={}

        for mis in mistakes:
            # 嵌套词典
            # 值是该错误单词占所有错误单词的比例
            channel_prob[correct][mis]=1.0/len(mistakes)
            # 最终结果如下
            # {'raining': {'rainning': 0.5, 'raning': 0.5}}

Part5：使用测试数据来进行拼写纠错

V = len(term_count)
打开测试数据
with open("./testdata.txt", 'r', encoding='utf8') as f:
    # 遍历每一行
    for line in f:
        # 去掉每一行右边的空格。并且以制表符来分割整个句子
        items = line.rstrip().split('\t')
        # items:
        # ['1', '1', 'They told Reuter correspondents in Asian capitals a U.S.

        # Move against Japan might boost protectionst sentiment in the  U.S. And lead to curbs on
        # American imports of their products.']
        # 把\.去掉，每个句子刚好在items的下标为2的位置。
        line = re.sub('\.', '', items[2])
        # 去掉逗号，并且分割句子为每一个单词，返回列表
        line= re.sub(',', '', line).split()
        # line:['They', 'told', 'Reuter', 'correspondents', 'in', 'Asian',
        # 'capitals', 'a', 'US', 'Move', 'against', 'Japan', 'might', 'boost', 'protectionst',
        # 'sentiment', 'in', 'the', 'US', 'And', 'lead', 'to', 'curbs', 'on', 'American', 'imports', 'of', 'their', 'products']
        # 遍历词语列表
        for word in line:
            # 去除每一个单词前后的逗号和句号。
            word=word.strip('.')
            word=word.strip(',')
            # 如果这个单词不在词库中。
            # 就要把这个单词替换成正确的单词
            if word not in word_dic:
                # Step1: 生成所有的(valid)候选集合
                candidates_one = generate_candidates(word)
                # 把生成的所有在词库中的单词拿出来。
                candidates= [word for word in candidates_one if word in word_dic]
                # 一种方式： if candidate = [], 多生成几个candidates, 比如生成编辑距离不大于2的
                # TODO ： 根据条件生成更多的候选集合
                # 如果candidates为空的话，则接着生成编辑距离为2的。
                if len(candidates) < 1:
                    candidates_two = generate_edit_two(word)
                    candidates = [word for word in candidates_two if word in word_dic]
                    if len(candidates)<1:
                        continue
                probs = []

                # 计算所有候选单词的分数。
                # score = p(correct)*p(mistake|correct)
                #       = log p(correct) + log p(mistake|correct)

                log p(mistake|correct)= log(p(correct/mistake)*p(mistake)/p(correct))

                # 遍历候选词汇
                # 返回score最大的candidate
                # score既考虑了单个单词的概率，也考虑了与前边单词组合的概率。
                for candi in candidates:
                    prob = 0

                    # a. 计算channel probability
                    # 如果候选词在channel_prob字典中，并且错误单词刚好在候选词对应的值处。
                    if candi in channel_prob and word in channel_prob[candi]:
                        prob += np.log(channel_prob[candi][word])

                    else:
                        prob += np.log(0.00001)

                    # b. 计算语言模型的概率
                    sentence= re.sub('\.', '', items[2])
                    # 得到单词在原来句子中的索引
                    idx = re.sub(',', '', sentence).split().index(word)
                    #
                    # items:
                    # ['1', '1', 'They told Reuter correspondents in Asian capitals a U.S.

                    # Move against Japan might boost protectionst sentiment in the  U.S. And lead to curbs on
                    # American imports of their products.']

                    # 把当前单词和他的前一个单词拼接到一起。
                    bigram_1 = ' '.join([items[2].split()[idx-1],candi])

                    # 如果bigram_1在双字符词典里，并且前一个单词也在词典里
                    if bigram_1 in bigram_count and items[2].split()[idx-1] in term_count:
                        prob += np.log((bigram_count[bigram_1] + 1.0) / (
                                term_count[items[2].split()[idx-1]] + V))
                    else:
                        prob += np.log(1.0 / V)
                    # TODO: 也要考虑当前 [word, post_word]
                    #   prob += np.log(bigram概率)

                    if idx + 1 < len(items[2].split()):
                        bigram_2 = ' '.join([candi,items[2].split()[idx + 1]])
                        if bigram_2 in bigram_count and candi in term_count:
                            prob += np.log((bigram_count[bigram_2] + 1.0) / (
                                    term_count[candi] + V))
                        else:
                            prob += np.log(1.0 / V)

                        # 所有候选单词的分数都添加到probs列表里。
                        probs.append(prob)
                #
                print(probs)
                if probs:
                    # 得到probs列表候选单词里最大的分数，把索引拿出来
                    max_idx = probs.index(max(probs))
                    # 该索引同时也对应着候选集合里的正确单词，输出错误单词和正确单词。
                    print(word, candidates[max_idx])
                else:
                    print("False")

总结

关注点赞私信我获取数据集！代码来源于网络，本人仅作学习使用，如有侵权请联系我删除。

Original: https://blog.csdn.net/weixin_42475060/article/details/122413801
Author: ㄣ知冷煖★
Title: NLP项目（二）——拼写纠错

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531712/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

剑指Offer:调整数组顺序使奇数位于偶数前面(21)

题目描述: 输入一个整数数组，实现一个函数来调整该数组中数字的顺序，使得所有的奇数位于数组的前半部分，所有的偶数位于数组的后半部分，并保证奇数和奇数，偶数和偶数之间的相对位置不变。…

大数据 2023年6月3日
00109
深入理解深度学习——语境词嵌入（Contextual Word Embedding）

前文介绍了因word2vec而流行的Word Embedding，这种表示方法比离散的独热编码要好很多，因为它不仅降低了维度，还可以反映出语义空间中的线性关系，如”国王…

大数据 2023年5月28日
0090
HC32L110(四) HC32L110的startup启动文件和ld连接脚本

以下介绍项目中的startup和ld文件, 以及HC32L110的启动机制如果转载, 请注明出处. 因为是面向 GCC Arm Embedded 工具链的版本, 所以 start…

大数据 2023年6月3日
0076
如何利用 Python 批量合并 Excel？

大家好，今天分享一个利用 Pandas进行数据分析的小技巧，也是之前有粉丝在后台进行提问的，即如何将多个 &#x20…

大数据 2023年5月26日
0067
SQLite 数据库安装、创建、增删改查（一）

目录一、学习资料二、下载软件 1.SQLite 2.SQLiteStudio 4.System.Data.SQLite.dll 三、创建数据库 1.控制台创建数据库 2.代码创…

大数据 2023年11月11日
0063
现代电信企业：极低延迟与复杂决策如何兼得？

01 用电信政策引导网络流量想象一下：你现在身处在纽约一条拥挤的街道，人头攒动， Ubers ——没错，就是黄色出租车，——拥挤在前面，骑自行车的人穿梭在夹缝中，比萨送货员不停…

大数据 2023年6月3日
0074
讲解Redis的主从复制

大数据 2023年11月14日
0027
大数据学习笔记——————-(19)

第四部分HIVE学习该部分，主要对HIV学习笔记进行记录，学习资料翻译自《hive_tutorial》该部分为10个章节来学习HIVE： Ø 第19章 HIVE介绍 Ø 第20…

大数据 2023年5月26日
0069
开源交流丨批流一体数据集成工具ChunJun同步Hive事务表原理详解及实战分享

大数据 2023年11月14日
0058
Linux学习笔记（第一周）

Linux 笔记基本概念 UNIX 体系结构内核登录 shell GNU工具常用指令 Linux系统的在线求助： man page与 info page 编辑器： nano…

大数据 2023年5月27日
0071
当微服务是个坏主意时

当微服务是个坏主意时这篇文章可能是给大家泼冷水，请各位理性看待。从书面上看，微服务听起来很好。它们是模块化、可扩展和容错的。很多公司使用这种模式取得了巨大的成功，所以微服务可能自…

大数据 2023年6月3日
0060
PE文件解析器的编写（二）——PE文件头的解析

之前在学习PE文件格式的时候，是通过自己查看各个结构，自己一步步计算各个成员在结构中的偏移，然后在计算出其在文件中的偏移，从而找到各个结构的值，但是在使用C语言编写这个工具的时候，…

大数据 2023年5月26日
0076
linux之磁盘配额(quota)

1.什么是quota 简单地说，就是限制用户使用的磁盘空间量。 [En] To put it simply, it is to limit the amount of disk s…

大数据 2023年5月27日
0049
电脑分辨率问题

电脑分辨率有一下内容：1024-768 1280-1024 1366-768 1400-900 1600-900 1920-1080 一般就三种尺寸，手机（小于768）、平板（12…

大数据 2023年5月25日
0093
杭州XX公司脱扣设备检测

一台10多年前的测试设备，最近一天有几十次没反应，界面卡死，要关掉程序重新打开才可以。重点检查和仪表和串口打交道的部分，功率表，PLC，电源，转速表，PCI卡，查看代码，把频…

大数据 2023年6月3日
0069
SQLite的基本使用

一、Windows安装安装绿色版本，步骤如下： 1、访问https://www.sqlite.org/download.html ，从 Windows 区下载预编译的二进制文件。…

大数据 2023年11月10日
0049

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30