【Bert + BiLSTM + CRF】实现实体命名识别，最少的代码实现功能，简单易用

2023年7月23日上午8:25 • 人工智能 • 阅读 79

基于Transformers, pytorch-crf, torch.nn 实现NLP的实体命名识别ner功能，此文章仅供刚入门NLP的新同学，大佬请绕路，不敢造作……

废话不多说，直接上代码…

代码


'''
@author : sito
@date : 2022-02-25
@description:
Trying to build model (Bert+BiLSTM+CRF) to solve the problem of Ner,
With low level of code and the persistute of transformers, torch, pytorch-crf
Next Step is to stronger the Training Dataset and text the real data.

'''
import torch
import torch.nn as nn
from transformers import BertModel, AdamW, BertTokenizer
from torchcrf import CRF

class Model(nn.Module):

    def __init__(self,tag_num,max_length):
        super().__init__()
        self.bert = BertModel.from_pretrained('bert-base-chinese')
        config = self.bert.config
        self.lstm = nn.LSTM(bidirectional=True, num_layers=2, input_size=config.hidden_size, hidden_size=config.hidden_size//2, batch_first=True)
        self.crf = CRF(tag_num)
        self.fc = nn.Linear(config.hidden_size,tag_num)

    def forward(self,x,y):
        with torch.no_grad():
            bert_output = self.bert(input_ids=x.input_ids,attention_mask=x.attention_mask,token_type_ids=x.token_type_ids)[0]
        lstm_output, _ = self.lstm(bert_output)
        fc_output = self.fc(lstm_output)

        loss = self.crf(fc_output,y)
        tag = self.crf.decode(fc_output)
        return loss,tag

if __name__ == '__main__':

    epoches = 50
    max_length = 30

    x = ["我 和 小 明 今 天 去 了 北 京".split(),"普 京 在  昨 天 进 攻 了 乌 克 拉 ， 造 成 了 大 量 人 员 的 伤 亡".split()]
    y = ["O O B-PER I-PER O O O O B-LOC I-LOC".split(), "B-PER I-PER O O O O O O B-LOC I-LOC I-LOC O O O O O O O O O O O".split()]

    tag_to_ix = {"B-PER": 0, "I-PER": 1, "O": 2, "[CLS]": 3, "[SEP]": 4, "B-LOC":5, "I-LOC":6}

    labels = []
    for label in y:
        r = [tag_to_ix[x] for x in label]
        if len(r)<max_length:
            r += [tag_to_ix['O']] * (max_length-len(r))
        labels.append(r)

    tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

    tokenizer_result = tokenizer.encode_plus(x[0],return_token_type_ids=True,return_attention_mask=True,return_tensors='pt',
                                             padding='max_length',max_length=max_length)

    model = Model(len(tag_to_ix),max_length)
    optimizer = AdamW(model.parameters(), lr=5e-4)
    model.train()
    for i in range(epoches):
        loss,_ = model(tokenizer_result, torch.tensor(labels[0]).unsqueeze(dim=0))
        loss = abs(loss)
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()
        print(f'loss : {loss}')

    model.eval()
    with torch.no_grad():
        _, tag = model(tokenizer_result, torch.tensor(labels[0]).unsqueeze(dim=0))
        print(f' ori tag: {labels[0]} \n predict tag : {tag}')

输出如下

loss : 58.82263946533203
loss : 38.57122039794922
loss : 23.51917839050293
loss : 17.443994522094727
loss : 19.788169860839844
loss : 20.11433219909668
loss : 18.492122650146484
loss : 15.683046340942383
loss : 13.58675765991211
loss : 13.220212936401367
loss : 13.955292701721191
loss : 14.226445198059082
loss : 13.392374992370605
loss : 11.734152793884277
loss : 10.527318954467773
loss : 10.421426773071289
loss : 9.423626899719238
loss : 8.633639335632324
loss : 8.24331283569336
loss : 7.25379753112793
loss : 6.560595512390137
loss : 5.79638147354126
loss : 5.452062606811523
loss : 4.555328369140625
loss : 4.393014430999756
loss : 3.9612410068511963
loss : 2.97975754737854
loss : 2.843627691268921
loss : 2.211019515991211
loss : 1.8970086574554443
loss : 2.2976162433624268
loss : 1.3155405521392822
loss : 2.394059658050537
loss : 2.8929264545440674
loss : 0.859898567199707
loss : 1.008394718170166
loss : 0.8743772506713867
loss : 0.567021369934082
loss : 0.6397604942321777
loss : 0.38392019271850586
loss : 0.36254167556762695
loss : 0.25980567932128906
loss : 0.2933225631713867
loss : 0.1776103973388672
loss : 0.16666841506958008
loss : 0.2049698829650879
loss : 0.15804100036621094
loss : 0.1316676139831543
loss : 0.09202098846435547
loss : 0.0849909782409668
 ori tag: [2, 2, 0, 1, 2, 2, 2, 2, 5, 6, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2]
 predict tag : [[2], [2], [0], [1], [2], [2], [2], [2], [5], [6], [2], [2], [2], [2], [2], [2], [2], [2], [2], [2], [2], [2], [2], [2], [2], [2], [2], [2], [2], [2]]

一开始的loss比较高，但是随着训练增多loss会一点点下去的，还没有在大规模数据集上跑，后续可能会更新DataLoader，DataSet等工具的封装，实现大数据集的训练，此demo仅供参考。感兴趣的同学可以私信或者关注我哦！

Bert中文预训练文件可以在这里下载

链接：https://huggingface.co/bert-base-chinese/tree/main
只需要下载config.json, pytorch_model.bin, vocab.txt 三个文件就行啦
下载之后保存在bert-base-chinese文件夹下

像这样：

【Bert + BiLSTM + CRF】实现实体命名识别，最少的代码实现功能，简单易用

然后运行python model.py或者直接跑上面的代码就行了。
model.py里面就是上面贴的代码。

第一次写文章有点紧张，谢谢大家的鼓励和支持！！

Original: https://blog.csdn.net/m0_37576959/article/details/123135281
Author: Sito_zz
Title: 【Bert + BiLSTM + CRF】实现实体命名识别，最少的代码实现功能，简单易用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/710316/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据科学必备用Python进行描述性统计数据分析详解

在大数据和人工智能时代，数据科学和机器学习在许多科技领域都变得必不可少。处理数据的一个必要方面是能够直观地描述、总结和表示数据。Python 统计库是全面、流行且广泛使用的工具，可…

人工智能 2023年7月17日
00129
python kmean 多维_Python机器学习：Kmeans聚类

聚类算法直接从数据的内在性质中学习最优的划分结果或者确定离散标签类型。虽然在 Scikit-Learn 或其他地方有许多聚类算法，但最简单、最容易理解的聚类算法可能还得算是 k-…

人工智能 2023年6月2日
0063
利用MATLAB校准单目摄像头

首先编写图片采集程序，就是将摄像机采集到的图像保存成图片，程序如下，每点击一次’s’键记录一张照片： -*- coding: utf-8 -*- 用于获取单…

人工智能 2023年6月22日
0087
2021年华为杯数学建模比赛——二分类与回归问题（1）

前言：作者在2021年10月参加了华为杯研究生数学建模比赛，历经5天的比赛，最终结果是全国二等奖，还算不错。作为队伍中的编程手和建模者，我使用的是jupyter notebook…

人工智能 2023年6月17日
00102
淘宝用户数据分析

目录第一章、绪论… 2 1.1.研究背景及现状… 2 1.1.1.研究背景… 2 1.1.2.国内外研究现状… 2 1.2.本论文…

人工智能 2023年6月19日
00113
pytorch tensor 乘法运算汇总与解析

元素一一相乘该操作又称作 “哈达玛积”, 简单来说就是 tensor 元素逐个相乘。这个操作，是通过 * 也就是常规的乘号操作符定义的操作结果。torch…

人工智能 2023年7月21日
0066
Linux上安装tensorflow

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月25日
0057
数据分析初学入门——22本SQL学习书籍推荐

很多数据分析初学者都被推荐学SQL，SQL是最基础且是必备的技能之一，但是不知道该从何学起，很多课程讲了很多知识点，但是初学的朋友没有对这一领域整体框架的认识，不知道该学哪些知识、…

人工智能 2023年7月15日
0086
ubuntu16.04下安装Dynaslam的cpu版本（后续补上gpu版本）

我是从18.04开始装的后来发现由于要安装opencv2.4.11，但是在编译opencv2.4.11的过程中有太多编译错误无法解决，而且在结合很多人的博客后依然无法解决我选择了重…

人工智能 2023年5月26日
0073
200 bbbbbbbbbbbbjjjnnn

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月29日
0076
(一)路径规划算法—Astar实现自定义的全局路径规划插件

Astar实现自定义的全局路径规划插件文章目录 Astar实现自定义的全局路径规划插件 * 1.插件功能包的建立 2. 相关步骤 – 2.1 建立工作空间和环境变量的…

人工智能 2023年6月1日
0078
pycharm运行python程序环境配置

第一步：pycharm配置python运行环境： setting————–project interpreter 选择d…

人工智能 2023年7月29日
00100
pandas 数据处理-Group by操作

使用 “group by” 方式我们通常会有以下一个或几个步骤： Splitting：根据某一准则对数据分组 Applying ：对每一分组数据运用某个方法…

人工智能 2023年7月6日
0087
利用MATLAB实现WAV音频的LSB信息隐藏

背景音频信息隐藏技术是将秘密数据直接嵌入到音频载体中，但不影响原始载体的使用价值，不易被感知系统感知或注意。 [En] Audio information hiding tech…

人工智能 2023年5月27日
00119
睿智的目标检测56——Pytorch搭建YoloV5目标检测平台

睿智的目标检测56——Pytorch搭建YoloV5目标检测平台学习前言源码下载 YoloV5改进的部分（不完全） YoloV5实现思路 * 一、整体结构解析二、网络结构解析…

人工智能 2023年7月12日
0057
安装Keras，tensorflow，并将虚拟环境添加到jupyter notebook

写在面前：最近需要用LSTM，今天开始搭环境，遇到了很多问题，其中主要是两个问题，不太懂装环境的朋友可以注意一下： 1、tensorflow和keras以及numpy等等版本的兼…

人工智能 2023年5月24日
00100

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【Bert + BiLSTM + CRF】实现实体命名识别，最少的代码实现功能，简单易用

代码

输出如下

Bert中文预训练文件可以在 这里 下载

大家都在看

Bert中文预训练文件可以在这里下载