简洁优美的深度学习包-bert4keras

2023年5月23日下午4:13 • 人工智能 • 阅读 198

在鹅厂实习阶段，follow苏神（科学空间）的博客，启发了idea，成功改进了线上的一款模型。想法产出和实验进展很大一部分得益于苏神设计的bert4keras，清晰轻量、基于keras，可以很简洁的实现bert，同时附上了很多易读的example，对nlp新手及其友好！本文推荐几篇基于bert4keras的项目，均来自苏神，对新手入门bert比较合适~

tokenizer：分词器，主要方法：encode,decode。
build_transformer_model：建立bert模型，建议看源码，可以加载多种权重和模型结构（如unilm）。

import numpy as np
from bert4keras.models import build_transformer_model
from bert4keras.tokenizers import Tokenizer
from bert4keras.snippets import to_array

config_path = '/root/kg/bert/chinese_L-12_H-768_A-12/bert_config.json'
checkpoint_path = '/root/kg/bert/chinese_L-12_H-768_A-12/bert_model.ckpt'
dict_path = '/root/kg/bert/chinese_L-12_H-768_A-12/vocab.txt'

tokenizer = Tokenizer(dict_path, do_lower_case=True)
model = build_transformer_model(
    config_path=config_path, checkpoint_path=checkpoint_path, with_mlm=True
)

token_ids, segment_ids = tokenizer.encode(u'科学技术是第一生产力')

token_ids[3] = token_ids[4] = tokenizer._token_mask_id
token_ids, segment_ids = to_array([token_ids], [segment_ids])

probas = model.predict([token_ids, segment_ids])[0]
print(tokenizer.decode(probas[3:5].argmax(axis=1)))

句子1和句子2拼接在一起输入bert。
bert模型的pooler输出经dropout和mlp投影到2维空间，做分类问题。
最终整个模型是一个标准的keras model。

class data_generator(DataGenerator):
    """数据生成器
"""
    def __iter__(self, random=False):
        batch_token_ids, batch_segment_ids, batch_labels = [], [], []
        for is_end, (text1, text2, label) in self.sample(random):
            token_ids, segment_ids = tokenizer.encode(
                text1, text2, maxlen=maxlen
            )
            batch_token_ids.append(token_ids)
            batch_segment_ids.append(segment_ids)
            batch_labels.append([label])
            if len(batch_token_ids) == self.batch_size or is_end:
                batch_token_ids = sequence_padding(batch_token_ids)
                batch_segment_ids = sequence_padding(batch_segment_ids)
                batch_labels = sequence_padding(batch_labels)
                yield [batch_token_ids, batch_segment_ids], batch_labels
                batch_token_ids, batch_segment_ids, batch_labels = [], [], []

bert = build_transformer_model(
    config_path=config_path,
    checkpoint_path=checkpoint_path,
    with_pool=True,
    return_keras_model=False,
)

output = Dropout(rate=0.1)(bert.model.output)
output = Dense(
    units=2, activation='softmax', kernel_initializer=bert.initializer
)(output)

model = keras.models.Model(bert.model.input, output)

model = build_transformer_model(
    config_path,
    checkpoint_path,
    application='unilm',
    keep_tokens=keep_tokens,
)

NLG任务的loss是交叉熵，示例中的实现很美观：

CrossEntropy类继承Loss类，重写compute_loss。
将参与计算loss的变量过一遍CrossEntropy，这个过程中loss会被计算，具体阅读Loss类源码。
最终整个模型是一个标准的keras model。

class CrossEntropy(Loss):
    """交叉熵作为loss，并mask掉输入部分
"""
    def compute_loss(self, inputs, mask=None):
        y_true, y_mask, y_pred = inputs
        y_true = y_true[:, 1:]
        y_mask = y_mask[:, 1:]
        y_pred = y_pred[:, :-1]
        loss = K.sparse_categorical_crossentropy(y_true, y_pred)
        loss = K.sum(loss * y_mask) / K.sum(y_mask)
        return loss

model = build_transformer_model(
    config_path,
    checkpoint_path,
    application='unilm',
    keep_tokens=keep_tokens,
)

output = CrossEntropy(2)(model.inputs + model.outputs)

model = Model(model.inputs, output)
model.compile(optimizer=Adam(1e-5))
model.summary()

预测阶段自回归解码，继承AutoRegressiveDecoder类可以很容易实现beam_search。

项目地址：SimBert
融合了unilm和对比学习，data generator和loss类的设计很巧妙，值得仔细阅读，建议看不懂的地方打开jupyter对着一行一行print来理解。

bert4keras项目的优点：

build_transformer_model一句代码构建bert模型，一个参数即可切换为unilm结构。
继承Loss类，重写compute_loss方法，很容易计算loss。
深度基于keras，训练、保存和keras一致。
丰富的example！苏神的前沿算法研究也会附上bert4keras实现。

Original: https://blog.csdn.net/weixin_44597588/article/details/123910248
Author: 一只用R的浣熊
Title: 简洁优美的深度学习包-bert4keras

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/496338/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

计算机视觉—— 相机标定

目录简介一、相机模型 1.坐标系 2.坐标系变化 3.相机畸变模型二、相机标定原理三、张正友黑白棋盘格标定 2.1.算法思想 2.2.求解内参和外参的积 2.3.求解内参矩…

人工智能 2023年6月23日
0051
60分钟闪击速成PyTorch（Deep Learning with PyTorch: A 60 Minute Blitz）学习笔记

诸神缄默不语-个人CSDN博文目录本笔记是我学习 Deep Learning with PyTorch: A 60 Minute Blitz 这一PyTorch官方教程后的学习笔…

人工智能 2023年7月21日
0044
Anaconda同时安装Tensorflow和Pytorch（window系统）步骤/流程/方法

目录前言参考链接一、Tensorflow的版本兼容性二、Pytorch的版本兼容性三、Tensorflow安装流程 * 1.创建虚拟环境 2.激活虚拟环境 3.配置CUD…

人工智能 2023年7月22日
0057
语音信号处理基础知识-常用特征及预处理

目录一、语音信号的特点二、常用语音特征参数三、语音信号预处理四、参考链接一、语音信号的特点其主要特点如下所示：a) 语音信号的带宽约为5 K h z 5Khz 5 K…

人工智能 2023年5月25日
0073
数据挖掘框架（结构化数据）

数据量数据缺失情况描述性统计特征理解特征分布周期性分析对比分析相关性分析训练集和测试集的分布一致性缺失值处理异常值处理内存优化数据增强欠采样/过采样 1.ID特征处理需要考虑训练…

人工智能 2023年7月18日
0049
坐标变换最通俗易懂的解释（推到+图解）

目录坐标变换详解坐标变换的作用实现坐标变换所需的数据位姿坐标变换中旋转的实质坐标变换中平移的实质如何计算坐标系B各坐标轴在坐标系A上的投影？（多坐标变换）如何实现坐…

人工智能 2023年6月1日
0068
pandas.DataFrame 按行和列遍历DataFrame

Python:3.8.5 pandas:1.1.3 按列遍历DataFrame：测试用例： import pandas as pd test = pd.DataFrame(col…

人工智能 2023年7月7日
0079
在python中使用SVM

在python 中使用支持向量机三、在python中使用SVM * 3.1 scikit-learn库 3.2 SVM在scikit-learn库中的使用 – 3.2…

人工智能 2023年7月4日
0051
逻辑斯蒂（logistic）回归学习+手撕代码

Logistic回归最近面试的朋友有被要求现场手写logistic模型，再加上本身有些厂面试爱手撕logistic公式，再加上有些面试会让你介绍一个自己最熟悉的机器学习模型，我寻…

人工智能 2023年6月18日
0096
图解机器学习算法(7) | 随机森林分类模型详解（机器学习通关指南·完结）

作者：韩信子@ShowMeAI 教程地址：https://www.showmeai.tech/tutorials/34 本文地址：https://www.showmeai.tech…

人工智能 2023年6月15日
0076
数据仓库与数据挖掘的第一章课后习题

第一章习题 1.数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。 2.元数据是描述数据仓库内数据的结构和建立方法的数据.它为访问数据仓库提供了一个信息目…

人工智能 2023年7月17日
0062
打印星堆（for循环嵌套实例）

/* 从键盘接受一个正整数，该正整数作为行数，输出以下图形 * 第一行 5（总行数）-1（行数i）个空格 1个* 2*1（行数i）-1=1 *** 第二行 5（总行数）-2（行数i…

人工智能 2023年6月26日
0055
OpenCV每日函数使用OpenCV的solvePnP函数和Dlib估计头部姿势

一、姿势估计概述在许多应用中，我们需要知道头部是如何相对于相机倾斜的。例如，在虚拟现实应用程序中，可以使用头部的姿势来渲染场景的右视图。在驾驶员辅助系统中，在车辆中观察驾驶员面部…

人工智能 2023年6月17日
0062
【知识图谱系列】-【Neo4j】之Cypher 一

Cypher是Neo4j支持的一种图数据库查询语言，其具有极强的表达能力，能够支持图数据库数据的增删改查功能。以下将罗列常用的cypher语句。增加节点的核心为：create 1…

人工智能 2023年6月1日
0044
Python统计代码运行时间

Python统计代码运行时间前言方法1（推荐）：通过代码统计 * 说明步骤单位完整示例方法2：通过Pycharm编辑器前言 Python代码想统计运行时间有很多种方法…

人工智能 2023年7月30日
0047
[Pytorch]多层感知机（MLP）回归的实现、训练与评估

文章目录前言一、网络主体构建 * 1.网络构建 1.网络结构可视化二、数据集构建与网络训练 * 1.数据集构建 2.网络训练三、网络评估总结前言 MLP是一种常用的前馈…

人工智能 2023年7月5日
0068

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

简洁优美的深度学习包-bert4keras

大家都在看