基于Python的宋词生成器

2023年5月28日下午2:03 • 大数据 • 阅读 95

资源下载地址：https://download.csdn.net/download/sheziqiong/85631523

1. 背景

我有两个爱好，一个是传统文化，另一个是高新技术。

传统文化，我喜欢唐诗宋词、笔墨丹青，高新技术我则从事前沿的IT编程，喜欢研究人工智能。

我很想让这两者联系起来，这一老一新，不知道会碰撞出什么火花。

2. 成果

通过试验，利用循环神经网络结合文本生成，我最终练成神功：提供一个开头，他就会自动生成一篇宋词。而且，这篇新词绝对是原创。

开头生成细雨细雨仙桂春。明月此，梦断在愁何。等闲帘寒，归。正在栖鸦啼来。清风清风到破向，貌成眠无风。人在梦断杜鹃风韵。门外插人莫造。怯霜晨。高楼高楼灯火，九街风月。今夜楼外步辇，行时笺散学空。但洗。俯为人间五色。海风海风落今夜，何处凤楼偏好。奇妙。残月破。将心青山上，落分离。今夜今夜谁和泪倚阑干。薰风却足轻。似泠愁绪。似清波似玉人。羞见。

对于诗词稍有研究的我，对于上面”高楼”一词生成的文本，比较满意。

高楼灯火，九街风月。今夜楼外步辇，行时笺散学空。但洗。俯为人间五色。

高楼处在高处，后面的文本也体现了”高”的特色，”高楼望街”是一番意境，”高楼望夜”又是另一番意境，最后出了一个”俯看五色”，一个”俯”字，也是体现了居高临下，整篇文本无不围绕”高”的主题。实乃绝妙！

下面就来剖析下，宋词生成是如何实现的。

3. 实现方式

3.1 数据的准备

我找到了一个宋词数据集，是一个csv格式的文件，里面有2万首宋词。

文档的第一列是词牌名，第二列是作者，第三列是正文。其中正文，已经做好了分词处理。

想要了解分词，可以查看NLP知识点：中文分词。

; 3.2 数据的读入

首先导入整个项目涉及到的包。

import csv
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np
from tensorflow.python.keras.engine.sequential import Sequential
from tensorflow.keras import layers
from tensorflow.keras.optimizers import Adam

下面是加载数据集文件中数据的方法。

def load_data(num = 1000):

    csv_reader = csv.reader(open("./ci.csv",encoding="gbk"))

    ci_list = []
    for row in csv_reader:

        ci_list.append(row[2])

        if len(ci_list) > num:break
    return ci_list

然后进行数据序列化。

这里要重点说明一下，因为要做文本预测的训练，需要从上面的词语推断出下面的词语，所以这里做了一些加工。

比如”看山不是山，看山又是山”这一句，它给转化成了多句：

&#x770B;&#x5C71; &#x4E0D;&#x662F;
&#x770B;&#x5C71; &#x4E0D;&#x662F; &#x5C71;
&#x770B;&#x5C71; &#x4E0D;&#x662F; &#x5C71; &#xFF0C;
&#x770B;&#x5C71; &#x4E0D;&#x662F; &#x5C71; &#xFF0C; &#x770B;&#x5C71;
&#x770B;&#x5C71; &#x4E0D;&#x662F; &#x5C71; &#xFF0C; &#x770B;&#x5C71; &#x53C8;&#x662F;
&#x770B;&#x5C71; &#x4E0D;&#x662F; &#x5C71; &#xFF0C; &#x770B;&#x5C71; &#x53C8;&#x662F; &#x5C71;

这么做的目的就是告诉神经网络，如果前面是”看山”，后面跟一个词语是”不是”。当前面变成”看山不是山，看山”时，这时”看山”后面就变成”又是”了。

“看山”后面并不是固定的，而是根据它前面一串词语综合判断而决定的。

将一句话，切成多句话，这是一个特殊处理的地方，就是下面代码做的事情：

for i in range(1, len(token_list)):
    n_gram_sequence = token_list[:i+1]
    input_sequences.append(n_gram_sequence)

3.3 构建模型

要训练数据，我们首先得有一个神经网络模型，下面是构建了一个网络模型序列。

def create_model(vocab_size, embedding_dim, max_length):

    model = Sequential()

    model.add(layers.Embedding(vocab_size, embedding_dim, input_length = max_length))

    model.add(layers.Bidirectional(layers.LSTM(512)))

    model.add(layers.Dense(vocab_size, activation='softmax'))

    adam = Adam(lr=0.01)

    model.compile(loss='categorical_crossentropy',optimizer=adam, metrics=['accuracy'])

    return model

关于模型、层、激活函数的知识点，有专门解释：神经网络模型的序列和层、激活函数。


&#x5047;&#x8BBE;&#x6211;&#x4EEC;&#x5F97;&#x5230;&#x4E86;&#x8BAD;&#x7EC3;&#x5E8F;&#x5217;input_sequences&#x662F;&#xFF1A;

[0, 0, 1, 2]
[0, 0, 3, 4]
[0, 3, 4, 5]
[3, 4, 5, 6]


&#x5BF9;&#x5E94;&#x6587;&#x5B57;&#x5C31;&#x662F;&#xFF1A;

[0, 0, 春花, 秋月]
[0, 0, 一江, 春水]
[0, 一江, 春水, 向东]
[一江, 春水, 向东, 流]


&#x5BF9;&#x4E8E;&#x8BAD;&#x7EC3;&#xFF0C;&#x4E00;&#x822C;&#x90FD;&#x662F;&#x6210;&#x5BF9;&#x7684;&#x3002;&#x4E00;&#x4E2A;&#x8F93;&#x5165;&#xFF0C;&#x4E00;&#x4E2A;&#x8F93;&#x51FA;&#x3002;&#x673A;&#x5668;&#x5C06;&#x5B66;&#x4E60;&#x4ECE;&#x8F93;&#x5165;&#x63A8;&#x65AD;&#x51FA;&#x8F93;&#x51FA;&#x7684;&#x8BC0;&#x7A8D;&#x3002;

&#x5728;&#x8FD9;&#x4E2A;&#x4F8B;&#x5B50;&#x4E2D;&#xFF0C;&#x56E0;&#x4E3A;&#x662F;&#x4ECE;&#x4E0A;&#x4E00;&#x4E2A;&#x8BCD;&#x63A8;&#x65AD;&#x51FA;&#x4E0B;&#x4E00;&#x4E2A;&#x8BCD;&#xFF0C;&#x6240;&#x4EE5;&#x8F93;&#x5165;&#x548C;&#x8F93;&#x51FA;&#x90FD;&#x8981;&#x4ECE;&#x4E0A;&#x9762;&#x7684;&#x8BED;&#x6599;&#x5E93;&#x4E2D;&#x6765;&#x53D6;&#x3002;

&#x4E0B;&#x9762;&#x8FD9;&#x6BB5;&#x4EE3;&#x7801;&#x5C31;&#x662F;&#x4ECE;input_sequences&#x53D6;&#x51FA;&#x4E86;&#x8F93;&#x5165;&#x548C;&#x8F93;&#x51FA;&#xFF1A;
`python
xs = input_sequences[:,:-1]
labels = input_sequences[:,-1]

输入 xs输出 labels[0, 0, 春花][秋月][0, 0, 一江][春水][0, 一江, 春水][向东][一江, 春水, 向东][流 ]

因为模型里面激活函数使用了 activation='softmax'，所以这个输出要通过 tf.keras.utils.to_categorical转化成了独热编码。

此时，需要强调几个概念：

文本序列的最大长度 max_sequence_len就是 [一江, 春水, 向东， 流]的长度，此处值为4。主要作用是定义一个固定的训练长度，长度不足时补0，超出时裁剪。

为什么要这么做，可以点击此处了解。

输入序列的长度 input_length就是 [0, 一江, 春水]的长度，固定为3，是从 max_sequence_len截取出来的，最后一个词不要。主要作用是作为输入。

3.5 进行预测

训练完成之后，我们就可以享受胜利果实，开始进行预测了。

预测需要给一个开头的词语，并且指定后面需要预测多少个词语。

预测B

预测C

预测D

预测后面N个词

开头词语 A

ABC

ABCD

首先，根据开始的词语，通过 model.predict_classes(token_list)预测出下一个词语，接着开头词语连同预测词语两方再作为输入，继续预测下一个词语。如此类推，像贪吃蛇一样，从一个开头词语慢慢地引出一个长句子。句子中每个词语是有语义上的前后关系的。

这就是宋词生成器的实现逻辑，希望对你有所帮助。

资源下载地址：https://download.csdn.net/download/sheziqiong/85631523

Original: https://blog.csdn.net/newlw/article/details/122546983
Author: biyezuopinvip
Title: 基于Python的宋词生成器

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531961/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

11个物联网消息传递的神话

由于数据的实时处理和传递问题，企业物联网市场出现了许多应用开发神话。这篇文章似乎很受那些神话气球的欢迎。 [En] Due to the problem of real-time …

大数据 2023年5月24日
0094
【博学谷学习记录】超强总结，用心分享|大数据之Presto

大数据 2023年11月14日
0048
RocketMQ系列二：RocketMQ监控/告警一站式搭建应用

实验简介研究RocketMQ的同学都知道，RocketMQ的生态目前并不是很完善，包括官方的文档资料也有限，官方的Console存在一些Bug，页面的样式有的也有问题，但是正是由…

大数据 2023年6月3日
0072
【集群迁移】使用Shell脚本获取老集群整个Hive库的建库、建表DDL

【集群迁移】使用Shell脚本获取老集群整个Hive库的建库、建表DDL 前言做集群迁移时，肤浅的SQL Boy们只会在Hue用Hive执行 show create table …

大数据 2023年11月13日
0049
Java基础——List集合

List集合 Collection 层次结构中的根接口。一些 collection 允许有重复的元素，而另一些则不允许。一些 collection 是有序的，而另一些则是无序的。J…

大数据 2023年6月3日
0082
猿创征文| redis基本数据类型

大数据 2023年11月14日
0039
大数据技术之CM安装

Cloudera Manager 1.1 cloudera manager的概念简单来说，Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能…

大数据 2023年5月26日
0068
NLP藏头诗写作

这是一个类似MNIST和CIFAR分类的简单项目，可以看作NLP领域的入门。数据预处理我选的是史上最全的诗歌数据集https://github.com/chinese-poet…

大数据 2023年5月28日
0085
java 八股文

大数据 2023年11月16日
0036
电信公司Mahindra Comviva利用VoltActiveData来部署实时客户价值

Mahindra Comviva将大数据转化为有效洞察力，在正确的时间、正确的渠道、以正确的方式将正确的信息与正确的人联系起来。这家创新公司为移动服务提供商提供实时、适应性强的情境…

大数据 2023年6月3日
0069
linux-0.11分析：boot文件 head.s 第三篇随笔

接下里就看看 setup_paging这个函数吧 setup_paging: movl $1024*5,%ecx /* 5 pages – pg_dir+4 page tables…

大数据 2023年5月27日
0073
SQLite数据库使用（sqlite3 c++）

本文只针对sqlite3 c++ API调用。 1、基础知识 sqlite3只是一个嵌入式数据库引擎，占用资源非常底，可以适用于Windows和Linux，而且sqlite3只是一…

大数据 2023年11月10日
0046
【Hadoop】HDFS操作、数据上传与下载原理解析、高级特性及底层原理

HDFS操作、数据上传与下载原理解析、高级特性及底层原理 1 HDFS操作 1.1 Web Console网页工具 1.2 命令行 1.2.1 普通的操…

大数据 2023年5月24日
0072
python3使用nltk.download()时出错的解决办法(WinError 10060)

我用的是anaconda，自带nltk，但是没有扩展语料库，需要通过nltk.download()进行下载。运行后，直接提示WinError 10060（也可能是其他错误信息），然…

大数据 2023年5月28日
0075
Java从SQLite库的表中读取Blob类型数据，并使用GeomFromText（）函数将数据存入MySQL表的wkt字段，类型为geometry

一.背景概述本周接到一个需求，需要将SQLite中一张表的数据迁移到MySQL库里，拆分为多张表存放数据。SQLite中的迁移对象表为：tm_world_region，其表结构如…

大数据 2023年11月10日
0046
在mac(m1)上启动mybatis-generator-gui报错及修复

问题一：javaFX 首先遇到的就是javaFX相关包找不到、fxml文件显示异常的问题。之前在windows上，装的是oracle官方jdk。换了mac之后，装了zulu的jdk…

大数据 2023年11月12日
0039

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31