论文:Unsupervised Summarization for Chat Logs with Topic-Oriented Ranking and Context-Aware Auto-Encoders.AAAI2021
算法概要:
基于相似度选择对话主题句,然后借助降噪自编码器生成对话摘要。
训练:1、采用对比学习的思想训练句子相似度计算模型;
2、训练降噪自编码器用于后续生成对话摘要。
测试:基于MMR的想法,综合考虑重要性和冗余度选取对话主题句,然后使用降噪自编码器生成最终摘要。
一、论文贡献
提出无监督神经网络框架RankAE
RankAE组成:
1、训练句子相似度计算模型,选择主题句
2、DAE(去噪自编码器)
二、实现
训练相似度模型:
噪声数据构造:
1、片段插入:在同一聊天文本中采样词序列,插入到原始对话中,直到序列长度增加 40% 到 60% 的比例,此方法插入概率Pa;
2、句子替换,整个句子换成同一聊天的其他句子,被替换的句子在语料中删除,以便模型学会在粗粒度级别上过滤掉不相关的话语,概率Pr;
3、以概率Ps 保持话语不变。 内容保留的目的是使表示偏向于实际观察到的话语;
train DAE
推理:
三、实验
实验数据:
实验结果:
说明:
LEAD是下限
ORACLE 是上限,有监督抽取式;
TRF为transformer
PacSum:通过构建有向图和添加基于边缘方向的权重约束来改进 TextRank;
MeanSum:使用来自输入句子的自动编码器表示的平均值来解码摘要;
SummAE:通过使用 DAE 和对抗性判别器联合重建文档和句子来生成简短的摘要;
示例:
Original: https://blog.csdn.net/qq_32091131/article/details/122889817
Author: 菜鸟ccc
Title: 无监督文本摘要,生成式文本摘要
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/545074/
转载文章受原作者版权保护。转载请注明原作者出处!