代码注释生成：《Deep code comment generation with hybrid lexical and syntactical information》论文笔记

2023年5月28日下午12:33 • 大数据 • 阅读 83

原文链接：点此转跳
来源：Empirical Software Engineering, 2019

一、背景及介绍

这篇论文的工作其实是之前他们所提出的一个模型——DeepCom（DeepCom的具体介绍可看我之前的一篇笔记：点此转跳）的升级版，新名字叫混合DeepCom，可以较好地学习代码的词汇和句法信息，从而提高注释生成的质量。
主要区别如下：

DeepComeHybrid-DeepCom输入仅AST源码+ASTAST遍历策略SBT（包含节点的type和value）SBT(仅包含type，因为源码已经包含了value信息)结构一个编码器，一个解码器，Attention两个编码器，一个解码器，Attentionout-of-vocabulary tokens的处理用节点的类型代替使用驼峰分词translate策略直接用最大概率的token一个个单词生成beam search

主要贡献

将代码注释生成任务转化为机器翻译任务。
针对Java方法的注释生成任务，搭建了一个基于序列的模型来学习代码的词汇和结构信息。为此提出了一种新的AST遍历方法（structure-based traversal，SBT）来更好地表示代码的结构信息。
使用驼峰分词法将许多用户定义的标识符分词，以此减少源代码中的out-of-vocabulary tokens。

二、模型结构及原理

整体结构

代码注释生成：《Deep code comment generation with hybrid lexical and syntactical information》论文笔记

就是一个编码器的输入是SBT遍历后的AST序列，另一个编码器的输入是源码序列，每个编码器都采用Attention进一步加强语义向量C表征能力，两个编码器的语义向量C拼接后送入解码器解码，下图是更细节的结构图：

; Encoder

混合deepcom分别用两个编码器来源码和AST序列进行编码。一个编码器学习源码中的词汇信息，另一个编码器学习AST序列中的结构信息。这次论文编码器采用的是GRU，相对于原来的LSTM，也算是一个小改动吧。

从上图可以发现，GRU其实就是LSTM的变体，减少了许多参数，训练速度更快。在每个时间步t，GRU读取序列的一个token xt，然后更新并记录当前的隐藏状态st，计算表达式如下：

其中f是GRU单元的映射函数，将源语言中的一个单词xt和上一个隐藏状态st-1映射当前隐藏状态st。

Attention

没有加注意力机制的话，解码时用的都是固定的语义向量c。引入注意力机制后，固定的中间语义向量c换成了根据当前生成单词而不断变化的ci，由于混合DeepCom用到两个编码器，这里主要说一下怎么结合两个编码器的attention来计算ci，计算如下：

其实嘛，也就是简单相加，左右两边其实就是两个编码器的注意力。参数的意义如下：

权重的计算就是对eij进行softmax，eij是相关性得分，由输出的第i-1个隐藏状态和编码器的第j个隐藏状态的计算得出。

; Decoder

解码器用的也是GRU，没啥好说的，没什么改动，和之前一样，贴个公式吧，加深印象：

就是不断将前一个时刻的输出yi-1作为后一个时刻的输入，输出的是每个字符的概率值，g是概率映射函数，利用上一个时刻输出，当前隐藏状态和当前语义向量计算。
训练目标是最小化交叉熵误差：

Beam Search

Beam Search是greedy Search的扩展，其返回是一个最有可能的输出序列的列表。在每个时间步长中，Beam Search会保留成本最小的k个令牌作为候选，其中k也叫 beam-width，一个简单的例子如下图，这里设置k=2，因此最后输出列表有两个候选序列。

论文里根据Beam Search过程中生成的注释tokens的平均概率进行排序，选择Top1注释作为最终结果。

; SBT

与论文之前的DeepCom提出的基本没什么不同，只不过 一个细节是混合DeepCom对AST进行SBT的时候 只在序列添加AST节点的type，因为节点的类型反映了代码的结构信息。

Reduce Out-of-Vocabulary Tokens

代码除了固定的操作符和关键字外，还有大量用户定义的标识符，这些标识符对语言模型的词汇表有重要影响。如果直接将这些标识符添加进词汇表，其词汇量是非常大的。作者通过观察发现其实大多数标识符都是由几个单词组成的。这些词通常是常见的词，并经常被反复使用。因此，基于一个简单的思考，作者将标识符采用驼峰分词法将其划分为几个单词，以减少源代码中的Out-of-Vocabulary Tokens。经过这番操作，训练集中的tokens数量从542,680减少到47,939。

三、实验

数据集

数据集来自GitHub2015-2016年创建的Java仓库，保留10星以上的项目。
作者也是公布了他们的数据集：点此转跳

数据处理

作者首先从这些Java项目中提取Java方法及其相应的Javadoc，使用Javadoc的第一句话作为目标注释，因为根据Javadoc指南，第一句话通常是用来描述Java方法的功能。其次是对代码-注释对进行过滤：过滤掉只有一个单词的Javadac的代码-注释对；排除了setter, getter, constructor和test等注释简单的方法。最后得到了588,108种方法-注释对。

数据清洗

用@SmallTest、@LargeTest和@MediumTest标记来过滤Java方法。
过滤掉Java的重写方法，因为重写方法通常实现的是相同的功能，会导致不必要的重复。
过滤掉源码长度大于200的代码-注释对
过滤掉注释长度小于4和大于30的代码-注释对
词汇表的建立

所有单词转换为小写
数字和字符串分别用
源代码和AST序列的最大长度分别设置为200和500，最大注释长度设置为30，长度小的用
所有序列的开始和结尾添分别加

模型参数设置

模型搭建框架——tensorflow
优化器——SGD
模型——单层GRU，隐藏状态与词嵌入维度均为256
学习率——0.5，按0.99的衰减速率衰减
gradients norm——5
beam width——5

评价指标

作者用的评价指标真的过多过于复杂，分为Information Retrieval (IR) metrics 和 Machine Translation (MT)，这里就不罗列了，主要关注BLEU吧

; RQ1: How effective is Hybrid-DeepCom compared with the state-of-the-art baselines?

RQ2: What is the impact of source code and comments with different lengths on the performance of Hybrid-DeepCom?

; RQ3: What is the impact of the vocabulary size on the performance of Hybrid-DeepCom?

横轴的比例是out of vocabulary的比例，camel表示将标识符用驼峰分割后的单词被词汇表完全包含。由于deepcom没用驼峰分割（直接用AST节点的type代替没见过的AST节点单词）因此他们没有这一项的计算。

RQ4: How effective is Hybrid-DeepCom to generate comments for new projects?

采用10折交叉验证，最后记录平均结果。

; 四、讨论与结论

主要针对三方面：

(1) when Hybrid-DeepCom generates comments with high BLEU score?

(2) why the automatically generated comments receive low BLEU scores?

(3) why there are unknown words in the generated comments?

这些讨论都挺有意思的，具体可以看原文作者给出的解释。
Hybrid-DeepCom模型是比较简单的，基于基本的seq2seq模型，相对于DeepCom的提升还是可以的，个人认为比较亮眼的就是多个编码器的集合和注意力机制的结合方面，给我们一定的参考，并从特征提取方面思考，融合代码词汇和句法信息。如今transformer盛行，已有研究者相关工作展开了，用更高级的模型也是提升性能的另一种思路。

Original: https://blog.csdn.net/qq_42714262/article/details/121255161
Author: Hilbob
Title: 代码注释生成：《Deep code comment generation with hybrid lexical and syntactical information》论文笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531512/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Linux基础命令(三)

1.Linux文件命名规则长度不能超过255个字符不能使用/当文件名 *严格区分大小写 2.文本查找——grep 语法：grep [option…] ‘…

大数据 2023年5月27日
0052
[文献阅读]—Importance-based Neuron Allocation for Multilingual Neural Machine Translation

前言代码地址：https://github.com/ictnlp/NA-MNMT论文地址：https://aclanthology.org/2021.acl-long.445.p…

大数据 2023年5月28日
0095
Docker从入门到精通（二）——安装Docker

通过上面文章，我们大概知道了什么是Docker，但那都是文字功夫，具体想要理解，还得实操，于是这篇文章带着大家来手动安装Docker。 1、官方教程 https://docs.do…

大数据 2023年5月29日
0073
银行管理系统 – 2022计科实训QT课设

Github: https://github.com/okfanger/xiaofang-supermarket-qt ; 1. 项目速览开发语言：QT 5.6.3开发工具：QT…

大数据 2023年11月10日
0051
docker swarm 搭建与服务更新

docker swarm init –advertise-addr 192.168.100.129 此时将本机ip”192.168.100.126″，会默…

大数据 2023年5月29日
0087
C++编译器选择是否自动生成代码的背后逻辑

编译器会为class和struct（实际上两者在C++中是一回事）自动生成构造函数、赋值操作符函数和析构函数。如果不是这样，那么开发者就必须自己写一些枯燥冗余的代码。然而编译器并不…

大数据 2023年6月3日
0090
redis集群的优缺点，5种使用方式优缺点介绍

大数据 2023年11月16日
0041
Hbase高手之路 — 第七章 — HBase和Hive（类sql）的整合

大数据 2023年11月13日
0043
Nacos 国内镜像

大数据 2023年11月14日
0051
AlmaLinux 9 正式版发布，四种架构（x86_64、aarch64、ppc64le、s390x）同时可用

AlmaLinux 9.0 下载，由社区提供的免费 Linux 操作系统，RHEL 兼容发行版。请访问原文链接：https://sysin.org/blog/almalinux-…

大数据 2023年5月27日
0081
利用Appium自动控制移动设备并提取数据

利用appium自动控制移动设备并提取数据 1. 安装appium-python-client模块并启动已安装好的环境 * 1.1 安装appium-python-client模块…

大数据 2023年11月11日
0062
大数据学习笔记——————-(21)

第21章 HIVE 数据类型 Hive中所有的数据类型都符合如下四种类型：列类型(Column Type)、文本类型(Literals)、Null类型(Null Values)、复…

大数据 2023年5月26日
0062
直播预告｜走好数据中台最后一公里，数据服务API是数据中台的标配

原文链接：直播预告｜走好数据中台最后一公里，数据服务 API 是数据中台的标配一、课程介绍数据服务 API 作为数据统一服务平台建设的最上层，能够将数据仓库数据以服务化…

大数据 2023年5月26日
0075
Hive

一、Hive 1.1 Hive作用及优缺点 1、前端采集数据 2、然后对数据进行预处理，将其变为结构化数据。MR和Spark可以做 3、拿到海量数据，对于海量数据的分析，SQL可以…

大数据 2023年11月12日
0036
Redis bitmap、hyperlog、布隆过滤器、RoaringBitmap原理应用场景与日活的统计的具体应用

传统方案-mysql 缺点：1.空间占用大 2.统计逻辑复杂，比如统计最近 30 天用户的累计活跃天(每个用户在 30 天里有 N 天使用 app，N 为 1-30，然后将月活跃…

大数据 2023年11月13日
0044
Linux：文件解压、复制和移动的若干坑

Linux下进行文件的解压、复制、移动应该是最常见的操作了。尤其是我们在项目中使用大量的数据集文件（比如机器学习）时。然而使用这些命令时一不留神就会掉进坑里，这篇文章我们就来细数用…

大数据 2023年5月27日
0068

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31