基于NLP的软件分析和程序漏洞挖掘（二）

2023年5月28日下午12:42 • 大数据 • 阅读 71

找到NLP在软件分析和漏洞挖掘的契合点之后，我们需要去调研这方面现有的研究情况。发现已经有人使用NLP来对二进制代码进行分析，主要有3种方向上使用NLP分析二进制代码，但大多数都是对二进制代码进行静态分析，以下就这三种分析方向进行介绍。

Code Similarity Detection

至今，已经有两篇文章使用NLP做代码相似性检测，分别是1）Safe: Self-attentive function embeddings for binary similarity 发表在 2019 Detection of Intrusions and Malware & Vulnerability Assessment 和2）Neural Machine Translation Inspired Binary Code Similarity Comparison beyond Function Pairs发表在 2019 NDSS。
首先1）文章描述了二进制分析已经从安全人员进行代码审计转换为将二进制代码转换为多维向量表示，然后通过简单有效的几何运算来比较向量。这种方法通常使用手工提取从二进制代码导出特征，这样导致漏洞检测或恶意代码检测的成功与否都受到安全人员选择特征提取方向的影响。所以这篇文章创新的提出了基于自注意神经网络的函数嵌入架构，直接通过反汇编二进制程序得到汇编代码作为数据集，并通过tensorflow的skip-gram来得到预训练模型。对于之后的自注意网络使用了双向递归神经网络以嵌入后的指令向量作为输入，RNN计算一个总结向量考虑到指令本身及其上下文。最终嵌入是所有

Original: https://blog.csdn.net/weixin_43926330/article/details/121628125
Author: 飞天王八易
Title: 基于NLP的软件分析和程序漏洞挖掘（二）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531570/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Hadoop之HDFS01【介绍】

HDFS(Hadoop Distributed File System)分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非…

大数据 2023年5月26日
0073
Hive存储格式之ORC File详解，什么是ORC File

文章目录 * – 概述 – 文件存储结构 – + Stripe + * Index Data * Row Data * Stripe Foote…

大数据 2023年11月13日
0057
利用Appium自动控制移动设备并提取数据

利用appium自动控制移动设备并提取数据 1. 安装appium-python-client模块并启动已安装好的环境 * 1.1 安装appium-python-client模块…

大数据 2023年11月11日
0063
【CIPS 2016】(6-7章)知识图谱、文本分类与聚类(研究进展、现状&趋势)

《中文信息处理发展报告（2016）》是中国中文信息学会召集专家对本领域学科方向和前沿技术的一次梳理，官方定位是深度科普，旨在向政府、企业、媒体等对中文信息处理感兴趣的人士简要介…

大数据 2023年5月28日
00102
redis漏洞利用总结

大数据 2023年11月16日
0041
人工智能、深度学习、机器学习常见面试题281~300

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

大数据 2023年5月28日
0078
【SQLite】C++链接SQLite数据库

C++链接SQLite数据库相关参考: C++操作SQLITE获得查询结果集的几种方法总结 sqlite3: sqlite3_step 函数 SQLite3数据库API手册好像…

大数据 2023年11月10日
0037
Qt操作中你需要知道的Sqlite 玩法，隔壁Java、Python等一系列大爷看了都直呼内行！！！

文章目录 * – 前言 – QtSql – QSqlDatabase – + 创建一个数据库示例如下 – QSqlQue…

大数据 2023年11月10日
0033
QtApplets-MyLog

; QtApplets-MyLog 今天是离职倒计时第二天，今天打算自己搞一个简单的日志系统，把程序运行时产生的日志存在数据库中。数据库还是使用简单的 Sqlite数据库。文…

大数据 2023年11月10日
0058
主题模型–LDA

LDA介绍相比于 pLSA ，2003年提出的 LDA 模型显然名气更响，应用起来也丰富得多。 LDA 将模型参数视作随机变量，将多项式分布的共轭先验（也就是Dirichlet分…

大数据 2023年5月28日
0086
Spark参数解说

大数据 2023年11月16日
0064
Sophos Firewall OS (SFOS) 19.0 GA

请访问原文链接：https://sysin.org/blog/sfos-19/，查看最新版。原创作品，转载请保留出处。作者主页：www.sysin.org 强大的防护和性能设备…

大数据 2023年6月3日
00112
QT 之SQLite数据库

文章目录一、windows下使用命令行方法操作db文件 * 1、安装sqlite 2、使用sqlite 二、QT操作sqlite * 1、建立数据库 2、打开数据库 3 …

大数据 2023年11月11日
0051
Docker（一）简介以及入门

Docker简介以及入门一、 Docker是什么？官网：https://www.docker.com/ 指南：https://docs.docker.com/reference…

大数据 2023年5月29日
0082
Hive优化：Explain执行计划应该怎么看？

Hive优化：Explain执行计划内容目录 * – Hive优化：Explain执行计划 – + 一：Explain执行计划 + 二：Explain的语…

大数据 2023年11月13日
0039
JuiceFS 在多云存储架构中的应用| 深势科技分享

2020 年末，谷歌旗下 DeepMind 研发的 AI 程序 AlphaFold2 在国际蛋白质结构预测竞赛上取得惊人的准确度，使得” AI 预测蛋白质结构&#822…

大数据 2023年6月3日
0073

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

基于NLP的软件分析和程序漏洞挖掘（二）

Code Similarity Detection

大家都在看