同学：你因作业作弊已被AI抓获，Python制作一款AI检测抄袭小脚本。

2023年5月30日下午9:08 • 人工智能 • 阅读 99

导语

你的童年我的童年好像都一样

小小身体大大书包上呀上学堂

世界上本没有喜欢上学的小孩

被爸妈打多了，也就有了~

上学意味着什么呢~意味着开始做作业

假期作业没写怎么办？赶紧拿姐妹的来抄，你心里悄咪咪的笑了，终于赶上了最后学委去办公室的那趟高速。

哈哈哈这很可以，童年的真实情况一览无余了。今天我还看到一个笑话：

为防抄作业，爸爸要求将五胞胎分在五个班。

这操作真神了，但是哪用这么麻烦撒！

今天小编带大家写一款抄袭检测小脚本，在家就能知道你孩子的作业都互相抄袭了没~

正文

首先载入所有必要的模块（1）：

import os
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

使用OS模块加载文本文件的路径，然后使用TfidfVectorizer对文本数据和余弦相似度执行词嵌入，来计算是否存在抄袭。（2）：

用列表推导式（List Comprehension）读取所有文本文件

student_files =[doc for doc in os.listdir() if doc.endswith( .txt )]

使用Lambda功能来向量化并计算相似性（3）：

vectorize =lambda Text: TfidfVectorizer().fit_transform(Text).toarray()
similarity = lambda doc1, doc2:cosine_similarity([doc1, doc2])

加入下列两行代码，将加载的学生文件向量。

vectors =vectorize(student_notes)
s_vectors = list(zip(student_files,vectors))

def check_plagiarism():
    plagiarism_results = set()
    global s_vectors
    for student_a, text_vector_a in s_vectors:
        new_vectors=s_vectors.copy()
        current_index = new_vectors.index((student_a,text_vector_a))
        del new_vectors[current_index]
        for student_b , text_vector_b in new_vectors:
            sim_score =similarity(text_vector_a, text_vector_b)[0][1]
            student_pair= sorted((student_a, student_b))
            score = (student_pair[0], student_pair[1],sim_score)
            plagiarism_results.add(score)
    return plagiarism_results
Let's print plagiarism results
for data in check_plagiarism():
    print(data)

import os
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

student_files = [doc for doc in os.listdir() if doc.endswith( .txt )]
student_notes=[open(File).read() for File in student_files]

vectorize = lambda Text:TfidfVectorizer().fit_transform(Text).toarray()
similarity = lambda doc1, doc2: cosine_similarity([doc1,doc2])

vectors = vectorize(student_notes)
s_vectors= list(zip(student_files, vectors))

def check_plagiarism():
    plagiarism_results = set()
    global s_vectors
    for student_a, text_vector_a in s_vectors:
        new_vectors=s_vectors.copy()
        current_index = new_vectors.index((student_a,text_vector_a))
        del new_vectors[current_index]
        for student_b , text_vector_b in new_vectors:
            sim_score =similarity(text_vector_a, text_vector_b)[0][1]
            student_pair= sorted((student_a, student_b))
            score = (student_pair[0], student_pair[1],sim_score)
            plagiarism_results.add(score)
        return plagiarism_results

for data in check_plagiarism():
    print(data)

抄袭检测器完成啦！老师们用起来，广大中小学生们的美梦就此结束了。

Original: https://blog.csdn.net/weixin_55822277/article/details/119969771
Author: 顾木子吖
Title: 同学：你因作业作弊已被AI抓获，Python制作一款AI检测抄袭小脚本。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/545121/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

腾讯的三大产品线及细分介绍-2022最新版

行业调查的需要，大概看了下腾讯官网，主要分为三块： 1.面向用户 1.1 通信与社交腾讯从连接人与人出发，开发和提供功能丰富、易于使用的即时通信和社交平台，以创新的方式让沟通、分…

人工智能 2023年6月30日
0077
信息抽取简介

为什么要进行信息抽取：从非结构化的文本中抽取出一些非常重要的、关键的、人们关心的数据。核心店：挖实体+实体间的关系三元组表示（属于知识图谱范围）：信息抽取为什么这么重要？1、问…

人工智能 2023年6月10日
0067
[论文][表情识别]Relative Uncertainty Learning for Facial Expression Recognition

论文基本情况发表时间及刊物/会议：2021 NeurIPS发表单位：Beijing University of Posts and Telecommunications 问题背景…

人工智能 2023年6月6日
0076
cs224w（图机器学习）2021冬季课程学习笔记集合

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月21日
0059
dataframe小技巧

一.基本操作篇 1.新建自己定义column_name: import pandas as pd df = pd.DataFrame(columns=[‘col1′,’col2’,…

人工智能 2023年7月6日
0077
Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection

论文地址：https://arxiv.org/abs/2006.04388论文代码：https://github.com/implus/GFocal一阶段检测器基本将目标检测定义为…

人工智能 2023年7月9日
0087
假设检验：如何理解单侧、双侧检验的拒绝域

简单说就是：拒绝域与备择假设方向相同。假设检验就是一个证伪的过程，原假设和备择假设是一对”相反的结论”。”拒绝域”，顾名思义，就是拒…

人工智能 2023年7月15日
001.4K
PyG搭建异质图注意力网络HAN实现DBLP节点分类

目录前言数据处理模型搭建 * 1. 前向传播 2. 反向传播 3. 训练 4. 测试实验结果完整代码前言 HAN的原理请见：WWW 2019 | HAN：异质图注意力网…

人工智能 2023年7月14日
0088
图像金字塔、高斯金字塔、拉普拉斯金字塔是怎么回事？附利用拉普拉斯金字塔和高斯金字塔重构原图的Python-OpenCV代码

图像金字塔是对图像进行多分辨率表示的一种有效且简单的结构。一个图像金字塔是一系列以金字塔形状排列的分辨率逐步降低的图像。图像金字塔的底部是待处理图像的高分辨率表示，而顶部是低分辨率…

人工智能 2023年6月18日
0094
Pytorch环境配置——cuda、、cudnn、torch、torchvision对应版本（最全）及安装方法

Pytorch环境配置——cuda、、cudnn、torch、torchvision对应版本（最全）及安装方法一、查询可支持的最高cuda版本二、查看cuda、cudnn、py…

人工智能 2023年7月24日
0079
私域流量知识图谱_13张高清大图免费分享，这可能是最全的运营知识图谱了（干货）…

一般来说，做运营到一定阶段，你会发现现有的技能不够支撑你的工作内容。负责一个项目的时候，光是懂单个方面是不够的，你还得做得了产品，玩得转技术，写得出内容，铺得开推广，读得懂数据…

人工智能 2023年6月1日
0078
虚拟人是一箩筐人工智能技术的集合是一个个台阶走上来

在科大讯飞研究了十年语音技术的科讯飞AI研究院副院长潘嘉还告诉我们普通话等级考试还有一个特点它的答卷是在录音室里用合适的设备，让考生尽可能标准地读出内容而在语音识别的初始阶段工程师…

人工智能 2023年5月27日
0066
darknet（yolov4）在win环境下编译和使用

使用环境 win+mingw64+CPU，无GPU 1. 准备工作 2. CMAKE生成makefile 选择源文件路径和目标路径选择opencv路径，取消CUDA选项 conf…

人工智能 2023年7月12日
0053
Cross-Modal Retrieval

Paper with notes on Cross-Modal Retrieval Background Mainstream Methods SOTA Papers * &#82…

人工智能 2023年6月1日
0098
【代码阅读】PL-VIO

〇、写在前面 PL-VIO采用的通信是ROS，所以并不能像ORBSLAM那样按照执行顺序来理顺，因为ORBSLAM是有一个真正意义上的主函数的，经过CMakeList的编辑产生的可…

人工智能 2023年6月19日
0074
Pytorch 搭建自己的Unet语义分割平台

文章目录 * – 前言 – Unet实现思路 – + 一、预测部分 + * 1、主干网络介绍 * 2、加强特征提取结构 * 3、利用特征获得预测…

人工智能 2023年7月23日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

同学：你因作业作弊已被AI抓获，Python制作一款AI检测抄袭小脚本。

​导语

正文

大家都在看

导语