基于批量OCR分析中传研究生录取名单

2023年6月11日下午12:27 • 人工智能 • 阅读 63

中国传媒大学一直是我向往的高校，但是众所周知中国传媒大学研究生录取是十分不透明的，复试参考资料、往年真题、报录比等等都不公开，官网的研究生录取名单是图片形式的，无法直接用网页搜索工具查找数据，但我们可以利用OCR技术提取里面的信息数据。41张图片一张一张OCR是不现实的，我们需要使用百度提供的api批量OCR，再进行正则匹配就能得到想要的数据了。

打开百度人工智能网站：百度智能云
领取免费调用额度

因为录取名单是表格类型的，领取表格文字识别接口就行了，每月有500次
记录下百度调用api的信息

AppIDAPI KeySecret Key

点击管理应用-保存好这三个值，代码中要用

在Python中安装库：baidu-aip
这个库anaconda里没有，需要用 pip install baidu-aip
将图片批量重命名
用图片下载器下载好官网：中传研招网的图片后，批量重命名，能加序号后缀，方便编程
用Python批量OCR识别表格，并导出为Excel


from aip import AipOcr
import time
import urllib.request

APP_ID = "xxx"
API_Key = "xxx"
Secret_Key = "xxx"
aipOcr = AipOcr(APP_ID, API_Key, Secret_Key)

filePath = r"D:\360极速浏览器下载\拟录取名单"
for i in range(1, 42):
    filePath1 = filePath + "\\yan (" + str(i) +").png"
    image = open(filePath1, "rb").read()
    table = aipOcr.tableRecognitionAsync(image)

    request_id = table['result'][0]['request_id']

    result = aipOcr.getTableRecognitionResult(request_id)

    while result['result']['ret_msg'] != '已完成':
        time.sleep(4)
        result = aipOcr.getTableRecognitionResult(request_id)
    download_url = result['result']['result_data']

    xls_name = filePath1.split(".")[0] + ".xls"

    urllib.request.urlretrieve(download_url,xls_name)

因为图片中央有中传的大LOGO，所以中间部分数据识别会不准，这很正常， 但不必找原图修改，因为考生编号仍然还是完整的，大部分数据不会被筛选到，一个个修改会很浪费时间，完善方法见下。

用R语言合并数据，导出到Excel

library(readxl)

setwd('D:/360极速浏览器下载/拟录取名单/')

filenames  dir()

filenames2  grep('.xls', filenames, value = TRUE)

data3  data.frame()

for (i in filenames2){

  path  paste0('D:/360极速浏览器下载/拟录取名单/',i)

  data2  read_xls(path = path,sheet='body',skip=1,col_names = TRUE)
  data2$index  i
  data3  rbind(data3,data2)
}
write.csv(data3, file="D:/录取名单.csv",row.names = FALSE)

这里我新增了一列index，用来指明数据来自哪一张图片，方便当我们最终筛选的数据有问题时再检查图片。

关于为什么要突然换到R语言处理，这是因为R语言做数据预处理比python更方便，另外OCR的结果可能会导致表格出现错位等，合并时会报错列数不匹配，用R语言可以设置断点方便查找哪一个表格有问题。其次作为一名数据分析师用R语言和python结合使用很常见。最后，一定程度上防止某些考研机构做一些抄袭等不良商业行为。

最后回到python，用正则匹配获取数据并导出

import re
import pandas as pd
with open(r'D:\录取名单.csv', encoding="gbk") as file:
        data = pd.read_csv(file)
pat = "^10033[0-9]{4}07"
c=data['考生编号'].astype(str).apply(lambda x:re.match(pat,x))
d=data.loc[c.notnull(),:]
d.to_csv(r'D:\学院录取名单.csv', index=False, encoding="gbk")

10033是中传编号，07是学院号，但是具体是哪个学院并不知道，而且从往年数据分析，这个学院号每年都会变化的，所以还是适合等今年录取名单公布了再根据自己的编号来比对

最后，其实还有一些详细的数据分析还没做，等我先准备复试考上了再说，如果没考上的话，那这篇文章就到这里了

Original: https://blog.csdn.net/qq_45702601/article/details/123482036
Author: 清洄KAKA
Title: 基于批量OCR分析中传研究生录取名单

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/600033/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

[论文阅读] 基于辅助函数的IVA（使用源先验的四阶关系）

独立向量分析（IVA）理论上可以避免在频域独立分量分析中出现的排列模糊，方法是在保留每个源的不同频率单元之间的依赖关系之前使用多变量源。基于辅助函数的独立向量分析（AuxIVA）是…

人工智能 2023年5月27日
0070
【Linux】第一部分什么是Linux？

Linux就是一个操作系统,什么是操作系统?例如:windows,macos Linux内核最初只是由芬兰人林纳斯·托瓦兹（Linus Torvalds）在赫尔辛基大学上学时出于个…

人工智能 2023年7月30日
0053
Linux常用操作:文件及文件夹

一、创建 (1)mkdir 创建一个目录 (2)…

人工智能 2023年6月4日
0082
深度学习-Embedding技术总结

深度学习Embedding技术总结介绍下Word2vec Word2vec如何进行负采样 Word2vec对顺序敏感吗介绍下PageRank 介绍下Item2vec 介绍下De…

人工智能 2023年5月30日
0095
UNet 分割网络

UNet 简洁的高效的低数据依赖度的分割网络背景介绍 ; 3-FCN 全卷积网络创新与改进 Encoding & decoding 结构跳级连接 valid卷积…

人工智能 2023年6月22日
0099
图像对比算法有哪些,图像对比算法是什么

图像比对的原理或者算法原理如下：首先两张图要配准（可以姑且理解为对准），然后做减法就可以得到两张图不同的地方。题主可以先从图像配准开始学习。关于编程语言和工具：在C/C++下的…

人工智能 2023年6月17日
0092
TensorFlowX.Y核心基础与AI模型设计08：高级tf.Estimator 二元分类、模型训练与预测

目录零、 Estimator 基本结构 * 0.1、预创建的 Estimator 0.2、自定义的 Estimator 0.3、定义模型函数 – 0.3.1、函数体结…

人工智能 2023年5月26日
0071
知识图谱初学经典论文10篇

人工智能正由感知智能向认知智能演化，让机器具备认知智能，其核心就是让机器具备理解和解释能力。这种能力的实现与大规模、结构化的背景知识是密不可分的。知识图谱是实现机器认知智能的使能器…

人工智能 2023年6月1日
0082
基于U-Net模型的视网膜血管分割

(1) 视网膜血管图像数据集DRIVE简介 DRIVE (Digital Retinal Images for Vessel Extraction)数据集是用于视网膜病变研究的数据…

人工智能 2023年6月25日
0098
可变形卷积（DCN）

可变形卷积即DCN（全称为Deformable Conv）提出于ICCV 2017的一篇文章: Deformable Convolutional Networks 论文paper地…

人工智能 2023年7月25日
00107
嵌入式神经网络处理器-NPU

嵌入式神经网络处理器-NPU NPU 指的是”嵌入式神经网络处理器”，采用”数据驱动并行计算”的架构，特别擅长处理视频、图像类的海量…

人工智能 2023年7月13日
0074
基于DQN与gym的小车爬坡训练

文章目录前言一、pytorch环境搭建 * 1.GPU下的环境搭建 2.CPU下的环境搭建 3.其他依赖包二、环境学习 * 1.观测 2.行为 3.物理交互 4.奖励 5.小…

人工智能 2023年7月13日
00117
迁移学习简介和分类

当前的人工智能技术大多需要有大量高质量的数据支撑，使用实验室构造的数据可以一定程度上解决这一难题，满足基本的训练需求。然而，到了实际的局点上使用的时候，往往会因为构造数据与实际数据…

人工智能 2023年7月2日
0099
centernet代码解读-mutipose

前言： centernet可实现目标检测，人体姿态估计，3D检测，本文针对人体姿态估计代码进行解读。文章核心思想，使用热力图表示物体关键点及中心点，及使用中心点到关键点的矢量对检测…

人工智能 2023年7月10日
0069
二分类变量相关性分析spss_SPSS-两变量相关性分析

两个变量之间存在确定性:关系和不确定关系(会存在一定的波动范围)，就好比你的亲生母亲绝对只有一个，而你的亲叔叔可能有好几个(可以在1叔—4叔之间波动) 相关性一般分为 1：强正相关…

人工智能 2023年6月18日
0094
Praat脚本-033 | Praat脚本批量提取MFCC参数

MFCC(Mel-frequency cepstral coefficients):梅尔频率倒谱系数。梅尔频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。梅尔频率倒…

人工智能 2023年5月23日
00130

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

基于批量OCR分析中传研究生录取名单

大家都在看