RCNN代码简单实现

2023年6月17日上午2:57 • 人工智能 • 阅读 52

本文代码来自于github(https://github.com/1297rohit/RCNN),可以去给原作者点个🌟，源代码使用了kears，现在主要使用pytorch实现了一遍。

首先看RCNN需要做什么

如上图所示，R-CNN这个物体检查系统可以大致分为四步进行：

获取输入图像
提取约2000个候选区域
将候选区域分别输入CNN网络（这里需要将候选图片进行缩放）
将CNN的输出输入SVM中进行类别的判定
如果IOU后，候选框保留，在图片上标注

本文语言使用pytorch

1.输入和输出

输入为一张图片

输出为csv文件

输出为包含了目标框的(x,y,w,h)的csv文件

代码读取图片并展示目标标注框


import os
import cv2
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

path = "Images"
annot = "Airplanes_Annotations"
for e,i in enumerate(os.listdir(annot)):
    if e < 10:

        filename = i.split(".")[0]+".jpg"
        print(filename)

        img = cv2.imread(os.path.join(path,filename))

        df = pd.read_csv(os.path.join(annot,i))

        plt.imshow(img)
        for row in df.iterrows():
            x1 = int(row[1][0].split(" ")[0])
            y1 = int(row[1][0].split(" ")[1])
            x2 = int(row[1][0].split(" ")[2])
            y2 = int(row[1][0].split(" ")[3])

            cv2.rectangle(img,(x1,y1),(x2,y2),(255,0,0), 2)
        plt.figure()
        plt.imshow(img)
        break

2.产生候选框

opencv实现了选择性搜索算法，可以给出上千个根据有物体的可能性降序排列的候选区域。
下图是画出了前面200250个候选区域的效果。一般来说。10001200个候选区域基本能胜任物体检测的任务了
主要实现是靠createSelectiveSearchSegmentation这个函数


cv2.setUseOptimized(True);

ss = cv2.ximgproc.segmentation.createSelectiveSearchSegmentation()

im = cv2.imread(os.path.join(path,"42850.jpg"))
ss.setBaseImage(im)
ss.switchToSelectiveSearchFast()

rects = ss.process()
imOut = im.copy()
print(rects.shape)

for i, rect in (enumerate(rects)):
    x, y, w, h = rect

    cv2.rectangle(imOut, (x, y), (x+w, y+h), (0, 255, 0), 1, cv2.LINE_AA)

plt.imshow(imOut)

(445, 4)

3. 整合前两步

train_images=[]
train_labels=[]

def get_iou(bb1, bb2):
    assert bb1['x1'] < bb1['x2']
    assert bb1['y1'] < bb1['y2']
    assert bb2['x1'] < bb2['x2']
    assert bb2['y1'] < bb2['y2']

    x_left = max(bb1['x1'], bb2['x1'])
    y_top = max(bb1['y1'], bb2['y1'])
    x_right = min(bb1['x2'], bb2['x2'])
    y_bottom = min(bb1['y2'], bb2['y2'])

    if x_right < x_left or y_bottom < y_top:
        return 0.0

    intersection_area = (x_right - x_left) * (y_bottom - y_top)

    bb1_area = (bb1['x2'] - bb1['x1']) * (bb1['y2'] - bb1['y1'])
    bb2_area = (bb2['x2'] - bb2['x1']) * (bb2['y2'] - bb2['y1'])

    iou = intersection_area / float(bb1_area + bb2_area - intersection_area)
    assert iou >= 0.0
    assert iou  1.0
    return iou
ss = cv2.ximgproc.segmentation.createSelectiveSearchSegmentation()
for e,i in enumerate(os.listdir(annot)):

    if(e==100):
        break
    try:
        if i.startswith("airplane"):
            filename = i.split(".")[0]+".jpg"
            print(e,filename)

            image = cv2.imread(os.path.join(path,filename))

            df = pd.read_csv(os.path.join(annot,i))
            gtvalues=[]

            for row in df.iterrows():
                x1 = int(row[1][0].split(" ")[0])
                y1 = int(row[1][0].split(" ")[1])
                x2 = int(row[1][0].split(" ")[2])
                y2 = int(row[1][0].split(" ")[3])
                gtvalues.append({"x1":x1,"x2":x2,"y1":y1,"y2":y2})

            ss.setBaseImage(image)
            ss.switchToSelectiveSearchFast()
            ssresults = ss.process()
            imout = image.copy()
            counter = 0
            falsecounter = 0
            flag = 0
            fflag = 0
            bflag = 0

            for e,result in enumerate(ssresults):
                print('e,result:',e,result)

                if e < 2000 and flag == 0:

                    for gtval in gtvalues:
                        x,y,w,h = result

                        iou = get_iou(gtval,{"x1":x,"x2":x+w,"y1":y,"y2":y+h})

                        if counter < 30:

                            if iou > 0.70:
                                timage = imout[y:y+h,x:x+w]

                                resized = cv2.resize(timage, (224,224), interpolation = cv2.INTER_AREA)
                                train_images.append(resized)

                                train_labels.append(1)
                                counter += 1
                        else :
                            fflag =1
                        if falsecounter <30:
                            if iou < 0.3:
                                timage = imout[y:y+h,x:x+w]
                                resized = cv2.resize(timage, (224,224), interpolation = cv2.INTER_AREA)
                                train_images.append(resized)

                                train_labels.append(0)
                                falsecounter += 1
                        else :
                            bflag = 1
                    if fflag == 1 and bflag == 1:
                        print("inside")
                        flag = 1
    except Exception as e:
        print(e)
        print("error in "+filename)
        continue

X_new = np.array(train_images)
y_new = np.array(train_labels)

4.CNN识别

将候选框送入CNN，提取出特征向量送入SVM识别，这里为了简单直接使用CNN识别,原文使用了AlexNet，这里使用了vgg16，vgg16的输入图片大小为224×224

import torch
X_new=torch.from_numpy(X_new)
y_new=torch.from_numpy(y_new)
print(X_new.shape,y_new.shape)

X_new=X_new.transpose(3,1)
import torch
from torch import nn
from torchvision.models import vgg16
vgg=vgg16(pretrained=True)

for p in vgg.parameters():
    p.requires_grad=False

class Mynet(nn.Module):
    def __init__(self):
        super(Mynet, self).__init__()
        self.vgg=vgg

        self.fc1=nn.Linear(1000,512)
        self.fc2=nn.Linear(512,256)
        self.fc3=nn.Linear(256,256)
        self.fc4=nn.Linear(256,10)
        self.fc5=nn.Linear(10,2)
        self.relu=nn.ReLU()
        self.softmax=nn.Softmax(dim=1)
    def forward(self,x):
        x=vgg(x)
        x=self.relu(self.fc1(x))
        x = self.relu(self.fc2(x))
        x = self.relu(self.fc3(x))
        x = self.relu(self.fc4(x))
        x = self.softmax(self.fc5(x))
        return x
from torch.utils.data import TensorDataset,DataLoader
dataset=TensorDataset(X_new,y_new)
dataloader=DataLoader(dataset=dataset,
                      batch_size=64,
                      shuffle=True,
                      num_workers=0)
net=Mynet()
optimizer=torch.optim.Adam(net.parameters(),lr=0.0005)
criterion=nn.CrossEntropyLoss()

for i,(x,y) in enumerate(dataloader):
    pred=net(x.to(torch.float32))

    loss1 = criterion(pred,y)
    print(i,loss1.item())
    optimizer.zero_grad()
    loss1.backward()
    optimizer.step()

5.预测

使用vgg16为骨架预测，但是误差好像并不如人意

z=0
for e1,i in enumerate(os.listdir(path)):

    if(z==1):
        break
    if i.startswith("428483"):
        z += 1
        img = cv2.imread(os.path.join(path,i))
        ss.setBaseImage(img)
        ss.switchToSelectiveSearchFast()
        ssresults = ss.process()
        imout = img.copy()
        for e,result in enumerate(ssresults):

            if(e==50):
                break
            if e < 2000:
                x,y,w,h = result
                timage = imout[y:y+h,x:x+w]
                resized = cv2.resize(timage, (224,224), interpolation = cv2.INTER_AREA)
                img = np.expand_dims(resized, axis=0)
                img=torch.from_numpy(img)
                img=img.transpose(3,1)
                print(e,img.shape)
                out= net(img.to(torch.float32))
                if out[0][0] > 0.65:
                    cv2.rectangle(imout, (x, y), (x+w, y+h), (0, 255, 0), 1, cv2.LINE_AA)
        plt.figure()
        plt.imshow(imout)

Original: https://blog.csdn.net/qq_41921315/article/details/122462023
Author: 微凉code
Title: RCNN代码简单实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/628093/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Windows11+VS2019+CUDA11.8配置过程

最近要处理大规模点云数据，用CPU跑感觉有点慢，想通过GPU加速点云处理过程，于是想要学习CUDA编程。很多教程提到在安装CUDA之前，需要打开cmd，输入nvidia-smi…

人工智能 2023年7月27日
0099
py2neo.database.ClientError: SyntaxError: Invalid input、py2neo.internal.hydration.HydrationError

本来不想发一些小水帖，但是这个问题我bug了好久，网上的回复帖也很少，专门记录一下。关于 py2neo的那些雷区： zzu1 = graph.nodes.match("s…

人工智能 2023年6月1日
0075
【毕业设计】大数据疫情数据分析及可视化系统 – python

文章目录 1 前言 2 开发简介 3 数据集 * 3.1 weibo.json 新浪微博实时热搜前50的数据 3.2 ProvinceData.json 省市疫情详情 4 实现技术…

人工智能 2023年6月27日
0085
python+opencv分类器训练模型，运动物体识别检测，无人机识别（源码直接下载可用）

一、简介使用opencv_traincascade 分类器的训练模型包括两个主要阶段：模型的训练阶段和检测阶段。本文档概述了训练自己的弱分类器的级联所需的功能。当前指南将逐步完成…

人工智能 2023年7月9日
0084
vnr懒人版教程_【visual novel reader最新版】visual novel reader翻译懒人整合版下载百度云资源最新版-七喜软件园…

visual novel reader最新版是一款支持多语言的游戏翻译工具，软件大部分用于日文游戏的翻译功能，你可以通过它让你一边玩游戏的同时在字幕框里为你翻译成中文。visual…

人工智能 2023年5月27日
00102
学习笔记（9）——命名实体识别（NER）

1 概述 * 1 命名实体 2 命名实体识别 2 基于隐马尔可夫模型序列标注的命名实体识别 3 基于感知机序列标注的命名实体识别 4 基于条件随机场序列标注的命名实体识别 5 命名…

人工智能 2023年6月1日
00127
R语言与临床模型预测——LASSO回归，单因素多因素cox，差异表达分析，Venn图，森林图，列线图，矫正曲线，ROC全套代码及解析——第五部分批量cox回归分析本专栏可免费答疑

上次我们将自噬相关基因的表达数据与临床数据进行了匹配，下面我们进行批量cox回归分析，筛选出预后相关的自噬基因：这个临床模型预测会针对一个案例进行讲解，目录如下： 1.下载数据 …

人工智能 2023年6月17日
00127
模型转换：pytorch模型转onnx, onnx转tensorflow, tensorflow转tflite

文章目录软件版本： pytorch模型转onnx onnx模型转tensorflow tensorflow模型转tflite 软件版本： tensorflow 2.3.1pyto…

人工智能 2023年5月25日
0087
服务器和虚拟机怎么安装Kaldi？

文章目录前言克隆kaldi到本地 tools/INSTALL安装 * 检查依赖extras/check_dependencies.sh 把四个依赖包放在tools/目录下修改…

人工智能 2023年5月27日
0077
量化感知训练QAT，quantization aware training

神经网络的量化可以分为两类，一类是训练后量化，另一类是训练时量化。 [En] Neural network quantization can be divided into two…

人工智能 2023年5月23日
00151
Tesseract-OCR 下载安装和使用

7.完成安装 ; 四、设置环境变量 1.设置环境变量进入环境变量中，在path中新建tesseract的安装路径使用win+r弹出”运行”命令框，输入sy…

人工智能 2023年7月21日
0079
pandas中高级应用——jupyter

一、pandas绘图 import numpy as np import pandas as pd import matplotlib.pyplot as plt ts=pd.Se…

人工智能 2023年7月17日
0099
Windows下安装及配置CUDA过程详解

安装及配置过程一、下载安装CUDA Toolkit * 1.查看当前系统所支持CUDA版本 2.官网下载安装合适的CUDA 3.配置环境变量 4.测试CUDA安装是否成功二、下…

人工智能 2023年7月5日
00129
基于随机森林算法的糖尿病数据集回归

基于随机森林算法的糖尿病数据集回归作者介绍 1. 随机森林算法原理 * 1.1决策树与Bagging 1.2 随机森林算法 2. 实验过程 * 2.1 糖尿病数据集 2.2 实验…

人工智能 2023年6月17日
0095
Java 中文情感分类(or 文本分类)：Alink 中文情感分析、HanLP 中文情感分析、SparkML 中文情感分析(待定)

文章目录 * – + 一、项目目录与地址 + 二、Alink 中文情感分析：微博评论情感分析 + 三、HanLP 中文情感分析 + 四、SparkML 中文情感分类(待…

人工智能 2023年5月31日
0064
neo4j教程（CQL实现增查删改）

以”图”这种数据结构存储和查询数据，neo4j为其典型代表。对于图数据库来说，数据量越大，越复杂的关联查询，越有利于体现其优势——查询性能优势明显。实体…

人工智能 2023年6月1日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31