一个简单的完整人脸识别系统

2023年10月24日下午2:56 • Python • 阅读 50

本系统是模式识别课程中要求完成的一个课设，结合上课所学知识，我是在自己之前实现的 PCA 算法基础上进行了封装和改进细化，其他部分则调用sklearn 机器函数函数库进行实现，实现的一个包括数据采集、模型训练和数据测试等完整的模式识别系统。

解释器：Python3.8
要在线下载lfw_data数据集文件（直接运行FaceRecognition.py文件即可）
并把它放在C:\Users\86180\scikit_learn_data路径下

首先要对人脸数据进行采集和表示，然后在去噪、去模糊等预处理之后得到数据集，然后由于原始数据的特征向量维度非常高，也就意味着训练模型的复杂度非常高，所以必须进行图像特征的选择与提取得到了特征向量空间（我在本次试验中使用了 PCA 主成分分析法），然后在得到的特征向量空间中，对原始数据集进行映射，得到原始数据的一个降维表示，大大地减小了模型的复杂度和运算量。然后用降维后的训练集数据，训练分类器模型（我在本次实验中选用了支持向量机 SVM 模型(参数为 C=1000.0,class_weight=’balanced’, gamma=0.01)），然后用测试集数据来对训练好的模型进行一个评价，用准确率、召回率、F1 值来衡量训练出来的模型的好坏。

本次实验选择的是 sklearn 库中自带的 fetch_lfw_people 数据集，该数据集是互联网上收集的名人.jpeg 格式图片的集合，每张图片都以一张脸为中心。每个通道的每个像素（RGB 中的颜色）由 0.0 – 1.0 范围内的浮点数编码。图像尺寸为 50*37。

我并没有选择全部的数据集进行训练，我是筛选出了大于 50 张图片的类别（即多少个人物），用这些图片来训练，避免一些类别因为训练样本太少造成的误差。共筛选出了 1560 条数据，共 12 类，其中特征个数定为 1850（即 50*37）。然后，根据五折交叉检验的原则，利用 train_test_split 函数随机将测试集与测试集以 4:1 的比例分开来。

然后，按照 PCA 算法的流程，将其封装为 GsnPCA 类与函数，定义的属性有n_components（希望抽取的主成分个数），components_为特征向量（即抽取出的主成分），还有降维变换矩阵。仿照 sklearn 中 PCA 类中方法的命名，分别定义了 fit 方法（训练方法），按照主成分分析方法的流程，依次进行中心化操作，求解各个维度之间的协方差矩阵，然后求解协方差矩阵的特征值和特征向量，然后将特征值从大到小降序排序，抽取前 n_components 个特征值作为主成分，将主成分向量组成降维变换矩阵，方便后面定义的 transform 方法使用。

transform方法是用于将数据集降维映射到特征空间上，而 inverse_transform 方法则用于重建图像。定义完 GsnPCA 类之后，就开始用训练集数据训练 PCA 的降维转换矩阵并且实现对主成分的抽取，再分别对训练集和测试集数据进行降维操作，我在本次实验中选取的 n_components 值为 150（即把数据集从 1850 维降到 150 维），对数据进行降维处理之后，准备进行分类器的训练。由于 SVM 模型需要进行参数的选择，所以我使用 sklearn 库中的 GridSearchCV函数对 SVM 模型进行一个寻找最优参数，c 是一个对错误部分的惩罚，gamma 表示使用多少比例的特征点，使用不同的 c 和不同值的 gamma，进行多个量的尝试，然后进行搜索，选出调用 SVM 进行分类搜索归类精确度最高的模型。我这里选用的 kernel 是高斯径向基核函数。下列是输出的效果最好的参数选择：接下来就是用降维后的训练集数据训练 SVM 模型，然后用训练好的模型据来对测试集数进行了预测，得到了一组预测标签，然后用 classification_report 方法对预测结果进行了输出，并且我还生成了混淆矩阵，通过观察对角线数字大小来判断准确率高低。

然后我通过调用自己封装好的函数对特征脸以及真实标签和预测标签的对应进行输出。

from __future__ import print_function # 便于测试新版本函数
from time import time # 从time模块导入time，因为有些步骤需要计时
import logging # 打印出一些程序进展信息
import matplotlib.pyplot as plt # 绘图的包，即最后将我们预测出来的人脸打印出来
from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_lfw_people
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.decomposition import PCA
import numpy as np
from sklearn.svm import SVC
from sklearn import svm

打印输出日志信息
logging.basicConfig(level=logging.INFO, format='%(asctime)s%(message)s')

使用户外脸部数据集lfw（Labeled Faces in the Wild）
minfaces_per_person:int,可选默认无，提取的数据集仅保留包含min_faces_per_person不同图片的人的照片
resize调整每张人脸图片的比例，默认是0.5 ，min_faces_per_person=70
lfw_people = fetch_lfw_people(min_faces_per_person=50, resize=0.4)
返回数据集有多少个实例，h是多少，w是多少
n_samples, h, w = lfw_people.images.shape
print('h=',h)
print('w=',w)
X = lfw_people.data # X矩阵用来装特征向量，得到数据集的所有实例，每一行是一个实例，每一列是个特征值
X矩阵调用shape返回矩阵的行数和列数，
n_features = X.shape[1] # X.shape[1]返回矩阵的列数，对应的特征向量的维度或者特征点多少

获取特征结果集，提取每个实例对应的每个人脸
Y = lfw_people.target # y为classlabel目标分类标记，即不同人的身份
target_names = lfw_people.target_names # 数据集中有多少个人，以人名组成列表返回
n_classes = target_names.shape[0] # shape[0]就是多少行，多少个人，多少类

print("Total dataset size:") # 数据集中信息
print("n_samples:%d" % n_samples) # 数据个数1288
print("n_features:%d" % n_features) # 特征个数，维度1850
print("n_classes:%d" % n_classes) # 结果集类别个数，即多少个人

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.20) # test_size=0.20表示随机抽取20%的测试集 五折交叉检验

自己实现的PCA类及方法
class GsnPCA:
def __init__(self, n_components):
self.n_components = n_components # 主成分的个数n
self.components_ = None # 具体主成分
self.dimensionReductionMatrix=None

def fit(self, X):

def demean(X): # 均值归零
return X - np.mean(X, axis=0)

def Cov(X):
return np.cov(X.transpose())

print("step1：对样本去均值，进行中心化")
X_demean=demean(X)
print("step2：求特征协方差矩阵")
sigma=Cov(X_demean)
print("step3：求协方差矩阵的 特征值 和 特征向量")
eigenValues, eigenVectors = np.linalg.eig(sigma)
print("step4：将特征值从大到小排序，选择前n_components个")
eigenFeatureList = []
for i in range(len(eigenValues)):
eigenFeatureList.append((eigenValues[i], eigenVectors[i]))
key=lambda tuple: tuple[0]表示按第1个元素（特征值）为排序标准 reverse=True表示降序排序
eigenFeatureList = sorted(eigenFeatureList, key=lambda tuple: tuple[0], reverse=True)
print("step5：合并前n_components个特征向量得到降维变换矩阵")
self.dimensionReductionMatrix = np.array([eigenFeatureList[i][1] for i in range(n_components)])
print(self.dimensionReductionMatrix)

return self

将X数据集映射到各个主成分分量中
def transform(self, X):
print(self.components_.shape[1])
assert X.shape[1] == self.components_.shape[1]
return X.dot(self.components_.T)
lower_X = np.matmul(X, self.dimensionReductionMatrix.transpose()).astype(np.float) # 避免出现复数
return lower_X

def inverse_transform(self, X):
return X.dot(self.components_)

采用PCA降维，原始数据的特征向量维度非常高，意味着训练模型的复杂度非常高
保存的组件数目，也即保留下来的特征个数n
n_components = 150

print("Expecting the top %d EigenFaces from %faces" % (n_components, X_train.shape[0]))

降维
pca = PCA(n_components=n_components, whiten=True).fit(X_train)

t0 = time()# 初始时间
gsnpca = GsnPCA(n_components)
gsnpca.fit(X_train)
print("gsnpca done in %0.3fs" % (time() - t0))

从人脸中提取特征点，对于人脸的一张照片提取的特征值名为eigenFaces
eigenFaces = pca.components_.reshape((n_components, h, w))

print("projecting the input data on the EigenFaces orthonormal basis")
t0 = time()
# 把训练集特征向量转化为更低维的矩阵
X_train_pca = pca.transform(X_train)
print(X_train_pca)
X_train_pca = gsnpca.transform(X_train)
print(X_train_pca)
把测试集的特征向量转化为更低维的矩阵
X_test_pca = pca.transform(X_test)
X_test_pca = gsnpca.transform(X_test)
print("done in %0.3fs" % (time() - t0))

后续

训练一个支持向量机的分类model——构造分类器
print("Fitting the classifier to the training set")
t0 = time()

c是一个对错误部分的惩罚
gamma的参数对不同核函数有不同的表现，gamma表示使用多少比例的特征点
使用不同的c和不同值的gamma，进行多个量的尝试，然后进行搜索，选出准确率最高模型
param_grid = {
'C': [1e3, 5e3, 1e4, 5e4, 1e5],
'gamma': [0.0001, 0.0005, 0.001, 0.005, 0.01, 0.1]
}
调用SVM进行分类搜索哪对组合产生最好的归类精确度
kernel：rbf高斯径向基核函数 class_weight权重
把所有我们所列参数的组合都放在SVC里面进行计算，最后看出哪一组函数的表现度最好
clf = GridSearchCV(svm.SVC(kernel='rbf', class_weight='balanced'), param_grid=param_grid)
clf = clf.fit(X_train_pca, Y_train)
print("fit done in %0.3fs" % (time() - t0))
print("Best estimator found by grid search:")
print(clf.best_estimator_)

##################进行评估准确率计算######################
print("Predicting people's names on the test set")
t0 = time()
预测新的分类
Y_pred = clf.predict(X_test_pca)
print("done in %0.3fs" % (time() - t0))
通过classification_report方法进行查看，可以得到预测结果中哪些是正确
print(classification_report(Y_test, Y_pred, target_names=target_names))
confusion_matrix是建一个n*n的方格，横行和纵行分别表示真实的每一组测试的标记和测试集标记的差别
混淆矩阵对角线表示的是正确的值，对角线数字越多表示准确率越高
print(confusion_matrix(Y_test, Y_pred, labels=range(n_classes)))

将测试标记过进行展示，即先弄一个通用的图片可视化函数：
def plot_gallery(images, titles, h, w, n_row=3, n_col=4):
"""Helper function to plot a gallery of portraits"""
建立图作为背景
自定义画布大小
plt.figure(figsize=(1.8 * n_col, 2.4 * n_row))
位置调整
plt.subplots_adjust(bottom=0, left=.01, right=.99, top=.90, hspace=.35)
for i in range(n_row * n_col):
设置画布划分以及图像在画布上输出的位置
plt.subplot(n_row, n_col, i + 1)
在轴上显示图片
plt.imshow(images[i].reshape((h, w)), cmap=plt.cm.gray)
整个画板的标题
plt.title(titles[i], size=12)
获取或设置x、y轴的当前刻度位置和标签
plt.xticks(())
plt.yticks(())

预测函数归类标签和实际归类标签打印
返回预测人脸姓和测试人脸姓的对比title
def title(y_pred, y_test, target_names, i):
rsplit（' ',1）从右边开始以右边第一个空格为界，分成两个字符
组成一个list
此处代表把'姓'和'名'分开，然后把后面的姓提出来
末尾加[-1]代表引用分割后的列表最后一个元素
pred_name = target_names[y_pred[i]].rsplit(' ', 1)[-1]
true_name = target_names[y_test[i]].rsplit(' ', 1)[-1]
return 'predicted:%s\ntrue: %s' % (pred_name, true_name)

预测出的人名
prediction_titles = [title(Y_pred, Y_test, target_names, i) for i in range(Y_pred.shape[0])]
测试集的特征向量矩阵和要预测的人名打印
plot_gallery(X_test, prediction_titles, h, w) # 调用plot_gallery函数打印出实际是谁，预测的谁
打印原图和预测的信息
eigenFaces_titles = ["EigenFace %d" % i for i in range(eigenFaces.shape[0])]
plot_gallery(eigenFaces, eigenFaces_titles, h, w) # 以及提取过特征的脸

plt.show()

Original: https://www.cnblogs.com/Guoge66/p/16327807.html
Author: 何问天涯路远
Title: 一个简单的完整人脸识别系统

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/804428/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

蓝桥杯python练习

1.单词分析* 字符串+暴力题目描述小蓝正在学习一门神奇的语言，这门语言中的单词都是由小写英文字母组成，有些单词很长，远远超过正常英文单词的长度。小蓝学了很长时间也记不住一些单…

Python 2023年11月5日
0042
【Linux项目自动化构建工具 make/Makefile】

目录 1 背景 2 原理 3 Linux第一个小程序－进度条 3.1 行缓冲区概念 3.2 进度条代码 4 总结 1 背景在VS中我们知道当我们想要运行程序时直接按f5程序就会自…

Python 2023年11月7日
0055
【JS 逆向百例】网洛者反爬练习平台第二题：JJEncode 加密

关注微信公众号：K哥爬虫，持续分享爬虫进阶、JS/安卓逆向等技术干货！声明本文章中所有内容仅供学习交流，抓包内容、敏感网址、数据接口均已做脱敏处理，严禁用于商业用途和非法用途，…

Python 2023年5月24日
0098
MyBatis —- 分页插件

MyBatis —- 分页插件 1. 分页插件使用步骤 * a>添加依赖 b>配置分页插件 2. 分页插件的使用 1. 分页插件使用步骤 a>添加依赖…

Python 2023年10月8日
0036
飞链云智能机器人-基于ChatGPT的有趣问答

最近ChatGPT火起来了；可玩性很高，不亚于之前AI绘画的视觉冲击；这次ChatGPT带来的是逻辑冲击；上下文逻辑远超现有市面上其他所有的AI对话机器人；有人用技巧训练Cha…

Python 2023年11月4日
0041
django-ModelForm

Django-ModelForm 耦合度高，不适用于大程序，适用于小程序功能集成了Django-Models和Django-Form 数据库操作表单数据验证 HTML上次提交的…

Python 2023年6月11日
0083
技巧大集合，熬夜总结53个Python使用技巧和攻击方法

Original: https://www.cnblogs.com/sn520/p/15762146.htmlAuthor: Python可乐呀Title: 技巧大集合，熬夜总结5…

Python 2023年5月24日
0060
Java IO流 – 字节流的使用详细介绍

文章目录 * – IO流的基本介绍 – 字节流的使用 – + 文件字节输入流 + * 创建字节输入流 * 每次读取一个字节 * 每次读取一个数组…

Python 2023年11月6日
0032
python nums函数_Python中基础使用及Numpy、Scipy、Matplotlib 使用教程

Python是本身是一个通用的编程语言，但其具有一些库(numpy，scipy，matplotlib)用于科学运算，原文的Python的版本是3.5。本文先进行Python的基本…

Python 2023年9月5日
0052
Windows下配置Python(numpy,opencv)的踩雷历史

原来我还写过这个，贴一下。 C:\Windows\system32>pip list Traceback (most recent call last): File &quo…

Python 2023年8月26日
0048
[selenium]等待

selenium显式等待、隐式等待和期望条件前言当网络不稳定或应用页面加载问题时，可以设置等待，以避免网络问题导致找不到元素等异常。 [En] When the network…

Python 2023年5月23日
0073
百度&飞桨&蜜度文本智能较对大赛经验分享（17/685)

引言我上两个月参加了一个中文文本智能校对大赛，拿了17名，虽然没什么奖金但好歹也是自己solo下来的比赛吧，期间也学到了一些BERT应用的新视角和新的预训练方法，感觉还挺有趣的，…

Python 2023年10月18日
0060
记录历经三天将自己的yolov5模型部署到Android安卓手机

将yolov5部署到安卓手机移动端记录历经三天小白将自己的yolov5模型部署到安卓手机一、前言二、具体流程 * （一）.部署官方yolo到安卓 – 1.CMak…

Python 2023年8月1日
0068
python dataframe rename_详解pandas DataFrame修改行列名

写在前面的话：在做WISE数据处理时，有时候需要将几组数据生成一个DataFrame，然而在生成的过程中我一般不会设置列的名字(因为这种过程可能会有很多步)，所以最后的列名是默认…

Python 2023年8月16日
0036
opencv cv.line

python;gutter:true; ''' 本次来学习基于opencv进行各种画图操作，以前只习惯用matplotlib，最近开始用opencv，…

Python 2023年6月15日
0061
可视化神器Plotly玩转柱状图

可视化神器Plotly玩转柱状图本文是可视化神器Plotly绘图的第5篇：重点讲解如何利用Plotly绘制柱状图。柱状图在可视化图中是出现频率非常高的一种图表，能够很直观地展现…

Python 2023年8月7日
0051

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

一个简单的完整人脸识别系统

大家都在看