主成分分析（PCA）应用——特征提取_人脸识别（上）

2023年7月17日下午10:04 • 人工智能 • 阅读 73

主成分分析（PCA）应用——特征提取/人脸识别（上）

序

我在另一篇文章《无监督学习与主成分分析（PCA）》中已经讲过关于PCA的原理，以及它的其中一个应用—— 降维。那么本篇文章我来说一下PCA的另一个应用—— 特征提取。

特征提取背后的思想是，可以找到一种数据表示，比给定的原始表示更适合分析。特征提取很有用，它的一个很好的应用实例就是最近几年很火的 人脸（图像）识别。

考虑到有很多小伙伴不了解图像的处理，所以我们分成上下两篇来进行讲解。

本篇先讲解图像的基础以及python通常是如何处理图像的。

数据来源

LFW – People (Face Recognition)：https://www.kaggle.com/atulanandjha/lfwpeople?select=pairs.txt

这是kaggle网站上一个专门用来做人脸识别的数据集，收录了网站上超过13000张人脸图片。好的，那么接下来把这份图片数据集下载下来并解压。

PS：下载下来的图片保存在lfw-funneled.tgz文件里，”.tgz”是一种压缩文件的格式，所以我们只要解压缩就可以了。

解压完毕后，我们就可以看见图片存储在以每人的名字所命名的文件里，每个文件夹包含数量不同的照片，而每个照片又分别以名字+数字的名字命名，方便我们使用。

; 数据整理

我们每拿到一份新数据，一定要对数据进行整理， 了解数据的基本信息，譬如数据量，如何命名，数据维度等。

import os
all_folds = os.listdir(r'C:\Users\Administrator\Desktop\源数据-分析\lfw_funneled')
all_folds = [x for x in all_folds if '.' not in x]
print(len(all_folds))
n=os.listdir('C:\\Users\\Administrator\\Desktop\\源数据-分析\\lfw_funneled\\Richard_Gere\\')
print(n[0])

os模块是一个python中专门用来遍历文件的第三方模块，具体原理就不在这里赘述了，感兴趣的朋友可以自己搜一下。那么运行上述代码后，我们就可以得知在lfw_funneled文件夹中，一共有5749文件，也就是说一共有5749个人的人脸图像，并且每个人的图像均是以名字+数字的方式来命名的.jpg图像文件。

那么接下来我们再看下每个人都有多少张人脸图像，代码如下所示：

import pandas as pd
numbers_img=pd.DataFrame(columns=["文件名称","图片数量"])
for i in range(len(all_folds)):
    path = 'C:\\Users\\Administrator\\Desktop\\源数据-分析\\lfw_funneled\\'+all_folds[i]
    all_files = os.listdir(path)
    numbers_img.loc[i]=[all_folds[i],len(all_files)]

这样一来，我们就知道了每个人有多少张人脸图像，也方便我们接下来进行数据集的选取和划分。

可以看出数据非常庞大，我们不可能对所有数据进行机器学习（电脑硬件达不到）。同时我们还要降低 数据倾斜对模型精度的影响，那么我们这里只选取图片数量为10的人脸来当作数据集。

PS：如果某人的人脸出现次数过多的话，会造成数据倾斜，大大影响特征提取。

图像处理

基础介绍

这里先简单说一下什么是图像。图像由像素组成，通常存储为 红绿蓝（RGB）强度（三维维度）。图像中的对象通常由上千个像素组成，它们只有放在一起才有意义。而我们所需要做的便是读取图像，将图像的像素转化为numpy数组，然后再通过操作numpy数组来去处理图像，最后再还原。

python里面有一个 PIL的第三方模块，是专门用来处理数据的，如下图所示：

一般的像素值是以三维的形式存储的，其中有一个维度是专门用来存储像素颜色的。考虑到接下来的数据处理速度及提高模型精度，我们便剔除颜色维度，用图像的 灰度值版本来进行处理，代码如下所示：

; 图像操作

1.图片转换成灰度值

好的，图像的基础处理方法讲解完了，接下来我们便对选出来的包含150张图片的数据集依次进行处理，代码如下所示：

from PIL import Image
import numpy as np
image_arr_list=[]
flat_arr_list=[]
target_list=[]
for m in range(len(img_10["文件名称"])):
    file_address='C:\\Users\\Administrator\\Desktop\\源数据-分析\\lfw_funneled\\'+img_10["文件名称"][m]+"\\"
    image_name=os.listdir(file_address)
    for n in image_name:
        image=Image.open(file_address+n)
        image=image.convert('L')
        image_arr=np.array(image,"f")
        flat_arr=image_arr.ravel()
        image_arr_list.append(image_arr)
        flat_arr_list.append(flat_arr)
        target_list.append(m)
faces_dict={"images":np.array(image_arr_list),"data":np.array(flat_arr_list),"target":np.array(target_list)}

将读取的像素信息转化为numpy数组后，分别存储在各自对应的列表里面，并组合成一个字典，方便接下来的使用。接下来简单讲解一下：

读取的RGB像素值如果直接转化为numpy数组的话会是三维数组，转换为一维数组后是可以用作接下来的机器学习的，但会大大降低训练速度。
灰度值转化成的numpy数组是一个二维数组，如果直接用于机器学习的话是没有办法读取使用的，所以需要用.ravel()来将二维数组转化为一维数组，也就是将两行的数据强行拉成一行数据。
如果数据集的标签值（目标值）”target”是文本的话，在接下来的训练部分中，机器便会无法识别，并报错，所以需要转换为数字。并且 为了对应前面特征值的维度（数据维度是150行），这里需要将target也转换成numpy数组。
这里之所以存储成字典，而不是DataFrame格式，也是因为存储维度的问题。如果存储成DataFrame的话，便需要62500（每张图片的像素数量是250×250）列来存储每个像素，这样的DataFrame太大了，不利于后面的处理，所以这里就以numpy数组的形式存储成字典。

这里再说一下字典中的”images”，”data”的维度，如下所示：

图片的像素是以250×250的二维numpy数组的形式存储在”images”中，而为了接下来的机器学习，便将二维数组转换为一维numpy数组存储在”data”中（250×250=62500)。

PS：可以通过矩阵变换，将原有的一维数组还原成二维灰度值，具体原理就不多说了，代码如下：

shape=image_arr.shape
vector=np.matrix(flat_arr)
arr2=np.asarray(vector).reshape(shape)

2.灰度值还原成图片

接下来，我们可以把灰度值再还原成图片，代码如下所示：

from matplotlib import pyplot as plt
i = 0
plt.figure(figsize=(45, 30))
for img in faces_dict["images"]:

    plt.subplot(15,10,i+1)
    plt.imshow(img, cmap="gray")

    plt.xticks([])
    plt.yticks([])
    plt.xlabel(faces_dict["target"][i])
    i=i+1
plt.show()

总结

好的，关于python处理图像方面的基础便先说道这里。总的来说，便是利用numpy函数来存储组成图像的像素信息，之后通过操作numpy数组来去达到变换图像的目的。

下一篇，我会讲解关于人脸识别的模型训练，以及PCA对训练过程的优化。

个人博客：https://www.yyb705.com/
欢迎大家来我的个人博客逛一逛，里面不仅有技术文，也有系列书籍的内化笔记。
有很多地方做的不是很好，欢迎网友来提出建议，也希望可以遇到些朋友来一起交流讨论。

Original: https://blog.csdn.net/weixin_43580339/article/details/118222281
Author: yb705
Title: 主成分分析（PCA）应用——特征提取_人脸识别（上）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/699574/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

肌电信号聚类 Matlab

Author:溪云枫 2021.10.28 本文简述生物信号（肌电，脑电）数据分析步骤，使用PCA, K-means等方法实现信号聚类。 1.数据采集 [TencentCloudS…

人工智能 2023年6月2日
0079
Pytorch实战100例-第6天：好莱坞明星识别

### 回答1：《深度学习框架 PyTorch 入门_与实践第二版》是一本介绍 _PyTorch_深度学习框架的实用教程。该教程适合对深度学习和 _PyTorch_有一定了解的…

人工智能 2023年7月24日
0082
小样本目标检测：few-shot-object-detection训练自己的数据集

few-shot-object-detection代码实验过程 FsDet包含ICML 2020论文的官方小样本检测实现论文地址：Frustratingly Simple Few-…

人工智能 2023年6月16日
0073
极限学习机

注：下有视频讲解，可供参考单层前馈神经网络（SLFN）以其良好的学习能力在许多领域得到了广泛的应用，然而传统的学习算法，如BP等固有的一些缺点，成为制约其发展的主要瓶颈，前馈神经…

人工智能 2023年6月16日
0086
2023年，前端开发未来可期

☆对于很多质疑，很多不解，本文将从△ 目前企业内前端开发职业的占比；△ 目前业内开发语言的受欢迎程度；△ 近期社区问答活跃度；等维度来说明目前前端这个职业的所处位置。 ☆还有强硬的…

人工智能 2023年6月19日
00103
论文浅读：Fog Simulation on Real LiDAR Point Clouds for 3D Object Detection in Adverse Weather

Fog Simulation on Real LiDAR Point Clouds for 3D Object Detection in Adverse Weather clear…

人工智能 2023年7月12日
0088
Golioth 发布基于乐鑫 ESP-IDF 的开源 SDK

Golioth 发布了面向乐鑫 ESP-IDF 的开源 SDK，使基于乐鑫产品的项目能够轻松、安全地连接至 Golioth Cloud，Golioth 上的所有云计算服务（例如 O…

人工智能 2023年5月30日
0084
【MATLAB教程案例31】基于matlab的人脸检测相关算法的仿真与分析——肤色模型与形态学图像处理方法

### 回答1：控制系统建模与仿真_是一种基于 _matlab/simulink的分析_与实现 _方法。它可以帮助工程师们更好地理解和设计控制系统，从而提高系统的性能和稳定性…

人工智能 2023年6月17日
0052
在kaggle上的pandas学习总结

距离上一次半夜总结已经过了两天了，我已经完成了pandas学习，今天从头到尾总结一下首先是最基础的读数据，创建数据，取数据首先是创建数据，数据类型为这一块要提出DataFra…

人工智能 2023年6月28日
00102
回归预测 | MATLAB实现GBDT(梯度提升树)fitrensemble参数设定

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月17日
0075
Pytorch加载模型并进行图像分类预测

1. 整体流程 1）实例化模型 2）加载模型 3）输入图像 4）输出分类结果 5）完整代码 2. 处理图像 1) How can i convert an RGB image in…

人工智能 2023年7月13日
0054
计量经济学复习笔记（三）：如何使用回归结果

计量经济学复习笔记（三）：如何使用回归结果根据我们之前的讨论，任意给定一组( X , Y ) (X,Y)(X ,Y )的观测值，都可以计算回归。但是否回归都是有效的？直观说来，我…

人工智能 2023年6月18日
0097
可定制算法和环境，这个开源强化学习框架火了

强化学习框架怎么选？不如自己定制一个。强化学习（reinforcement learning，RL）是近年来最受关注的人工智能研究方向之一，在机器人、游戏等领域应用甚广。现有的强…

人工智能 2023年6月1日
0069
【聚类学习】时间序列聚类—10年回顾概括性综述

目录一、引言二、时间序列聚类的作用三、时间序列数据的聚类问题正式定义四、时序数据的聚类的挑战五、时间序列数据聚类有什么用六、时间序列聚类技术的分类七、时间序列聚类的四…

人工智能 2023年6月2日
00112
Python计算机视觉之特征提取与图像匹配

目录一、特征提取 1.1 定义 1.2 边缘 1.3 角 1.4 区域 1.5 脊二、图像匹配 2.1 定义 2.2 概述三、基于特征点的特征描述子四、Harris角点检测…

人工智能 2023年5月26日
0078
基于YOLOv5的口罩佩戴检测方法

摘要正确的佩戴口罩对现阶段有效减低人员之间感染新型冠状病毒具有重要意义。基于YOLOv5在图像识别检测领域的优异性能，本文研究基于基于YOLOv5的口罩佩自动戴检测方法。首先从…

人工智能 2023年6月25日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31