clear;
% 1.&#x4EBA;&#x8138;&#x6570;&#x636E;&#x96C6;&#x7684;&#x5BFC;&#x5165;&#x4E0E;&#x6570;&#x636E;&#x5904;&#x7406;&#xFF08;400&#x5F20;&#x56FE;&#xFF0C;&#x4E00;&#x5171;40&#x4EBA;&#xFF0C;&#x4E00;&#x4EBA;10&#x5F20;&#xFF09;
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
reshaped_faces=[];
for i=1:40 &#xA0; &#xA0;
&#xA0; &#xA0; for j=1:10 &#xA0; &#xA0; &#xA0;&#xA0;
&#xA0; &#xA0; &#xA0; &#xA0; if(i<10)    a="imread(strcat('C:\AR_Gray_50by40\AR00',num2str(i),'-',num2str(j),'.tif'));"    else a="imread(strcat('C:\AR_Gray_50by40\AR0',num2str(i),'-',num2str(j),'.tif'));" end b="reshape(a,2000,1);" %将每一张人脸拉成列向量 %utf-8转换为double类型，避免人脸展示时全灰的影响  reshaped_faces="[reshaped_faces," b]; % 取出前30%作为测试数据，剩下70%作为训练数据 test_data_index="[];" train_data_index="[];" for i="0:39" 10*i+1:10*i+3]; 10*i+4:10*(i+1)]; train_data="reshaped_faces(:,train_data_index);" test_data="reshaped_faces(:," test_data_index);< code></10)>

1.2 数据集求均值与数据中心化

利用mean函数对训练集求平均值，得出平均脸（如图1），将训练集中所有数据减去平均脸，实现中心化（中心化后某些人脸如图2，相对原图灰度值更低）。

% 2.&#x56FE;&#x50CF;&#x6C42;&#x5747;&#x503C;&#xFF0C;&#x4E2D;&#x5FC3;&#x5316;
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

% &#x6C42;&#x5E73;&#x5747;&#x8138;
mean_face = mean(train_data,2);
%waitfor(show_face(mean_face)); %&#x5E73;&#x5747;&#x8138;&#x5C55;&#x793A;&#xFF0C;&#x6D4B;&#x8BD5;&#x7528;

% &#x4E2D;&#x5FC3;&#x5316;
centered_face = (train_data - mean_face);
%&#x7528;&#x4E8E;&#x5C55;&#x793A;&#x4E2D;&#x5FC3;&#x5316;&#x540E;&#x67D0;&#x4E9B;&#x8BAD;&#x7EC3;&#x56FE;&#x7247; &#x6D4B;&#x8BD5;&#x7528;
%waitfor(show_faces(centered_face));

图1 AR数据集中的平均脸

图2 中心化后的部分人脸

1.3 求协方差矩阵、特征值与特征向量并排序

根据数学推导，协方差矩阵可由 cov_matrix = centered_face（中心化人脸数据集） * centered_face’求得，再利用eig函数基于特征值对协方差矩阵进行分解（或使用SVD），并用sort函数将特征向量按从大到小排序好，得到所有特征脸（部分特征脸如图3）。

% 3.&#x6C42;&#x534F;&#x65B9;&#x5DEE;&#x77E9;&#x9635;&#x3001;&#x7279;&#x5F81;&#x503C;&#x4E0E;&#x7279;&#x5F81;&#x5411;&#x91CF;&#x5E76;&#x6392;&#x5E8F;
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

% &#x534F;&#x65B9;&#x5DEE;&#x77E9;&#x9635;
cov_matrix = centered_face * centered_face';
[eigen_vectors, dianogol_matrix] = eig(cov_matrix);

% &#x4ECE;&#x5BF9;&#x89D2;&#x77E9;&#x9635;&#x83B7;&#x53D6;&#x7279;&#x5F81;&#x503C;
eigen_values = diag(dianogol_matrix);

% &#x5BF9;&#x7279;&#x5F81;&#x503C;&#x6309;&#x7D22;&#x5F15;&#x8FDB;&#x884C;&#x4ECE;&#x5927;&#x5230;&#x5C0F;&#x6392;&#x5E8F;
[sorted_eigen_values, index] = sort(eigen_values, 'descend');&#xA0;

% &#x83B7;&#x53D6;&#x6392;&#x5E8F;&#x540E;&#x7684;&#x5F81;&#x503C;&#x5BF9;&#x5E94;&#x7684;&#x7279;&#x5F81;&#x5411;&#x91CF;
sorted_eigen_vectors = eigen_vectors(:, index);

% &#x7279;&#x5F81;&#x8138;(&#x6240;&#x6709;&#xFF09;
all_eigen_faces = sorted_eigen_vectors;

%&#x7528;&#x4E8E;&#x5C55;&#x793A;&#x67D0;&#x4E9B;&#x7279;&#x5F81;&#x8138; &#x6D4B;&#x8BD5;&#x7528;
waitfor(show_faces(all_eigen_faces));

图3 部分特征脸（eigenface）

Tips：一个特征脸即一个特征向量，数据集中所有人脸都是由某些特征脸组合得到，故利用特征向量（特征脸）是后续实现人脸重构、识别、降维可视化的关键。

2.人脸重构

重构的意义：检测特征脸对人脸的还原度与维数的关系（数据降到多少维才能较好还原原始数据）

从已中心化的centered_faces中取出某人脸，用20,40,60,80,…,160个投影（前n个特征向量）按公式 rebuild_face = eigen_faces * (eigen_faces’ * single_face) + mean_face来重构此人脸，并观察在不同数量的投影下的还原度，重构效果如图4。

%%&#x4EBA;&#x8138;&#x91CD;&#x6784;

% &#x53D6;&#x51FA;&#x7B2C;&#x4E00;&#x4E2A;&#x4EBA;&#x7684;&#x4EBA;&#x8138;&#xFF0C;&#x7528;&#x4E8E;&#x91CD;&#x6784;
single_face = centered_face(:,1);

index = 1;
for dimensionality=20:20:160

&#xA0; &#xA0; % &#x53D6;&#x51FA;&#x76F8;&#x5E94;&#x6570;&#x91CF;&#x7279;&#x5F81;&#x8138;&#xFF08;&#x524D;n&#x5927;&#x7684;&#x7279;&#x5F81;&#x5411;&#x91CF;&#xFF0C;&#x7528;&#x4E8E;&#x91CD;&#x6784;&#x4EBA;&#x8138;&#xFF09;
&#xA0; &#xA0; eigen_faces = all_eigen_faces(:,1:dimensionality);

&#xA0; &#xA0; % &#x91CD;&#x5EFA;&#x4EBA;&#x8138;&#x5E76;&#x663E;&#x793A;
&#xA0; &#xA0; &#xA0; &#xA0; rebuild_face = eigen_faces * (eigen_faces' * single_face) + mean_face;
&#xA0; &#xA0; &#xA0; &#xA0; subplot(2, 4, index); %&#x4E24;&#x884C;&#x56DB;&#x5217;
&#xA0; &#xA0; &#xA0; &#xA0; index = index + 1;
&#xA0; &#xA0; &#xA0; &#xA0; fig = show_face(rebuild_face);
&#xA0; &#xA0; &#xA0; &#xA0; title(sprintf("dimensionality=%d", dimensionality)); &#xA0; &#xA0;
&#xA0; &#xA0; &#xA0; &#xA0; if (dimensionality == 160)
&#xA0; &#xA0; &#xA0; &#xA0; &#xA0; &#xA0; waitfor(fig);
&#xA0; &#xA0; &#xA0; &#xA0; end
end

图4 不同维度下人脸还原（重构）效果

3.人脸识别

Tips：本实验中有两个变量，k从1~6取值，维度从10~160，探究k值及维度对识别率的共同影响

分别对测试集、训练集进行降维，将人脸投影到10，20，30，…，160维空间中，计算未知人脸与所有已知人脸的距离（欧几里得距离），然后使用最近邻分类器KNN进行识别（共同影响如图5 只考虑维度影响如图6 横坐标为维度/10）

% 5.&#x4EBA;&#x8138;&#x8BC6;&#x522B;
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

index = 1;
Y = [];
% KNN
for k=1:6

    for i=10:10:160
    % &#x53D6;&#x51FA;&#x76F8;&#x5E94;&#x6570;&#x91CF;&#x7279;&#x5F81;&#x8138;
   eigen_faces = all_eigen_faces(:,1:i);
    % &#x6D4B;&#x8BD5;&#x3001;&#x8BAD;&#x7EC3;&#x6570;&#x636E;&#x964D;&#x7EF4;
    projected_train_data = eigen_faces' * (train_data - mean_face);
    projected_test_data = eigen_faces' * (test_data - mean_face);
        % &#x7528;&#x4E8E;&#x4FDD;&#x5B58;&#x6700;&#x5C0F;&#x7684;k&#x4E2A;&#x503C;&#x7684;&#x77E9;&#x9635;
        % &#x7528;&#x4E8E;&#x4FDD;&#x5B58;&#x6700;&#x5C0F;k&#x4E2A;&#x503C;&#x5BF9;&#x5E94;&#x7684;&#x4EBA;&#x6807;&#x7B7E;&#x7684;&#x77E9;&#x9635;
        minimun_k_values = zeros(k,1);
        label_of_minimun_k_values = zeros(k,1);

        % &#x6D4B;&#x8BD5;&#x8138;&#x7684;&#x6570;&#x91CF;
        test_face_number = size(projected_test_data, 2);

        % &#x8BC6;&#x522B;&#x6B63;&#x786E;&#x6570;&#x91CF;
        correct_predict_number = 0;

        % &#x904D;&#x5386;&#x6BCF;&#x4E00;&#x4E2A;&#x5F85;&#x6D4B;&#x8BD5;&#x4EBA;&#x8138;
        for each_test_face_index = 1:test_face_number

            each_test_face = projected_test_data(:,each_test_face_index);

            % &#x5148;&#x628A;k&#x4E2A;&#x503C;&#x586B;&#x6EE1;&#xFF0C;&#x907F;&#x514D;&#x5728;&#x8FED;&#x4EE3;&#x4E2D;&#x53CD;&#x590D;&#x5224;&#x65AD;
            for each_train_face_index = 1:k
                minimun_k_values(each_train_face_index,1) = norm(each_test_face - projected_train_data(:,each_train_face_index));
                label_of_minimun_k_values(each_train_face_index,1) = floor((train_data_index(1,each_train_face_index) - 1) / 10) + 1;
            end

            % &#x627E;&#x51FA;k&#x4E2A;&#x503C;&#x4E2D;&#x6700;&#x5927;&#x503C;&#x53CA;&#x5176;&#x4E0B;&#x6807;
            [max_value, index_of_max_value] = max(minimun_k_values);

            % &#x8BA1;&#x7B97;&#x4E0E;&#x5269;&#x4F59;&#x6BCF;&#x4E00;&#x4E2A;&#x5DF2;&#x77E5;&#x4EBA;&#x8138;&#x7684;&#x8DDD;&#x79BB;
            for each_train_face_index = k+1:size(projected_train_data,2)

                % &#x8BA1;&#x7B97;&#x8DDD;&#x79BB;
                distance = norm(each_test_face - projected_train_data(:,each_train_face_index));

                % &#x9047;&#x5230;&#x66F4;&#x5C0F;&#x7684;&#x8DDD;&#x79BB;&#x5C31;&#x66F4;&#x65B0;&#x8DDD;&#x79BB;&#x548C;&#x6807;&#x7B7E;
                if (distance < max_value)
                    minimun_k_values(index_of_max_value,1) = distance;
                    label_of_minimun_k_values(index_of_max_value,1) = floor((train_data_index(1,each_train_face_index) - 1) / 10) + 1;
                    [max_value, index_of_max_value] = max(minimun_k_values);
                end
            end

            % &#x6700;&#x7EC8;&#x5F97;&#x5230;&#x8DDD;&#x79BB;&#x6700;&#x5C0F;&#x7684;k&#x4E2A;&#x503C;&#x4EE5;&#x53CA;&#x5BF9;&#x5E94;&#x7684;&#x6807;&#x7B7E;
            % &#x53D6;&#x51FA;&#x51FA;&#x73B0;&#x6B21;&#x6570;&#x6700;&#x591A;&#x7684;&#x503C;&#xFF0C;&#x4E3A;&#x9884;&#x6D4B;&#x7684;&#x4EBA;&#x8138;&#x6807;&#x7B7E;
            predict_label = mode(label_of_minimun_k_values);
            real_label = floor((test_data_index(1,each_test_face_index) - 1) / 10)+1;

            if (predict_label == real_label)
                %fprintf("&#x9884;&#x6D4B;&#x503C;&#xFF1A;%d&#xFF0C;&#x5B9E;&#x9645;&#x503C;:%d&#xFF0C;&#x6B63;&#x786E;\n",predict_label,real_label);
                correct_predict_number = correct_predict_number + 1;
            else
                %fprintf("&#x9884;&#x6D4B;&#x503C;&#xFF1A;%d&#xFF0C;&#x5B9E;&#x9645;&#x503C;:%d&#xFF0C;&#x9519;&#x8BEF;\n",predict_label,real_label);
            end
        end
        % &#x5355;&#x6B21;&#x8BC6;&#x522B;&#x7387;
        correct_rate = correct_predict_number/test_face_number;

        Y = [Y correct_rate];

        fprintf("k=%d&#xFF0C;i=%d&#xFF0C;&#x603B;&#x6D4B;&#x8BD5;&#x6837;&#x672C;&#xFF1A;%d&#xFF0C;&#x6B63;&#x786E;&#x6570;:%d&#xFF0C;&#x6B63;&#x786E;&#x7387;&#xFF1A;%1f\n", k, i,test_face_number,correct_predict_number,correct_rate);
    end
end
% &#x6C42;&#x4E0D;&#x540C;k&#x503C;&#x4E0D;&#x540C;&#x7EF4;&#x5EA6;&#x4E0B;&#x7684;&#x4EBA;&#x8138;&#x8BC6;&#x522B;&#x7387;&#x53CA;&#x5E73;&#x5747;&#x8BC6;&#x522B;&#x7387;
Y = reshape(Y,k,16);
waitfor(waterfall(Y));
avg_correct_rate=mean(Y);
waitfor(plot(avg_correct_rate));

图5 不同k值与维度下PCA的人脸识别率

图6 不同维度下PCA的人脸识别率（横坐标为维度/10）

4.人脸图像降维与可视化

取出对应数量的特征脸（n维取n个），利用公式 projected_test_data = eigen_faces’ * (test_data – mean_face)对测试集或其他子集进行投影，投影后上色（同人同色）并使用scatter画图实现可视化（二维人脸分布如图7，三维人脸分布如图8）。

Tips：本实验以测试集的二三维可视化为例

% 6.&#x4EBA;&#x8138;&#x6570;&#x636E;&#x4E8C;&#x4E09;&#x7EF4;&#x53EF;&#x89C6;&#x5316;&#xFF08;&#x53EF;&#x63A8;&#x5E7F;&#x5230;&#x4E0D;&#x540C;&#x6570;&#x636E;&#x96C6;&#xFF09;
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

for i=[2 3]

    % &#x53D6;&#x51FA;&#x76F8;&#x5E94;&#x6570;&#x91CF;&#x7279;&#x5F81;&#x8138;
    eigen_faces = all_eigen_faces(:,1:i);

    % &#x6295;&#x5F71;
    projected_test_data = eigen_faces' * (test_data - mean_face);

    color = [];
    for j=1:120
        color = [color floor((j-1)/4)*5];
    end

    % &#x663E;&#x793A;
    if (i == 2)
        waitfor(scatter(projected_test_data(1, :), projected_test_data(2, :), [], color));
    else
        waitfor(scatter3(projected_test_data(1, :), projected_test_data(2, :), projected_test_data(3, :), [], color));
    end

end

图7 测试集降维至二维图像分布

图8 测试集降维至三维图像分布

5.其他

5.1 内部函数定义

本实验中将人脸图像展示抽象为函数，函数定义如下：

%&#x5185;&#x7528;&#x51FD;&#x6570;&#x5B9A;&#x4E49;
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

% &#x8F93;&#x5165;&#x5411;&#x91CF;&#xFF0C;&#x663E;&#x793A;&#x8138;
function fig = show_face(vector)
    fig = imshow(mat2gray(reshape(vector, [50, 40])));
end

% &#x663E;&#x793A;&#x77E9;&#x9635;&#x4E2D;&#x67D0;&#x4E9B;&#x8138;
function fig = show_faces(eigen_vectors)
    count = 1;
    index_of_image_to_show = [1,5,10,15,20,30,50,70,100,150];
    for i=index_of_image_to_show
        subplot(2,5,count);
        fig = show_face(eigen_vectors(:, i));
        title(sprintf("i=%d", i));
        count = count + 1;
    end
end

5.2 数据集及资源

本实验以AR50_40数据集做展示，代码可适用多个数据集。

常用人脸数据集如下（不要白嫖哈哈哈）

链接：https://pan.baidu.com/s/12Le0mKEquGMgh5fhNagZGw
提取码：yrnb

PCA完整代码：李忆如/忆如的机器学习 – Gitee.com

5.3 参考资料

1.赖志辉的课

2. PCA原理_PiggyGaGa的博客-CSDN博客_pca

基于 PCA 的人脸识别方法——特征脸法[2] – 知乎 (zhihu.com)

4.周志华《机器学习》

总结

PCA作为经典的线性降维算法，通过”最小重构误差”为目标导向对数据进行投影实现降维，如今仍然在机器学习许多领域（语言图像处理、数据可视化）有优异表现。但作为一种无监督学习方法（没有对训练样本做标注），在对数据完全无知的情况下，PCA并不能得到较好的保留数据信息，且PCA对于主成分的分析判断是影响实验结果的重要因素（不好界定主要信息），另外，PCA对于非线性的数据降维效果较差，后续博客会分析其他算法优化或解决上述问题。

Original: https://blog.csdn.net/weixin_51426083/article/details/123795028
Author: @李忆如
Title: 机器学习——PCA（主成分分析）与人脸识别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/605559/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

粒子群算法求解0-1背包问题

目录一、粒子群算法的概念二、粒子群算法分析三、粒子群算法种类 1.基本粒子群算法 2.标准粒子群算法 3.压缩粒子群算法 4.离散粒子群算法四、粒子群算法流程五、例题一…

人工智能 2023年6月15日
0069
Excel数据分析之环比和同比的计算

年： 1. 例如：2020年环比 =（2020年数据 / 2019数据）- 1 月： 2.例如2020年7月环比 =（2020年7月数据 / 2020年6月数据）- 1 3.例如2…

人工智能 2023年7月16日
00192
[机器学习与scikit-learn-30]：算法-回归-普通线性模型拟合非线性分布数据-遇到的问题

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客本文网址：https://blog.csdn.net/HiWangWenBing/art…

人工智能 2023年6月17日
0089
【开发工具】【Valgrind】内存问题检测工具（valgrind）的使用

关键字：【valgrind】、【内存泄露】、【内存越界】、【非法指针】、【】、【】、获取更多相关的嵌入式开发工具，可收藏系列博文，持续更新中：【开发工具】嵌入式常用开发工具汇总…

人工智能 2023年6月30日
0077
Datawhale 6月学习——图神经网络：基于GNN的节点预测任务及边预测任务

前情回顾图神经网络：图数据表示及应用图神经网络：消息传递图神经网络图神经网络：基于GNN的节点表征学习 1 节点预测任务 1.1 任务简述通过构造一个数据完整存于内存的数…

人工智能 2023年7月13日
0057
【PyTorch系列】PyTorch之torchvision 图像处理库详解

转换和增强图像（TRANSFORMING AND AUGMENTING）转换是模块中可用的常见图像转换。可以使用 Compose 将它们链接在一起。大多数转换类都具有函数等效项：…

人工智能 2023年6月20日
0091
Channel-wise Knowledge Distillation for Dense Prediction阅读笔记

Channel-wise KD阅读笔记 * – (一) Title – (二) Summary – (三) Research Object &#…

人工智能 2023年7月10日
0078
步进电机原理及参数详解

步进电机常见型号：20,28,35,39,42,57,86等，功能大同小异，差异主要点在尺寸和输出力的大小不一样。下面我们以57为例详细说明其原理。步进电机常见和用到最多的是2相步…

人工智能 2023年6月2日
0050
【TensorFlow2.0】(1) tensor数据类型，类型转换

各位同学好，今天和大家分享一下TensorFlow2.0中的tensor数据类型，以及各种类型之间的相互转换方法。 1. tf.tensor 基础操作 scaler标量：1.2 v…

人工智能 2023年6月15日
0071
SPSS中系统聚类操作案例

示例：一啤酒生产商想了解当前啤酒市场情况，并判断时下最受欢迎的啤酒品牌，收集了多种啤酒在售价、热量、钠含量、酒精含量等方面的数据。运用系统聚类法对各项数据进行分析，并给出：（1…

人工智能 2023年6月15日
0078
apollo自动驾驶进阶学习之：在apollo中模拟障碍物的三种方法

首先需要理解Planning模块是基于Scenario、Stage、Task这样的层次来进行的，即：场景->步骤->具体的决策方法。Apollo可以应对自动驾驶所面临的…

人工智能 2023年6月10日
0083
2000字详解当Pandas遇上超大规模的数据集该如何处理呢？

大家好，又是新的一周。大家一般会用 Pandas模块来对数据集进行进一步的分析与挖掘关键信息，但是当我们遇到数据集特别特别大的时候，内存就会爆掉，今天小编就来分享几个技巧，来帮助你…

人工智能 2023年7月8日
0089
Anaconda 安装各种包遇到的一些坑（个人总结）

由于学习和做与神经网络和图像处理相关的项目和工作 [En] Due to learning and doing projects and work related to neura…

人工智能 2023年5月25日
00119
1.2数据模型

层次模型类似于数据结构中的树网状模型类似于数据结构中的 *图 1.实体是信息世界中的术语，与之对应的数据库术语为（）。A. 文件B. 数据库C. 字段D. 记录正确选项：D…

人工智能 2023年6月1日
0076
Spring–IOC&&基于XML管理bean

IOC容器 IOC思想 IOC：Inversion of Control 即反转控制获取资源的传统方式自己做饭：买菜、洗菜、择菜、改刀、炒菜，全过程参与，费时费力，必须清楚了…

人工智能 2023年6月30日
0081
pycharm从安装到全副武装，学起来才嗖嗖的快，图片超多，因为过度详细！

文章目录 * – 推荐系列教程，推荐的一定是好的！ – 0.前言 – 一.pycharm下载安装 – 二.python下载安装 &#…

人工智能 2023年7月3日
00115

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习——PCA（主成分分析）与人脸识别

1.PCA简介

2.PCA算法模型

1.预处理

1.1 数据导入与处理