拓端tecdat|R语言K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较

2023年5月31日上午9:45 • 人工智能 • 阅读 86

最近我们被客户要求撰写关于聚类的研究报告，包括一些图形和统计输出。

目标

对”NCI60″（癌细胞系微阵列）数据使用聚类方法，目的是找出观察结果是否聚类为不同类型的癌症。K_means 和层次聚类的比较。

【视频】KMEANS均值聚类和层次聚类：R语言分析生活幸福质量系数可视化实例

KMEANS均值聚类和层次聚类：R语言分析生活幸福质量系数可视化实例

，时长06:05

#&#x6570;&#x636E;&#x4FE1;&#x606F;

dim(nata)

拓端tecdat|R语言K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较

nci.labs[1:4]
&#xA0;

&#xA0;

table(ncibs)
&#xA0;

&#xA0;

ncbs
&#xA0;

scale # &#x6807;&#x51C6;&#x5316;&#x53D8;&#x91CF;&#xFF08;&#x5747;&#x503C;&#x96F6;&#x548C;&#x6807;&#x51C6;&#x5DEE;&#x4E00;&#xFF09;&#x3002;

全链接、平均链接和单链接之间的比较。


plot(hclust,ylab = "",cex=".5",col="blue") #&#x4F7F;&#x7528;&#x5168;&#x94FE;&#x63A5;&#x5BF9;&#x89C2;&#x5BDF;&#x7ED3;&#x679C;&#x8FDB;&#x884C;&#x5C42;&#x6B21;&#x805A;&#x7C7B;&#x3002;

plot(hclust,cex=".5",col="blue") #&#x4F7F;&#x7528;&#x5E73;&#x5747;&#x94FE;&#x63A5;&#x5BF9;&#x89C2;&#x5BDF;&#x8FDB;&#x884C;&#x5C42;&#x6B21;&#x805A;&#x7C7B;&#x3002;

<a id="cb12-1">;</a>

par(mfrow=c(1,1))
plot(hclust,col="blue") #&#x4F7F;&#x7528;&#x5355;&#x94FE;&#x63A5;&#x5BF9;&#x89C2;&#x5BDF;&#x8FDB;&#x884C;&#x5C42;&#x6B21;&#x805A;&#x7C7B;&#x3002;

观察结果

单链接聚类倾向于产生拖尾的聚类：非常大的聚类，单个观测值一个接一个地附在其中。

另一方面，全链接和平均链接往往会产生更加平衡和有吸引力的聚类。

由于这个原因，全链接和平均链接比单链接层次聚类更受欢迎。单一癌症类型中的细胞系确实倾向于聚在一起，尽管聚类并不完美。

&#xA0;

table(hrs,ncbs)
&#xA0;

我们可以看到一个清晰的模式，即所有白血病细胞系都属于聚类 3，其中乳腺癌细胞分布在三个不同的聚类中。

&#xA0;

plot(hcu)
abline
&#xA0;

参数 h=139 在高度 139 处绘制一条水平线。这是 4 个不同聚类的划分结果。

&#xA0;

out
&#xA0;

&#xA0;

kout=kmea
table
&#xA0;

我们看到，获得层次聚类和 K-means 聚类的四个聚类产生了不同的结果。K-means 聚类中的簇 2 与层次聚类中的簇 3 相同。另一方面，其他集群不同。

结论

层次聚类在 NCI60 数据集中能比 K-means聚类得到更好的聚类。

Original: https://blog.csdn.net/qq_19600291/article/details/122735124
Author: 拓端研究室
Title: 拓端tecdat|R语言K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/550360/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

关于YOLOv5标签命名问题的报错解决（assert mlc ＜ nc, ‘Label class %g exceeds nc=%g in %s.）

目录一. 泰迪杯害虫检测训练的时候，碰到如下问题：二. 解决步骤一. 泰迪杯害虫检测训练的时候，碰到如下问题： Label class 485 exceeds nc=28 i…

人工智能 2023年5月28日
0083
【深度学习】深度学习基础-Warm_up训练策略

背景学习率是最影响性能的超参数之一，如果我们只能调整一个超参数，那么最好的选择就是它。其实在我们的大多数情况下，遇到 loss 变成 NaN 的情况大多数是由于学习率选择不当…

人工智能 2023年7月13日
0067
【python学习】如何将所绘制的图（单张/多张）保存到文件夹，并用绘制实时时间命名图片

python图片保存到文件夹基本存储（plt.savefig()）创建文件夹并存储图片（if结构+OS模块）批量绘制图片+批量存储（for循环）图片/文件夹命名与所运行时间…

人工智能 2023年7月6日
0058
MMDetection训练自己的数据集过程

接着前一篇MMDetection亲测安装教程，安装好后就来尝试训练自己的数据集吧，以训练 RetinaNet 模型为例说明。 1. 准备数据集本文采用 VOC格式训练，在 mmd…

人工智能 2023年7月9日
0095
职业技能培训 | 2022年大数据工程技术人员特训营开班啦！

招生简章 01 学校简介重庆市大渡口区芝诺数据职业培训学校是集教学、实训、培训、技能鉴定于一体的培训学校，学校将校企合作、产教融合、服务社会作为核心价值理念之一，促进人才培…

人工智能 2023年7月17日
0068
解决 No module named ‘tensorflow.examples.tutorials‘

Fundamentals of the JavaMail API Presented by developerWorks, your source for greattu tor …

人工智能 2023年5月26日
0074
图像处理(7) : 边缘检测

边缘检测是图形图像处理、计算机视觉和机器视觉中的一个基本工具，通常用于特征提取和特征检测，旨在检测一张数字图像中有明显变化的边缘或者不连续的区域，在一维空间中，类似的操作被称作步长…

人工智能 2023年6月17日
0063
脚手架开发流程

先把原理讲通，方便后续的开发。后续都拿vue-cli举例脚手架实现原理为什么全局安装 @vue/cli后会添加的命令为 vue？全局安装 @vue/cli时发生了什么？执…

人工智能 2023年6月30日
0091
Kaggle数据科学竞赛-数据分析流程笔记（以Give Me Some Credit为例）（未完待续~）

1. 赛题阅读小节提要该阶段需要确定，问题的类型（分类or回归），模型的评估标准等。算法竞赛中对于赛题背景的业务挖掘点到即止即可，一方面是因为出于保密性要求，竞赛主办方会刻意隐…

人工智能 2023年7月15日
0098
【手把手教你】利用神经网络构建量化交易策略

0 1 引言神经网络一开始是为了研究人脑图并了解人类如何做出决策，而算法试图从交易方面消除人类情绪的影响。我们有时没有意识到的是，人脑很可能是这个世界上最复杂的机器，并且众所周知…

人工智能 2023年7月14日
0079
中值滤波器 median filter

中值滤波中值滤波器(median filter)是将每个像素替换为围绕这个像素的矩形领域内的中值，或”中值像素”。通过平均的简单模糊对噪声图像，由其是有…

人工智能 2023年6月24日
0045
逻辑回归算法(Logistic Regression)原理(含多项逻辑斯蒂回归对参数求偏导的推导过程)及numpy代码实现

逻辑回归算法，虽然名字中带有”回归”二字，但解决的却是分类问题，它与线性回归之间有什么样的关系呢？文章目录 1.二项逻辑斯蒂回归 * 概述模型形式——对…

人工智能 2023年6月17日
0083
Google Earth Engine——Murray全球潮间带变化数据集在潮滩分类，用于开发陆地卫星协变量层的陆地卫星图像的数量

The Murray Global Intertidal Change Dataset contains global maps of tidal flat ecosystems …

人工智能 2023年7月2日
0067
WebRTC Opus编码器的创建与参数细节分析( sdp -＞ native )

这几天在做一些WebRTC音频改进方面的调查工作，在阅读Chromium源码的过程中，就顺便记录下来，便于日后回顾。本文基于Chromium 85源码分析，由于Chromium的快…

人工智能 2023年5月27日
0077
【十一】图像分割

1 图像分割基础知识图像分割是将图像中具有特殊意义的区域划分开。常用的方法有、和聚合等。图像分割算法一般基于图像灰度值的不连续性（边缘检测、边界跟踪、Hough变换）或其相似性（…

人工智能 2023年6月20日
0076
论文解读：知识图谱融入预训练模型

©NLP论文解读原创•作者 |疯狂的Max 背景及动机以BERT为基础的预训练模型在各项NLP任务获得巨大的成功，与此同时，如何在泛化的预训练模型基础上融入某些特定领域的知识图…

人工智能 2023年6月1日
0075

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

拓端tecdat|R语言K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较

【视频】KMEANS均值聚类和层次聚类：R语言分析生活幸福质量系数可视化实例

大家都在看