ConsensusClusterPlus，一步到位的一致性聚类！

2023年5月31日上午6:30 • 人工智能 • 阅读 96

欢迎关注”生信修炼手册”!

在之前的文章中分享了一致性聚类的原理，本文介绍下如何用R语言进行分析。ConsensusClusterPlus这个R包，就是专门用于一致性聚类分析的，为了简化调用，甚至将所有的步骤都封装到了一个函数里面，所以其使用方法非常的简单，一共三步

加载R包
把表达量数据读进去
运行一致性聚类的函数

是不是和把大象装进冰箱一样简单，但是我们必须注意，这样简单的背后，实际是一个黑盒子，如果不了解原理，你只能得到结果，但是结果说明了什么信息，你一无所知。

下面是具体步骤

1. 准备输入数据

行为基因，列为样本的表达量数据，为了获得最佳的聚类效果，可以对基因进行筛选，对矩阵进行归一化操作，代码如下

> library(ALL)
> data(ALL)
> d=exprs(ALL)
表达量数据
> d[1:5,1:5]
             01005    01010    03002    04006    04007
1000_at   7.597323 7.479445 7.567593 7.384684 7.905312
1001_at   5.046194 4.932537 4.799294 4.922627 4.844565
1002_f_at 3.900466 4.208155 3.886169 4.206798 3.416923
1003_s_at 5.903856 6.169024 5.860459 6.116890 5.687997
1004_at   5.925260 5.912780 5.893209 6.170245 5.615210
> mad(d[1, ])
[1] 0.2701619
> mads=apply(d,1,mad)
> d=d[rev(order(mads))[1:5000],]
> dim(d)
[1] 5000  128
归一化操作
> d = sweep(d,1, apply(d,1,median,na.rm=T))
> dim(d)
[1] 5000  128
> d[1:5,1:5]
              01005     01010       03002     04006       04007
36638_at  1.5561207 0.9521271 -0.05018082  4.780378  3.93006775
39318_at  1.1913532 2.5013225 -2.38793537 -1.199521  1.93626914
38514_at  1.0207162 3.2785671  1.55949145 -3.345919 -0.01548269
266_s_at  1.8292604 0.3624327  1.54913247 -1.286294  1.75669694
38585_at -0.9240204 0.1895020  3.44968363 -2.216822  5.18702726

2. 运行ConsensusClusterPlus

ConsensusClusterPlus就是核心函数了，包括了以下几个参数

pItem, 选择80%的样本进行重复抽样
pfeature, 选择80%的基因进行重复抽样
maxK, 最大的K值，形成一系列梯度
reps, 重复抽样的数目
clusterAlg, 层次聚类的算法
distanc, 距离矩阵的算法
title, 输出结果的文件夹名字，包含了输出的图片
seed, 随机种子，用于重复结果

注意，在实际运行中，推荐reps设置的更大，比如1000， maxK设置的更大，比如20，具体代码如下

> library(ConsensusClusterPlus)
> title=tempdir()
> results = ConsensusClusterPlus(d,maxK=6,reps=50,pItem=0.8,pFeature=1, title=title,clusterAlg="hc",distance="pearson",seed=1262118388.71279,plot="png", writeTable = TRUE)
end fraction
clustered
clustered
clustered
clustered
clustered

函数的返回值是一个列表，每个列表子项对应给具体的K， K最小值为2

> str(results[[2]])
List of 5
$ consensusMatrix: num [1:128, 1:128] 1 1 0.895 1 1 ...

$ consensusTree  :List of 7
  ..$ merge      : int [1:127, 1:2] -1 -4 -5 -6 -7 -9 -11 -12 -14 -15 ...

  ..$ height     : num [1:127] 0 0 0 0 0 0 0 0 0 0 ...

  ..$ order      : int [1:128] 101 128 127 126 125 124 123 122 121 120 ...

  ..$ labels     : NULL
  ..$ method     : chr "average"
  ..$ call       : language hclust(d = as.dist(1 - fm), method = finalLinkage)
  ..$ dist.method: NULL
  ..- attr(*, "class")= chr "hclust"
$ consensusClass : Named int [1:128] 1 1 1 1 1 1 1 1 1 1 ...

  ..- attr(*, "names")= chr [1:128] "01005" "01010" "03002" "04006" ...

$ ml             : num [1:128, 1:128] 1 1 0.895 1 1 ...

$ clrs           :List of 3
  ..$ : chr [1:128] "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" ...

  ..$ : num 2
  ..$ : chr [1:2] "#A6CEE3" "#1F78B4"

一致性矩阵，样本的邻接矩阵
> dim(d)
[1] 5000  128

> dim(results[[2]][["consensusMatrix"]])
[1] 128 128

> results[[2]][["consensusMatrix"]][1:5,1:5]
          [,1]      [,2]      [,3]      [,4]     [,5]
[1,] 1.0000000 1.0000000 0.8947368 1.0000000 1.000000
[2,] 1.0000000 1.0000000 0.9142857 1.0000000 1.000000
[3,] 0.8947368 0.9142857 1.0000000 0.8857143 0.969697
[4,] 1.0000000 1.0000000 0.8857143 1.0000000 1.000000
[5,] 1.0000000 1.0000000 0.9696970 1.0000000 1.000000

> results[[2]][["consensusTree"]]

Call:
hclust(d = as.dist(1 - fm), method = finalLinkage)

Cluster method   : average
Number of objects: 128

样本的聚类树
> results[[2]][["consensusTree"]]

Call:
hclust(d = as.dist(1 - fm), method = finalLinkage)

Cluster method   : average
Number of objects: 128

consensusClass， 样本的聚类结果
> length(results[[2]][["consensusClass"]])
[1] 128
> results[[2]][["consensusClass"]][1:5]
01005 01010 03002 04006 04007
    1     1     1     1     1

ml, 就是consensusMatrix
> results[[2]][["ml"]][1:5,1:5]
          [,1]      [,2]      [,3]      [,4]     [,5]
[1,] 1.0000000 1.0000000 0.8947368 1.0000000 1.000000
[2,] 1.0000000 1.0000000 0.9142857 1.0000000 1.000000
[3,] 0.8947368 0.9142857 1.0000000 0.8857143 0.969697
[4,] 1.0000000 1.0000000 0.8857143 1.0000000 1.000000
[5,] 1.0000000 1.0000000 0.9696970 1.0000000 1.000000
> results[[2]][["consensusMatrix"]][1:5,1:5]
          [,1]      [,2]      [,3]      [,4]     [,5]
[1,] 1.0000000 1.0000000 0.8947368 1.0000000 1.000000
[2,] 1.0000000 1.0000000 0.9142857 1.0000000 1.000000
[3,] 0.8947368 0.9142857 1.0000000 0.8857143 0.969697
[4,] 1.0000000 1.0000000 0.8857143 1.0000000 1.000000
[5,] 1.0000000 1.0000000 0.9696970 1.0000000 1.000000

clrs, 颜色
> results[[2]][["clrs"]]
[[1]]
  [1] "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3"
[13] "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3"
[25] "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3"
[37] "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3"
[49] "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3"
[61] "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3"
[73] "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3"
[85] "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#A6CEE3" "#1F78B4"
[97] "#1F78B4" "#1F78B4" "#1F78B4" "#1F78B4" "#1F78B4" "#1F78B4" "#1F78B4" "#A6CEE3" "#1F78B4" "#1F78B4" "#1F78B4" "#1F78B4"
[109] "#1F78B4" "#1F78B4" "#1F78B4" "#1F78B4" "#1F78B4" "#1F78B4" "#A6CEE3" "#1F78B4" "#1F78B4" "#1F78B4" "#1F78B4" "#1F78B4"
[121] "#1F78B4" "#1F78B4" "#1F78B4" "#1F78B4" "#1F78B4" "#1F78B4" "#1F78B4" "#1F78B4"

[[2]]
[1] 2

[[3]]
[1] "#A6CEE3" "#1F78B4"

3. 收集cluster-consensus和item-consensus 矩阵

代码如下

> icl = calcICL(results,title=title,plot="png")
> icl[["clusterConsensus"]]
      k cluster clusterConsensus
[1,] 2       1        0.7681668
[2,] 2       2        0.9788274
[3,] 3       1        0.6176820
[4,] 3       2        0.9190744
[5,] 3       3        1.0000000
[6,] 4       1        0.8446083
[7,] 4       2        0.9067267
[8,] 4       3        0.6612850
[9,] 4       4        1.0000000
[10,] 5       1        0.8175802
[11,] 5       2        0.9066489
[12,] 5       3        0.6062040
[13,] 5       4        0.8154580
[14,] 5       5        1.0000000
[15,] 6       1        0.7511726
[16,] 6       2        0.8802040
[17,] 6       3        0.7410730
[18,] 6       4        0.8154580
[19,] 6       5        0.7390864
[20,] 6       6        1.0000000

> dim(icl[["itemConsensus"]])
[1] 2560    4
> 128 * (2 + 3 + 4 + 5 + 6)
[1] 2560

> icl[["itemConsensus"]][1:5,]
  k cluster  item itemConsensus
1 2       1 28031     0.6173782
2 2       1 28023     0.5797202
3 2       1 43012     0.5961974
4 2       1 28042     0.5644619
5 2       1 28047     0.6259350

4. 结果解读

在输出文件夹中，包含了多种输出可视化结果，每种结果的含义如下

1）consensus matrix 热图

consensus matrix 为样本方阵，数值代表两个同属一个cluster的可能性，取值范围从0到1，颜色从白色到深蓝色

2）consensus 累计分布图 CDF

对于每个K对应的consensus matrix, 采用100个bin的柱状图来计算累计分布，

CDF图可以用来帮助决定最佳的K值

3）delta area plot

对于每个K, 计算K和K-1相比，CDF 曲线下面积的相对变化，对于K=2, 因为没有K=1, 所以是totla CDF curve area，选取增加不明显的点作为最佳的K值

4）tracling plot

行为样本，列为每个K, 用热图展示样本在每个K下的cluster, 用于定性评估不稳定的聚类和不稳定的样本

·end·

—如果喜欢，快分享给你的朋友们吧—

原创不易，欢迎收藏，点赞，转发！生信知识浩瀚如海，在生信学习的道路上，让我们一起并肩作战！

本公众号深耕耘生信领域多年，具有丰富的数据分析经验，致力于提供真正有价值的数据分析服务，擅长个性化分析，欢迎有需要的老师和同学前来咨询。

更多精彩

*

*

*

*

*

*

*

*

*
*
*

写在最后

转发本文至朋友圈，后台私信截图即可加入生信交流群，和小伙伴一起学习交流。

扫描下方二维码，关注我们，解锁更多精彩内容！

一个只分享干货的

生信公众号

Original: https://blog.csdn.net/weixin_43569478/article/details/124464348
Author: 生信修炼手册
Title: ConsensusClusterPlus，一步到位的一致性聚类！

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549416/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

时间序列预测——Prophet模型

文章链接： 1、Propht模型概述 Prophet 模型是Facebook于2017年发布开源的时间序列预测框架。Prophet适用于各种具有潜在特殊特征的预测问题包括广泛的业…

人工智能 2023年6月17日
00148
python 解析json数据

遇到了个json数据需要解析，利用Python脚本尝试如下 import os import pandas as pd import numpy as np path=r&#821…

人工智能 2023年7月7日
00102
表面肌电信号处理流程——基于肌电信号分类的特征抽取的设计

如图为表面肌电信号研究的一般流程，仅作参考。本文中主要在特征提取方面进行研究！动动小手指，帮我投上一票：摄影比赛，复制链接在微信搜索框打开哦🌹🌹http://h5.34313733…

人工智能 2023年7月27日
0076
Toward Fast, Flexible, and Robust Low-Light Image Enhancement(实现快速、灵活和稳健的弱光图像增强)CVPR2022

最前面是论文翻译，中间是背景+问题+方法步骤+实验过程，最后是文中的部分专业名词介绍（水平线分开，能力有限，部分翻译可能不太准确）图1.最近最先进的方法与我们的方法之间的比较。K…

人工智能 2023年6月24日
0076
Opencv中circle(),line(),cv2.rectangle(),cv2.putText()

Opencv中circle(),line(),cv2.rectangle(),cv2.putText() 一、circle()画圆 cv2.circle() 方法用于在任何图像上绘…

人工智能 2023年7月19日
0056
物联网跟人的神经网络相似通过各种信息传感设备

物联网通过信息传感设备将各种物品与互联网连接起来，实现物品的自动识别、定位、跟踪、控制和信息的互换试题分析：通过物联网将物品与互联网相连接，实现物品的自动识别、定位、跟踪、控制和…

人工智能 2023年7月14日
00114
Encoder in Vision Transformer

Encoder · overall 整个Encoder分为输入，自注意力，layer normalization 和前馈网络几个大步组成；接下来细致地分块理一理几个步骤地具体操作…

人工智能 2023年6月20日
00100
进击的PyTorch，和它背后的开源领袖

十年间，从Torch进化到PyTorch，再到近期落地Linux基金会，PyTorch从一个无心插柳的项目逐渐演变为最有影响力的开源项目之一。它究竟是如何一步步成长起来的？背后有那…

人工智能 2023年7月23日
0065
Collaborative算法如何选择和计算相似度度量指标

问题介绍在协同过滤算法中，选择合适的相似度度量指标是非常重要的。相似度度量指标用于计算用户之间或物品之间的相似度，从而推荐与用户兴趣相似的物品。本文将详细介绍Collaborat…

人工智能 2024年1月4日
0049
以太坊的终局：去信任的信任

世界计算机以太坊诞生于大约7年前；就像之前的互联网一样，它的发展是混乱的，成长的痛苦是巨大的……但回报是值得的。未来比你想象的更近，你想看看以太坊的未来会…

人工智能 2023年6月26日
0076
强化学习调参技巧二：DDPG、TD3、SAC算法为例：

1.训练环境如何正确编写强化学习里的 env.reset() env.step() 就是训练环境。其编写流程如下： 1.1 初始阶段：先写一个简化版的训练环境。把任务难度降到最…

人工智能 2023年6月16日
0063
机器学习基础—回归方法—支持向量回归（SVR）

因此引入松弛变量ξ , ξ ˉ \xi,\bar\xi ξ,ξˉ，从而使函数的间隔要求变的放松，允许一些训练样本不在间隔内对于任意样本x i x_i x i ,如果它在间隔带…

人工智能 2023年6月17日
0091
深度学习与自然语言处理 | 斯坦福CS224n · 课程带学与全套笔记解读（NLP通关指南·完结）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月27日
0093
Pandas常用操作

Pandas的两种数据结构（pandas是基于Numpy来进行构建的，让以Numpy为中心的应用变得更加的简单） 1-1、Series（类似一维数组的对象，由values和inde…

人工智能 2023年7月6日
0078
GAN(生成对抗网络)Matlab代码详解

这篇博客主要是对GAN网络的代码进行一个详细的讲解：首先是预定义： clear; clc; %%%clc是清除当前command区域的命令,表示清空,看着舒服些。而clear用…

人工智能 2023年7月26日
00131
基于Java+Vue+uniapp微信小程序实现餐厅校园订餐平台

博主介绍： ✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技…

人工智能 2023年7月30日
0049

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

ConsensusClusterPlus， 一步到位的一致性聚类！

大家都在看

ConsensusClusterPlus，一步到位的一致性聚类！