1.1 HDP
公司：hortonworks,apach社区
管理页面：Ambari
主要特点：
稳定性：较差,打开页面慢
二次开发：支持,且支持邮件报警
安装：简单,RPM包,支持滚动重启(hdfs需要设计成ha才能滚动重启)
集成性：版本较新,ambari较强,支持es,redis,presto,kylin
1.2 CDH
公司：cloudera
管理页面：cloudera manager
主要特点：
稳定性：较好
二次开发：不支持
安装：复杂,parcel包,支持滚动重启
集成性：较弱,版本较老
1.3 华为FusionInsight HD
管理页面：Manager
操作页面：Hue
主要特点：
SmallFS 小文件处理
Oozie 任务编排

2 分布式文件系统

2.1 HDFS
扩展性：只能横向扩展
高持久性：S3比HDFS更耐用
保留：当停止EC2和EMR实例时数据不会保留
2.2 S3
扩展性：能根据存储自动扩展
高持久性：11个9
保留：数据始终存在

3 Hadoop 生态圈

计算引擎：
map/reduce
JobTracker分配任务
TaskTracker监控任务
hdfs
NameNode
SecondaryNameNode
DateNode
特点：等待上一环节全部处理完才向下
流计算：storm
机器学习：Mahout

4 Spark 生态圈

计算引擎：
Spark
Application->Driver->Work node->Executor->Task
多个Task组成一个Stage,每个Job会被拆分成多组Task称为Stage
DAGScheduler:根据job构建基于Stage的DAG,并提交Stage给TaskScheduler(根据RDD分配)
TaskScheduler:将TaskSet提交给Work,Executor任务来源于此
特点：向前拉取数据、有向无环,基于内存比Hadoop快100倍
流计算：Spark Streaming
机器学习：Spark Mlib

5 数据存储访问

5.1 HBase
特点：
主要适用于海量明细数据随机实时查询,如日志明细、交易清单、轨迹行为等
定位：列式存储数据库,适用于稀疏性数据,非结构化数据存储
支持二级索引
类似Bigtable
主键设计策略避免热点：
加盐-随机数
哈希
反转
加时间戳
结构：
HMaster
HRegionServer
HRegion 按RowKey划分
Store 对应列簇
MemStore
StoreFile
HFile
HLog
5.2 Phoneix
特点：
phoenix查询引擎会将SQL查询转换为一个或多个HBASE scan
开源的sql on hbase,它就是为Hbase而生,支持事务,高并发、低延时、简单查询、方便的二级索引,支持JDBC等优点
5.3 Kudu
特点：
定位：与HBASE类似的列式存储分布式数据库,是一个既支持随机读写、又支持OLAP分析的大数据存储引擎
master主要负责管理元数据信息,tserver主要负责table的存储与数据的增删改查
5.4 CarbonData
特点：
场景：希望一份存储同时满足快速扫描,多维分析,明细数据查询的场景
是一种新型的Apache Hadoop本地文件格式,使用先进的列式存储、索引、压缩和编码技术以提高计算效率
支持一张表内混合格式：CSV,TXT,JSON,Parquet,ORC,CarbonFile,DB实时数据同步,Flink流入库,支持Spark Extenoin,
支持非结构化数据,对接TensorFlow,Pytorch深度神经网络模型训练
结构：
carbonData file->blocket->Data Chunks
5.5 Hive
引擎：
map reduce
Tez
特点：
适用于离线的批量数据计算,通过元数据来描述HDFS上的结构化文本数据,支持HSQL、UDF
定位：数据仓库,有元数据,分内外表
适用查询分析、清洗、处理,不支持索引、修改数据
支持文本、RCFile、Hbase、ORC等多种文件格式或存储类型
表结构：
分区：指定列列值相同的分到一个区,缩小数据查询范围,提高查询速度和性能
分桶：列值取哈希将不同的数据放到不同的文件中
5.6 Impala
引擎：
查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或HBASE中用select、join和统计函数查询数据
特点：
定位：一种新型的MPP查询引擎,加快数据访问,数据存储在HDFS、HBASE或者Kudu
类似分布式数据库Greenplum,分解查询,暴力scan,由Impalad、State Store和CLI组成
支持Parquet、Avro、Text、RCFile、SequenceFile等多种格式,支持存储在HDFS、HBASE、Amazon S3的数据操作
资源不能通过Yarn统一资源管理调度,所以Hadoop集群无法实现Imapla\Spark\Hive等组件动态资源共享
5.7 presto
特点：
presto是一个分布式查询引擎,完全基于内存并行计算,类impala,使用Catalog\Schema和Table这3层结构管理数据
presto可以通过Connector接入多种数据源,灵活性高,包括Hive、RDBMS(Mysql\Oracle\Tidb等)、Kafka、MongoDB、Redis等
5.8 Spark SQL
引擎：有向无环图,以Schema RDD为核心
特点：
满足低并发、高延迟、复杂计算场景,支持流、OLAP、离线分析、数据清洗、支持多源(Hbase\MongoDB\Redis\OSS等)
支持parquet/Avro/Text/JSON/ORC等多种文件格式,支持存储在HDFS、HBASE、Amazon S3上的数据操作。
5.9 Waterdrop
特点：
是一个非常易用、高性能、支持实时流式和离线批处理的海量数据处理产品,架构于Apache spark和Apache flink之上
支持海量数据ETL、聚合、多源数据处理,灵活配置,无需开发,支持从TiDB、Kafka、HDFS、Kudu中读取数据进行各种各样的数据处理
并将结果从TiDB、Clickhouse、Elasticsearch、Kafka
5.10 mongDB
特点：
是一个面向文档存储的数据库,旨在为web应用提供可扩展的高性能数据存储解决方案,利用内存计算的优势
NOSQL 最终一致性而非ACID属性,满足CAP定理,BASE,支持丰富的查询表达式、索引,热点数据放入内存,其它数据存在磁盘
5.11 汇总
整体性能：
CarbonData>Impala>spark SQL>presto>hive(Tez)
物理内存够用时：redis>mongDB>mysql
行式存储VS列式存储：
行式：
优：数据被保存在一起,insert和update容易
缺：几列查询时所有数据也都被读取,效率低
列式：
优：查询时只有被涉及到的才会被读取,查询速度快,适合高并发场景
缺：数据需重新组装,不适合表关联

6 实时流处理

6.1 Storm Hadoop生态圈
storm的容错机制需要对每条data进行ack,因此容错开销对throughputs影响巨大
几十ms级latency,容错性差
6.2 Spark Streaming
spark是micro-batch级别的计算,各种优化做的很好,它的throughputs是最大的
延时latency是秒级,容错性好
6.3 Flink
容错机制较为轻量,对throughputs影响较小
百ms级latency
一个面向流处理框架,基于事件,输入在flink中是无界的
6.4 Kafka
作为消息队列,在企业中主要用于存储数据,配合流计算

7 搜索引擎(Lucence)

7.1 Elasticsearch
仅支持json文件格式,适合处理分析查询,监控和指标
适用于新兴实时搜索应用
自身带有分布式协调管理功能Xen
7.2 Solr Cloud
solr 支持更多格式数据,提供分布式搜索和索引复制
单纯的对已有的数据进行搜索时,solr更快,不适用实时,数据量越大越慢
利用Zookeeper进行分布式管理

8 文件格式

8.1 textfile snappy
8.2 orcfile
先按行水平分割,再按列垂直分割,针对不同的列采用特定的编码格式
适合Hive-on-Tez
8.3 parquet
数据打平和重建算法,实现按列存储(列组)
适合Impala和Spark SQL
8.4 RCFile
先水平切Row,再垂直切Column
适合presto
8.5 Avro
基于行,主要目标是为了满足schema evolution
8.6 汇总压缩性能对比
orcfile>parquet>RCFile>text>Avro

9 压缩编码方式

9.1 snappy 有效平衡压缩率和解压缩速度
9.2 Gzip 最高压缩率的归档数据压缩
9.3 Deflate 不支持文本文件
9.4 Bzip LZO 只支持文本文件

10 数据导入

10.1 sqoop 支持批量从结构化数据存储导入数据到HDFS

11 消息队列

11.1 ActiveMQ 吞吐量：万级,时效：ms,架构：主从,适合小公司
11.2 RabbitMQ 吞吐量：万级,时效：us,架构：主从,小公司优先
11.2 RocketMQ 吞吐量：十万级,时效：ms,架构：分布式,适合大公司
11.2 kafka 吞吐量：十万级,时效：ms,架构：分布式,适合大公司

12 日志收集

12.1 Flume
适用于移动大规模流数据到HDFS
可靠性、扩展性最佳
12.2 Scribe
结构：Scribe agent,Scribe和存储系统
容错负载均衡稍弱
12.3 Chukwa
结构：adaptor,agent,collector
hadoop集群日志分析

13 数据分析

13.1 SAS 把数据存储、管理、分析和展现有机融为一体
13.2 SPSS 数据定量分析工具,简单
13.3 Kylin 为超大规模数据集提供亚秒级标准SQL查询
13.4 Pig 常用于检索和分析数据量较大的数据集,适合实时

14 数据可视化

14.1 EChart
主要采用canvas画图
Canvas通过JavaScript来绘制2D图形
依赖分辨率,不支持事件处理器,能够以jpg,png格式保存结果图像
14.2 D3.js
主要采用svg画图
可自由创建图表,比较底层
14.3 Highchart
主要采用canvas画图,svg是一种使用XML描述2D图形语言
不依赖分辨率,支持事件处理器

15 调度框架

15.1 Yarn
主要为Hadoop jobs管理资源
通过进程隔离,失败任务重新获取资源
15.2 Mesos
为各个框架(hadoop,spark,web services)提供dynamical partitioning
采用Linux Container容器对多计算框架共享资源进行隔离
slave失败任务转移,个框架自身容错

码字不易，转载请说明~~

Original: https://blog.csdn.net/pxiongw/article/details/117593286
Author: 沧海明月
Title: 大数据知识图谱笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/568902/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

opencv canny+findcontours 检测边缘

检测的步骤相信大家很熟悉了，我今天在这里是要说一个大坑。首先，常见的步骤如下： edge = cv2.Canny(img, low, high) contours, hier = …

人工智能 2023年7月18日
0054
为什么会出现梯度爆炸和梯度消失现象？怎么缓解这种现象的发生？

前言：梯度消失现象在深度神经网络训练过程中表现得尤为突出，随着网络层数的加深，损失在反向传播时梯度在不断减小，导致浅层网络的学习进行不下去，参数得不到有效更新。为什么会出现这种现象…

人工智能 2023年7月13日
0058
AAMAS 2021 强化学习论文70篇（自整理）

一、非应用类（33篇） 1.Learning Correlated Communication Topology in Multi-Agent Reinforcement lear…

人工智能 2023年6月26日
0051
Opencv根据USB摄像头PIDVID号，获取对应摄像头索引

1.引言电脑插多个USB摄像头时，当插拔或者开机之后，Opencv对应的摄像头索引会发生改变，导致Opencv打开摄像头会开错，比如笔记本自带一个摄像头，插上一个USB摄像头时，…

人工智能 2023年5月26日
0071
【OpenCV】人脸识别

目录一：前言二：人脸识别案例实现步骤及完整代码步骤1 灰度化处理步骤2 将灰度图再次进行行列压缩步骤3 直方图均值化步骤4 使用模型对每一个像素点遍历图像甄别 …

人工智能 2023年7月19日
0053
pytorch保存图片 save_image ，读取图片

保存图片主要使用save_image，定义如下： torchvision.utils.save_image(tensor, filename, nrow=8, padding=2,…

人工智能 2023年7月21日
00179
基于Python实现图像分类

资源下载地址：https://download.csdn.net/download/sheziqiong/85752075资源下载地址：https://download.csdn….

人工智能 2023年6月15日
0056
cv2导入失败原因及安装opencv后仍报错的解决方式

前言对于python而言，在引用opencv库的时候需要写为import cv2。其中，cv2是opencv的C++命名空间名称，使用它来表示调用的是C++开发的opencv的接…

人工智能 2023年6月18日
00112
YOLOv7中的数据集处理【代码分析】

本文章主要是针对yolov7中数据集处理部分代码进行解析(和yolov5是一样的)，也是可以更好的理解训练中送入的数据集到底是什么样子的。数据集的处理离不开两个类，一个是Data…

人工智能 2023年7月21日
0041
juc继承图片

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月29日
0043
用于分类的神经网络算法,神经网络算法三大类型

常见的数据挖掘方法有哪些数据挖掘的常用方法有：神经网络方法神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题，因此近年来越…

人工智能 2023年7月13日
0055
第三讲 GMM以及EM算法学习笔记

目录 1.潜变量模型的学习 2.K-Means聚类模型 3.GMM模型和参数的估计 ** 4.EM算法** 5.总结 6.作业代码 1.潜变量模型的学习 [TencentCloud…

人工智能 2023年6月3日
0067
深入浅出Transformer原理与实现

文章目录来与去 * 早期序列学习任务的痛点 Transformer的发展注意力机制 * 早期的注意力机制注意力机制的统一形式注意力机制的实现 multi-head atte…

人工智能 2023年5月30日
0087
逻辑回归（Logistic Regression）

入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。目录一、逻辑回归简介与用途二、逻辑回归的理论推导 1、问题描述和转化 …

人工智能 2023年7月18日
0059
使用 C# / Unity 进行图像处理

起因：有个需求要批量按比例调整UI页面大小。并不是简单的缩放，是所有素材都需要按比例缩小。于是，图片首当其冲。这里记录一下解决方案，因为参考了挺多别人的事例，虽然都描述的都差不多，…

人工智能 2023年6月17日
0070
python 气泡图聚类_R可视化 | 气泡图

气泡图气泡图是一种多变量图表，是散点图的变体，也可以认为是散点图和百分比区域图的组合[1]。气泡图最基本的用法是使用三个值来确定每个数据序列，和散点图一样。气泡图通过气泡的位置及…

人工智能 2023年6月3日
0074

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

大数据知识图谱笔记

1 集成平台