大数据时代
最早提出来 大数据
时代到来的是全球知名咨询公司”麦肯锡”,其称为:”数据,已经到当今每一个行业和业务职能领域,称其重要的生产因素,人们对于海量数据挖掘和运用,预示着新一波生产效率和消费者盈余浪潮的到来。”
大数据(big data)
指无法再一定事件范围内用常规软件工具进行捕捉、管理、处理的数据集合,需要新的数据处理模式才能更具有强有力的决策力、洞察力、发现力。并且具备流程优化的海量、高增长率、多样化的信息资产。
数据概念
- 事实或观察的结果
- 对客观事物的逻辑归纳
- 用于表示客观事物且未加工的原始素材
数据单位
1Byte = 8bit
1K(千)=1024Byte
1MB(兆)=1024K
1G(吉)=1024M
1T(太)=1024G
1P(拍)=1024T
1E(艾)=1024P
1Z(泽)=1024E
1Y(尧)=1024Z
1B(布)=1024Y
1N(诺)=1024B
1D(刀)=1024N
大数据特征(5V)
- 数据体量大
- 采集数据量大
- 计算数据量大
-
TB、PB级别起步
-
种类来源多样化
- 种类:结构化、半结构化、非结构化
-
来源:日志文本、图片、音频、视频
-
低价值密度
- 信息海量且价值密度低
-
深度复杂的数据挖掘分析需要使用机器学习参与
-
数据增长速度快
- 获取数据速度快
-
数据处理速度快
-
数据准确性
- 数据可信赖程度
应用场景
1、电商领域
精准广告位、个性化推荐、大数据杀熟
2、传媒领域
精准营销、猜你喜欢、交换推荐
3、金融领域
信用评估、风险控制、客户细分、精细化营销
4、交通领域
拥堵预测、智能红绿灯、导航最优规划
5、电信领域
基站选址优化、舆情监控、客户用户画像
6、安防领域
犯罪预防、天网监控
7、医疗领域
智慧医疗、疾病预防、病源追踪
分布式技术
科学技术的发展推动下应用和系统架构的变迁
- 单机单一架构迈向多机分布式架构
面临问题
当数据大爆炸,海量数据处理场景面临问题:
1、如何存储
单机存储有瓶颈,使用多台机器分布式存储
2、如何计算
单机计算能力有限,使用多台机器分布式计算
分布式系统
分布式系统
是一个硬件或软件组合分布再不同网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统,一群互相独立计算机器集合共同对外提供服务,对用户来说,就是一台计算机在提供服务。
1、分布式
多台机器,在每台机器上部署不同组件
1、集群
多台机器,在每台集群部署相同组件
共同点:多台机器
将负载(工作任务)进行平衡、分摊到多个操作单元上进行运算解决单个无法处理所有的任务,多个一起处理问题。
当活动的服务器或应用程序意外终止时,快速启用冗余或被你有的服务器、系统、硬件或者网络来接替它们的工作。故障转移系统称为: 容错系统
,所谓容错指的时可以容忍错误的发生,故障转移的核心为 设置备份
,出现故障情况时进行主备切换,切换的前提是数据保持一致性。
伸缩性也称为 弹性
,可扩展性:指系统可以根据需求动态的扩容、伸缩
比如:双十一业务高峰期间,增加服务器,业务低峰期,减少服务器
归纳总结
- 负载均衡:解决一个处理不下的问题时,可进行多个问题一起处理
- 故障转移:解决单点故障,提高集群稳定性,减少容忍错误发生,业务联系
- 伸缩性:动态扩容、伸缩
Original: https://blog.51cto.com/dsjprs/5379814
Author: dsjprs
Title: 大数据导论
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/517446/
转载文章受原作者版权保护。转载请注明原作者出处!