大数据导论

大数据时代最早提出来 大数据时代到来的是全球知名咨询公司”麦肯锡”,其称为:”数据,已经到当今每一个行业和业务职能领域,称其重要的生产因素,人们对于海量数据挖掘和运用,预示着新一波生产效率和消费者盈余浪潮的到来。”

大数据(big data)指无法再一定事件范围内用常规软件工具进行捕捉、管理、处理的数据集合,需要新的数据处理模式才能更具有强有力的决策力、洞察力、发现力。并且具备流程优化的海量、高增长率、多样化的信息资产。

数据概念

  • 事实或观察的结果
  • 对客观事物的逻辑归纳
  • 用于表示客观事物且未加工的原始素材

数据单位

1Byte = 8bit

1K(千)=1024Byte

1MB(兆)=1024K

1G(吉)=1024M

1T(太)=1024G

1P(拍)=1024T

1E(艾)=1024P

1Z(泽)=1024E

1Y(尧)=1024Z

1B(布)=1024Y

1N(诺)=1024B

1D(刀)=1024N

大数据特征(5V)

  • 数据体量大
  • 采集数据量大
  • 计算数据量大
  • TB、PB级别起步

  • 种类来源多样化

  • 种类:结构化、半结构化、非结构化
  • 来源:日志文本、图片、音频、视频

  • 低价值密度

  • 信息海量且价值密度低
  • 深度复杂的数据挖掘分析需要使用机器学习参与

  • 数据增长速度快

  • 获取数据速度快
  • 数据处理速度快

  • 数据准确性

  • 数据可信赖程度

应用场景

1、电商领域

精准广告位、个性化推荐、大数据杀熟

2、传媒领域

精准营销、猜你喜欢、交换推荐

3、金融领域

信用评估、风险控制、客户细分、精细化营销

4、交通领域

拥堵预测、智能红绿灯、导航最优规划

5、电信领域

基站选址优化、舆情监控、客户用户画像

6、安防领域

犯罪预防、天网监控

7、医疗领域

智慧医疗、疾病预防、病源追踪

分布式技术

科学技术的发展推动下应用和系统架构的变迁

  • 单机单一架构迈向多机分布式架构

面临问题

当数据大爆炸,海量数据处理场景面临问题:

1、如何存储

单机存储有瓶颈,使用多台机器分布式存储

2、如何计算

单机计算能力有限,使用多台机器分布式计算

分布式系统

分布式系统是一个硬件或软件组合分布再不同网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统,一群互相独立计算机器集合共同对外提供服务,对用户来说,就是一台计算机在提供服务。

1、分布式

多台机器,在每台机器上部署不同组件

1、集群

多台机器,在每台集群部署相同组件

共同点:多台机器

将负载(工作任务)进行平衡、分摊到多个操作单元上进行运算解决单个无法处理所有的任务,多个一起处理问题。

当活动的服务器或应用程序意外终止时,快速启用冗余或被你有的服务器、系统、硬件或者网络来接替它们的工作。故障转移系统称为: 容错系统,所谓容错指的时可以容忍错误的发生,故障转移的核心为 设置备份,出现故障情况时进行主备切换,切换的前提是数据保持一致性。

伸缩性也称为 弹性,可扩展性:指系统可以根据需求动态的扩容、伸缩

比如:双十一业务高峰期间,增加服务器,业务低峰期,减少服务器

归纳总结

  • 负载均衡:解决一个处理不下的问题时,可进行多个问题一起处理
  • 故障转移:解决单点故障,提高集群稳定性,减少容忍错误发生,业务联系
  • 伸缩性:动态扩容、伸缩

Original: https://blog.51cto.com/dsjprs/5379814
Author: dsjprs
Title: 大数据导论

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/517446/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球