Spark学习(1)Spark入门

什么事spark

Spark是一种快速、通用、可扩展的大数据计算引擎.项目是用Scala进行编写,基于内存计算的
包括交互式查询和流处理

spark内置项目

Spark SQL:是 Spark 用来操作结构化数据的程序包。
Spark Streaming:是 Spark 提供的对实时数据进行流式计算的组件。
Spark MLlib:提供常见的机器学习(ML)功能的程序库。
GraphX:提供一个分布式图计算框架,能高效进行图计算。
集群管理器:Spark设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计 算。

spark常用术语

Application           Spark的应用程序,包含一个Driver program和若干Executor
 SparkContext       Spark应用程序的入口,负责调度各个运算资源,协调各个Worker Node上的Executor
 Driver Program    运行Application的main()函数并且创建SparkContext
 Executor    是为Application运行在Worker node上的一个进程,该进程负责运行Task,并且负责将数据存在内存或者磁盘上。
每个Application都会申请各自的Executor来处理任务
 ClusterManager    在集群上管理各种资源的外部服务(例如:Standalone、Mesos、Yarn)
 Worker Node    集群中任何可以运行Application代码的节点,运行一个或多个Executor进程,每个节点可以起一个或多个Executor
 Task    运行在Executor上的工作单元,每个Executor由若干core组成,每个Executor的每个core一次只能执行一个Task,每个Task执行的结果就是生成了目标RDD的一个partiton
 Job    SparkContext提交的具体Action操作,常和Action对应
 Stage    每个Job会被拆分很多组task,每组任务被称为Stage,也称TaskSet
 RDD    是Resilient distributed datasets的简称,中文为弹性分布式数据集;是Spark最核心的模块和类
 DAGScheduler    根据Job构建基于Stage的DAG,并提交Stage给TaskScheduler
 TaskScheduler    将Taskset提交给Worker node集群运行并返回结果
 Transformations    是Spark API的一种类型,Transformation返回值还是一个RDD, 所有的Transformation采用的都是懒策略,
如果只是将Transformation提交是不会执行计算的
 Action    是Spark API的一种类型,Action返回值不是一个RDD,而是一个scala集合;计算只有在Action被提交的时候计算才 被触发。

Original: https://www.cnblogs.com/cheng9999/p/11881471.html
Author: cheng_blog
Title: Spark学习(1)Spark入门

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/711802/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • shell内置命令和外部命令的区别

    shell内置命令和外部命令的区别 内部命令实际上是shell程序的一部分,其中包含的是一些比较简单的linux系统命令,这些命令由shell程序识别并在shell程序内部完成运行…

    技术杂谈 2023年7月24日
    070
  • C++编译器选择是否自动生成代码的背后逻辑

    编译器会为class和struct(实际上两者在C++中是一回事)自动生成构造函数、赋值操作符函数和析构函数。如果不是这样,那么开发者就必须自己写一些枯燥冗余的代码。然而编译器并不…

    技术杂谈 2023年7月24日
    074
  • do-release-upgrade升级笔记

    db_dump备份数据库 apt指令卸载旧的postgresql服务 apt安装新的 端口如果变成5433,可以去配置里面改一下 bash里面用下面指令建用户名 bash里面用这个…

    技术杂谈 2023年5月30日
    094
  • 消息队列面试题要点(转)

    复习要点 本文主要围绕如下几点进行阐述: 为什么使用消息队列? 使用消息队列有什么缺点? 消息队列如何选型? 如何保证消息队列是高可用的? 如何保证消息不被重复消费? 如何保证消费…

    技术杂谈 2023年5月31日
    086
  • 【Golang】golang实现发送微信服务号模板消息

    下面是一些简化后的代码,供大家参考 引入的包是这些 使用了内存存储access_token 路由部分 控制器部分 函数部分 我的公众号相关配置存储到了数据库里,根据ent_id去查…

    技术杂谈 2023年6月1日
    073
  • 【7】2022年9-10月

    9月23日-10月28日 从7月份以来右手臂频繁酸痛无力,一开始没重视以为是软组织的损伤导致的,所以只贴敷膏药进行缓解,9月以来,右手臂肿痛明显,开始出现变形,我意识到可能不是软组…

    技术杂谈 2023年7月10日
    069
  • 蒋鸿翔:网易数据基础平台建设

    导读: 首先简单介绍一下网易杭州研究院情况简介,如下图所示: 我们公司主要从事平台技术开发和建设方面,工作的重点方向主要在解决用户在数据治理中的各种问题,让用户能更高效地管理自己的…

    技术杂谈 2023年7月25日
    0106
  • salt-master命令详解

    salt-master命令 命令行官网学习网站:http://docs.saltstack.cn/ref/cli/index.html saltsalt-callsalt-cpsa…

    技术杂谈 2023年5月31日
    0107
  • Base64编码出现换行符

    Base64是一种字符串编码格式,Base64采用A-Z a-z 0-9 “+” “/”这一共64个字符来编码原始字符(还有垫字符&…

    技术杂谈 2023年5月31日
    079
  • S3上传时报错:Data read has a different length than the expected

    报错信息 使用S3上传文件时,发现存在几类报错。 第一种:Data read has a different length than the expected: dataLengt…

    技术杂谈 2023年7月25日
    061
  • 计算机视觉有关期刊56个(进入计算机前200)

    大致划分,计算机视觉可投期刊 1、TPAMI——IEEE Transactions on Pattern Analysis and Machine Intelligence(IEE…

    技术杂谈 2023年7月11日
    075
  • 自动升级系统的设计与实现(续2) — 增加断点续传功能 (附最新源码)

    一.缘起 之前已经写了两篇关于自动升级系统OAUS的设计与实现的文章( 第一篇、 第二篇),在为OAUS服务端增加自动检测文件变更的功能(这样每次部署版本升级时,可以节省很多时间,…

    技术杂谈 2023年6月1日
    094
  • 自定义TREEVIEWUL无限极嵌套

    背景:做一个多级图片分类管理,当然要用到TreeView,在asp.net中已经提供了此服务器控件,参照效果,自定义一个简单可控性高的就当做练手吧! 效果:如图,小图标 折叠 展开…

    技术杂谈 2023年7月23日
    091
  • ADSL理解

    ADSL技术能够充分利用现有PSTN (Public Switched Telephone Network ,公共交换电话网),只须在线路两端加装ADSL设备即可为用户提供高宽带服…

    技术杂谈 2023年5月30日
    0113
  • 基于UML软件建模的高校新闻管理系统

    前言 近年来,伴随着我国国内的网络技术快速发展。高校校园网络建设逐渐迅速发展起来,逐步演变为高校的一个宣传窗口。建立自己的高校新闻发布管理系统已经成为了一种趋势。传统的校园新闻往往…

    技术杂谈 2023年6月21日
    091
  • 2-3树/红黑树

    2-3树 为了维护2-3树绝对平衡的性质,插入结点时就要符合一下逻辑: 添加结点不能添加到空位置,除非此时整个树为空。 如果按照二分搜索树的方式插入元素,如果插入位置为空,此时和最…

    技术杂谈 2023年7月24日
    099
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球