某集团大数据平台整体架构及实施方案

1—项目概述 14

1.1.1 集团已有基础 14

1.1.2 痛点及需提升的能力 14

1.1.3 大数据趋势 15

1.2.1 总体目标 15

1.2.2 分阶段建设目标 16

1.3.1 数据分析综合服务平台 16

1.3.2 量收系统 17

1.3.3 金融大数据平台 18

1.3.4 各生产系统 18

1.3.5 CRM 18

2—业务需求分析 24

2.2.1 数据采集 26

2.2.2 数据交换 26

2.2.3 数据存储与管理 26

2.2.4 数据加工清洗 27

2.2.5 数据查询计算 27

3—系统架构设计 31

3.3.1 中国联通大数据平台 32

3.3.2 恒丰银行大数据平台 39

3.3.3 华通CDN运营商海量日志采集分析系统 51

3.3.4 案例总结 56

3.4.1 总体技术框架 57

3.4.2 系统总体逻辑结构 60

3.4.3 平台组件关系 62

3.4.4 系统接口设计 67

3.4.5 系统网络结构 71

4—系统功能设计 73

4.2.1 多应用管理 73

4.2.2 多租户管理 77

4.2.3 统一运维监控 78

4.2.4 作业调度管理 97

4.3.1 数据管理框架 99

4.3.2 数据采集 101

4.3.3 数据交换 104

4.3.4 数据存储与管理 105

4.3.5 数据加工清洗 123

4.3.6 数据计算 124

4.3.7 数据查询 139

4.4.1 主数据管理 158

4.4.2 元数据管理技术 160

4.4.3 数据质量 163

4.6.1 数据分析流程 174

4.6.2 R语言开发环境与接口 175

4.6.3 并行化R算法支持 176

4.6.4 可视化R软件包 179

4.6.5 编程语言支持 181

4.6.6 自然语言处理和文本挖掘 181

4.6.7 实时分析 182

4.6.8 分析管理 182

4.6.9 分析支持 186

4.6.10 指标维护 186

4.6.11 分析流程固化 187

4.6.12 分析结果发布 187

4.6.13 环境支持 187

4.7.1 交互式报表 190

4.7.2 仪表盘 195

4.7.3 即席查询 196

4.7.4 内存分析 197

4.7.5 移动分析 198

4.7.6 电子地图支持 198

5—技术要求实现 200

5.1.1 基础构建平台 203

5.1.2 大数据平台组件功能介绍 204

5.1.3 系统分布式架构 242

5.2.1 系统操作支持以及环境配置 244

5.2.2 与第三方软件平台的兼容说明 245

5.3.1 客户端支持 246

5.3.2 移动端支持 246

5.6.1 运维目标 250

5.6.2 运维服务内容 251

5.6.3 运维服务流程 253

5.6.4 运维服务制度规范 255

5.6.5 应急服务响应措施 256

5.6.6 平台监控兼容 256

5.6.7 资源管理 257

5.6.8 系统升级 259

5.6.9 系统监控平台功能 260

5.7.1 集群切换 268

5.7.2 节点切换 270

5.7.3 性能调优 271

5.7.4 并行化高性能计算 276

5.7.5 计算性能线性扩展 279

5.9.1 单点故障消除 282

5.9.2 容灾备份优化 284

5.9.3 系统容错性 288

5.10.1 高度支持开源 293

5.10.2 操作系统支持以及软件环境配置 305

5.10.3 兼容性与集成能力 306

5.11.1 身份鉴别 308

5.11.2 访问控制 308

5.11.3 安全通讯 314

5.12.1 高速运算、统计分析和精确查询 314

5.12.2 有效的资源利用 316

5.12.3 高并发、低延迟性能优化 317

5.12.4 计算资源有效管控 318

5.12.5 API设计和开发工具支持 319

5.12.6 友好的运维监控界面 321

5.12.7 扩容、备份、恢复机制 325

5.12.8 集群自动负载均衡 327

5.12.9 计算能力扩展 327

5.13.1 高稳定、高效的计算引擎Inceptor 328

5.13.2 完整的SQL编译引擎 329

5.13.3 高性能的SQL分析引擎 329

5.13.4 SQL统计分析能力 330

5.13.5 完整的CURD功能 331

5.13.6 Hyperbase高效的检索能力 332

5.13.7 基于Hyperbase和SQL引擎的高并发分布式事务334

5.13.8 Hyperbase非结构化数据的支持 335

5.13.9 机器学习与数据挖掘 335

5.13.10 Transwarp Stream 339

5.13.11 内存/SSD/磁盘混合存储 341

5.13.12 MR/Spark/流处理统一平台 343

5.13.13 多租户支持能力 344

5.13.14 多租户安全功能 345

5.13.15 标准JDBC与ODBC接口 345

6—系统性能指标和测试结果说明 347

6.1.1 测试目标 347

6.1.2 测试内容 347

6.1.3 测试环境 347

6.1.4 测试过程和结果 349

6.2.1 测试目标 352

6.2.2 测试内容 352

6.2.3 测试环境 354

6.2.4 测试过程和结果 355

6.3.1 测试目标 356

6.3.2 测试内容 356

6.3.3 测试环境 357

6.3.4 串行执行情况 357

6.3.5 并行执行情况 359

6.3.6 生产表数据规模 360

6.3.7 测试结果 362

6.4.1 测试目标 362

6.4.2 测试内容 362

6.4.3 测试环境 362

6.4.4 测试过程和结果 363

7—系统配置方案 375

7.1.1 基础Hadoop平台集群配置规划 375

7.1.2 数据仓库集群配置规划 377

7.1.3 集群规模综述 379

7.1.4 开发集群配置建议 380

7.1.5 测试集群配置建议 380

8—系统测试 385

9—项目实施 389

10—项目管理 403

10.1.1 项目实施总流程 403

10.1.2 项目实施中各阶段的主要任务 403

10.1.3 项目组织架构 407

10.1.4 项目负责人及主要成员 412

10.1.5 项目管理制度 479

10.2.1 范围 483

10.2.2 过程目标 483

10.2.3 角色与职责 483

10.2.4 过程活动 485

11—安全保密 498

12—知识产权 500

13—技术服务 501

13.2.1 提供预防性维护 502

13.2.2 系统升级服务 503

13.2.3 系统性能优化 503

13.2.4 提供系统完整文档 503

13.2.5 定期系统健康检查服务 504

13.2.6 应急预案 505

13.3.1 我方对集团的承诺 505

13.3.2 关于开发队伍的承诺 505

13.4.1 方案实用性保证 506

13.4.2 应用系统的运行能力的保证 506

13.4.3 预防性维护检修内容 506

13.4.4 服务响应 507

13.4.5 关于软件维护的保证 507

13.4.6 专业服务保证 508

13.4.7 售后服务流程及时限 508

14—人员培训 509

14.5.1 培训目标 518

14.5.2 培训方式 519

14.5.3 培训资源 519

扫一扫文章底部二维码,领取完整文档资料

备注:博客

Original: https://blog.csdn.net/dajiangtai007/article/details/123532777
Author: 大数据研习社
Title: 某集团大数据平台整体架构及实施方案

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/599624/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 中文NER

    1、NER任务简介与业务场景 任务简介: 任务是信息抽取领域内的一个子任务,其任务目标是给定一段非结构文本后,从句子中寻找、识别和分类相关实体,例如人名、地名和机构名称。业务场景:…

    人工智能 2023年5月28日
    0108
  • python基于情感词典的情感分析

    今天给大家分享的是通过情感词典来对文本进行情感分析最后计算出情感得分 通过情感得分来判断正负调性 主要步骤: 数据准备 本次情感词典采用的是BosonNLP的情感词典,来源于社交媒…

    人工智能 2023年5月28日
    0121
  • Caltech Pedestrian数据集

    前言: 由于作者最近在做行人目标检测这方面的研究,需要用到Caltech Pedestrian数据集,但该数据集存在的一些问题使我不得不对其进行一些适配性的处理。趁着炼丹的功夫来记…

    人工智能 2023年7月15日
    088
  • GB28181语音对讲/摄像头公网对讲指挥

    命令流程描述如下 : a) 1:SIP 服务器向语音流接收者发送语音广播通知消息 , 消息中通过 To 头域标明作为目的地址 的语音流接收者ID,消息采用 Message方法携带。…

    人工智能 2023年5月25日
    086
  • mmdetection – 初识hook的使用

    Hook 是什么?在 wiki 百科中定义如下: 钩子编程(hooking),也称作"挂钩",是计算机程序设计术语,指通过拦截软件模块间的函数调用、消息传递、事…

    人工智能 2023年7月12日
    0162
  • 增量学习简介(incremental learning)

    文章目录 * – + 前言 + 基于正则化的增量学习 + 基于回放的增量学习 + GAN 前言 个人认为增量学习的定义的边界并不明显,其与其他概念例如:持续学习(Con…

    人工智能 2023年6月23日
    079
  • TF-IDF与TfidfVectorizer

    1 TF Term Frequency :衡量一个单词在 一个文档中出现的频率,即==该单词在一个文档中出现的次数/该文档中总共的单词数。 2 IDFInverse Documen…

    人工智能 2023年5月27日
    082
  • yolov5 代码内容解析

    目录 一、工程目录及所需的配置文件解析 二、训练代码详解 加载模型 优化器 数据生成器 参数及类别权重 warmup和前向传播 损失函数计算 准确性和召回率计算 Yolov5 目标…

    人工智能 2023年6月13日
    081
  • 【skLearn 分类、回归算法】DecisionTreeRegressor 回归树

    文章目录 DecisionTreeRegressor 回归树 * ① 重要参数、属性及接口 ② 交叉验证 – ♦ 简单使用 ③ 实例:正弦一维回归的图像绘制 &#821…

    人工智能 2023年6月18日
    097
  • DataLoader的使用1

    dataset Torchvision provides many built-in datasets in the torchvision.datasets module, as…

    人工智能 2023年6月27日
    075
  • YOLOV7训练自己的yolo数据集

    YOLOv7源码:https://github.com/WongKinYiu/yolov7 文章目录 一、配置YOLOv7环境 二、使用自己的数据集训练 * 修改yolov7配置 …

    人工智能 2023年7月21日
    059
  • K-means聚类算法介绍

    上次给大家介绍了分类和聚类的区别和聚类的进一步介绍,大家看懂了吗?今天给想给大家进一步地介绍K-means聚类算法。 下面的段落内容从3开始算起,1的内容来自分类和聚类的区别,2的…

    人工智能 2023年6月20日
    070
  • 【Pytorch】BatchNorm2d()函数和Dropout层的位置和使用

    【Pytorch】BatchNorm2d函数和Dropout层 BatchNorm2d()函数 * 作用 位置和使用 Dropout层 * 作用 位置 使用 其他 * with t…

    人工智能 2023年7月13日
    097
  • Prompt-Tuning——深度解读一种新的微调范式

    Prompt-Tuning——深度解读一种全新的微调范式 作者:王嘉宁 邮箱:lygwjn@126.com转载请注明出处:https://wjn1996.blog.csdn.net…

    人工智能 2023年5月27日
    094
  • 如何在STM32上部署卷积神经网络(纯C语言搭建)

    0、前言 本文是什么 假如你已经使用PyTorch或者TensorFlow训练了一个卷积神经网络,得到了各层参数,却希望用 C语言把这个部署到 STM32等单片机上,那么就可以看看…

    人工智能 2023年7月21日
    068
  • 系统(层次)聚类法及Spss实现

    目录 一.定义 二.思想 三.举例 四.系统聚类法的Spss实现 五.结语 一.定义 系统聚类法(hierarchjcal cluster method)一译”分层聚类…

    人工智能 2023年5月31日
    093
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球