数据挖掘学习报告一

1.观看学习了学堂在线《数据科学导论》

1.1了解了一些数据科学发展史:

中国已将大数据发展确定为国家战略。

1.2认识了一些基本概念:

(1)”数据”指的是以有组织(以行列结构存储)和无组织(通常指文本、原始音频/信号、图片等)格式聚集在一起的信息。

(2)机器学习中常用到概率模型统计模型。

(3)探索式数据分析(EDA):清洗和规整数据,并快速获得洞察。将无组织数据转换为有(4)组织数据,同时填充缺失值,修复错误数据点。

(5)数据挖掘:发现数据间的关系。

(6)大数据:体量巨大以至于单机难以处理。

1.3复习了数据科学相关的数学知识和统计学知识

微积分、线性代数、概率论等相关知识。

1.4重点学习了数据科学流程及数据科学技术

1.4.1数据科学流程

包括数据生产、数据处理、探索式数据分析(EDA)、数据分析与洞见、结果展现(最常用数据可视化方法)、提供数据产品等。

数据科学流程如下图所示:

数据挖掘学习报告一

其中数据分析的类型有描述型分析、诊断型分析、预测型分析、规范性分析。结果展现最常用的方法是数据可视化方法。

1.4.2数据科学技术

包含数据获取技术、数据存储技术、数据预处理技术、数据分析技术、数据可视化技术。

体系框架如下图所示:

数据挖掘学习报告一

1.4.2.1数据获取技术

  1. 数据生产阶段及相应获取方式如下表所示:

阶段

时期

数据来源

数据特征

获取方式

阶段1

20世纪90年代,单机时代

企业数据库系统、企业信息管理系统

结构化数据集

数据抽取Sqoop

阶段2

2000年前后,Web1.0时代

搜索引擎、门户网站、电子博客、电子商务

半结构化和无结构的数据

网络爬虫技术

阶段3

2010年前后,Web2.0时代

智能手机、平板、移动APP、物联网

结构化、半结构化、无结构化数据

日志抓取技术、消息队列Flume等

2.三种数据获取技术:

(1)Web爬虫技术:

有Snoopy、ForeSpider和八爪鱼三种网页采集的主流工具。

(2)日志抓取技术:

目前使用最广泛的、用于系统日志采集的海量数据采集工具有:Apache Flume、Hadoop Chukwa、Facebook Scribe、Linkedln Kafka

(3)Kafka数据采集技术:

数据挖掘学习报告一

1.4.2.2数据存储技术

  1. 关系型数据存储技术

用到关系数据库。

2.大数据存储技术

包括键值存储数据库、列式存储数据库、文档存储数据库、图形存储数据库。

1.4.2.3数据预处理技术

包括数据清洗、数据集成和数据变换。

1.4.2.4数据分析技术

  1. 离线分析框架(批量处理框架)

MapReduce模式、DAG模式

2.实时分析框架(流式处理框架)

Storm模式、Spark Streaming模式

1.4.2.4数据可视化技术

  1. 十二种数据可视化技术

包括散点图技术、直方图技术、线图技术、柱状图和饼图技术、树状结构图技术、圆锥树技术、Tree Map技术、信息立方体技术、飞行任务轨道三维可视化技术、社交网络可视化技术、数据流可视化技术、地图信息可视化技术。

2.三种数据可视化工具

包括D3.js、Matplotlib、Prefuse。

2.了解You-get的简单使用:

(1)”-o”(小写o)后边空一格,接要存放的路径;

(2)”-O”(大写O)后边空一格,接要替换原视频名字的名称;

(3)”-i”后边空一格,在下载之前也可以先查询可下载格式 ;、

数据挖掘学习报告一

(4)下载想要的清晰度(比如dash-flv480格式),输入you-get –format=dash-flv480 ,接要存放的路径即可。

数据挖掘学习报告一

以下为下载好的视频,一般默认存储在当前用户下。

数据挖掘学习报告一

Original: https://blog.csdn.net/m0_59326496/article/details/122653940
Author: Miracle00000
Title: 数据挖掘学习报告一

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/699278/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球