1.观看学习了学堂在线《数据科学导论》
1.1了解了一些数据科学发展史:
中国已将大数据发展确定为国家战略。
1.2认识了一些基本概念:
(1)”数据”指的是以有组织(以行列结构存储)和无组织(通常指文本、原始音频/信号、图片等)格式聚集在一起的信息。
(2)机器学习中常用到概率模型统计模型。
(3)探索式数据分析(EDA):清洗和规整数据,并快速获得洞察。将无组织数据转换为有(4)组织数据,同时填充缺失值,修复错误数据点。
(5)数据挖掘:发现数据间的关系。
(6)大数据:体量巨大以至于单机难以处理。
1.3复习了数据科学相关的数学知识和统计学知识
微积分、线性代数、概率论等相关知识。
1.4重点学习了数据科学流程及数据科学技术
1.4.1数据科学流程
包括数据生产、数据处理、探索式数据分析(EDA)、数据分析与洞见、结果展现(最常用数据可视化方法)、提供数据产品等。
数据科学流程如下图所示:
其中数据分析的类型有描述型分析、诊断型分析、预测型分析、规范性分析。结果展现最常用的方法是数据可视化方法。
1.4.2数据科学技术
包含数据获取技术、数据存储技术、数据预处理技术、数据分析技术、数据可视化技术。
体系框架如下图所示:
1.4.2.1数据获取技术
- 数据生产阶段及相应获取方式如下表所示:
阶段
时期
数据来源
数据特征
获取方式
阶段1
20世纪90年代,单机时代
企业数据库系统、企业信息管理系统
结构化数据集
数据抽取Sqoop
阶段2
2000年前后,Web1.0时代
搜索引擎、门户网站、电子博客、电子商务
半结构化和无结构的数据
网络爬虫技术
阶段3
2010年前后,Web2.0时代
智能手机、平板、移动APP、物联网
结构化、半结构化、无结构化数据
日志抓取技术、消息队列Flume等
2.三种数据获取技术:
(1)Web爬虫技术:
有Snoopy、ForeSpider和八爪鱼三种网页采集的主流工具。
(2)日志抓取技术:
目前使用最广泛的、用于系统日志采集的海量数据采集工具有:Apache Flume、Hadoop Chukwa、Facebook Scribe、Linkedln Kafka
(3)Kafka数据采集技术:
1.4.2.2数据存储技术
- 关系型数据存储技术
用到关系数据库。
2.大数据存储技术
包括键值存储数据库、列式存储数据库、文档存储数据库、图形存储数据库。
1.4.2.3数据预处理技术
包括数据清洗、数据集成和数据变换。
1.4.2.4数据分析技术
- 离线分析框架(批量处理框架)
MapReduce模式、DAG模式
2.实时分析框架(流式处理框架)
Storm模式、Spark Streaming模式
1.4.2.4数据可视化技术
- 十二种数据可视化技术
包括散点图技术、直方图技术、线图技术、柱状图和饼图技术、树状结构图技术、圆锥树技术、Tree Map技术、信息立方体技术、飞行任务轨道三维可视化技术、社交网络可视化技术、数据流可视化技术、地图信息可视化技术。
2.三种数据可视化工具
包括D3.js、Matplotlib、Prefuse。
2.了解You-get的简单使用:
(1)”-o”(小写o)后边空一格,接要存放的路径;
(2)”-O”(大写O)后边空一格,接要替换原视频名字的名称;
(3)”-i”后边空一格,在下载之前也可以先查询可下载格式 ;、
(4)下载想要的清晰度(比如dash-flv480格式),输入you-get –format=dash-flv480 ,接要存放的路径即可。
以下为下载好的视频,一般默认存储在当前用户下。
Original: https://blog.csdn.net/m0_59326496/article/details/122653940
Author: Miracle00000
Title: 数据挖掘学习报告一
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/699278/
转载文章受原作者版权保护。转载请注明原作者出处!