数据仓库和数据湖

数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据。事先定义数据结构和 Schema 以优化快速 SQL 查询,其中结果通常用于操作报告和分析。数据经过了清理、丰富和转换,因此可以充当用户可信任的”单一信息源”。

数据湖有所不同,因为它存储来自业务线应用程序的关系数据,以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时,未定义数据结构或 Schema。这意味着您可以存储所有数据,而不需要精心设计也无需知道将来您可能需要哪些问题的答案。您可以对数据使用不同类型的分析(如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习)来获得见解。

数据仓库[en]Data warehouse

数据湖[en]Data lake

从交易系统、运营数据库和业务线应用程序中清理结构化数据[en]Cleaned structured data from transaction systems, operational databases, and line-of-business applications

来自物联网设备、网站、移动应用、社交媒体和企业应用的原始数据[en]Raw data from IoT devices, websites, mobile applications, social media, and enterprise applications

设计是在数据仓库(书面模式)实现之前进行的。在存储数据之前定义架构。这需要您清理和标准化数据,这意味着体系结构的灵活性要低得多。[en]The design is before the implementation of the data warehouse (written Schema). Define the schema before storing the data. This requires you to clean up and normalize the data, which means that the architecture is much less flexible.

当您准备好使用数据时,给它一个定义(可读模式)。在存储数据之后定义架构。这需要较少的初始工作,并提供更大的灵活性[en]When you are ready to use the data, give it a definition (readable Schema). Define the schema after storing the data. This requires less initial work and provides more flexibility

性价比[en]Performance to price ratio

更快的查询结果将导致更高的存储成本[en]Faster query results will lead to higher storage costs

更快的查询结果只需要较低的存储成本[en]Faster query results only require lower storage costs

数据质量[en]Data quality

高度受监管的数据,可用作重要事实的基础[en]Highly regulated data that can be used as a basis for important facts

可以或不能监管的任何数据(如原始数据)[en]Any data that can or cannot be regulated (such as raw data)

业务分析师[en]Business analyst

数据科学家、数据开发人员和业务分析师(使用监管数据)[en]Data scientists, data developers, and business analysts (using regulatory data)

批处理报告、商业智能和可视化[en]Batch reports, BI, and visualization

机器学习、预测分析、数据发现和分析[en]Machine learning, predictive analysis, data discovery and analysis

高并发性[en]High concurrency

快速响应[en]Quick response

干净、安全的数据[en]Clean and secure data

多数据源集成[en]Multi-data source integration

转换一次,多次使用[en]Convert once, use it many times

数据存储:大容量、低成本[en]Data storage: large capacity and low cost

数据保真度:数据湖以原始格式保存数据[en]Data fidelity: the data lake saves data in the original format

数据使用:数据湖中的数据可以轻松使用。[en]Data usage: the data in the data lake can be easily used.

延迟绑定:数据湖提供了灵活的、面向任务的数据绑定,无需预先定义数据模型[en]Delayed binding: the data lake provides flexible, task-oriented data binding without the need to define the data model in advance

Original: https://www.cnblogs.com/linn/p/12058627.html
Author: 凌度
Title: 数据仓库和数据湖

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/5973/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

发表回复

登录后才能评论
免费咨询
免费咨询
扫码关注
扫码关注
联系站长

站长Johngo!

大数据和算法重度研究者!

持续产出大数据、算法、LeetCode干货,以及业界好资源!

2022012703491714

微信来撩,免费咨询:xiaozhu_tec

分享本页
返回顶部