主机参考:VPS测评参考推荐/专注分享VPS服务器优惠信息!若您是商家可以在本站进行投稿,查看详情!此外我们还提供软文收录、PayPal代付、广告赞助等服务,查看详情! |
我们发布的部分优惠活动文章可能存在时效性,购买时建议在本站搜索商家名称可查看相关文章充分了解该商家!若非中文页面可使用Edge浏览器同步翻译!PayPal代付/收录合作 |
在数据仓库、数据平台、数据中间站、数据湖的相关概念中,都与数据有关,但它们之间的区别是什么?本文介绍了它们的概念、架构和使用场景。来看看。吧
我们经常听到别人谈论数据仓库、数据平台、数据中间平台、数据湖的相关概念。都和数据有关,但两者有什么区别?下面,我们将介绍数据仓库、数据平台、数据湖和数据中间平台。的概念、架构和使用场景
1.数据仓库1。数据仓库概念数据仓库是由比尔·恩门(数据仓库之父)于1990年提出的,其主要功能是通过数据仓库理论,对企业系统中长期阻碍联机事务处理(OLTP)的大量数据进行系统的分析和整理。
随着企业的发展,业务系统的数据不断增加。这些数据存储在企业业务数据库(即关系数据库Oracle、微软SQL Sever、MySQL等)中。)会随着时间的推移越积越多,对业务数据库造成一定的负载,导致业务系统运行效率低下,而这些数据很大一部分是冷数据。而我们的业务系统一般会频繁调用我们的近期数据,也就是热点数据。
同时,随着企业数据驱动业务概念的兴起,企业需要提取各个业务部门的业务数据进行数据分析和挖掘,辅助高层进行分析和决策。但是各部门所需的数据类型千差万别,接口复杂。过多的数据查询脚本和接口访问降低了业务数据库的稳定性。。
为了避免冷数据和历史数据的积压影响我们业务数据库的效率,企业需要定期从业务数据库中调出冷数据,存储在专门存储历史数据的仓库中。各部门可以根据自己的业务特点对外提供统一的数据服务,这个仓库就是数据仓库。
2.数据仓库的特点:面向主题、集成、稳定、反映历史数据变化的。。
面向主题:数据仓库用于分析特色主题领域,所以说数据仓库是。面向主题的。例如,电子商务行业的主题领域通常分为交易领域、会员领域和商品领域等。。集成:数据仓库集成了多个数据源,与同一主题或产品相关的数据可能来自不同的系统和不同类型的数据库。日志文件等。稳定:数据一旦进入数据仓库,那么不可变的。数据仓库的历史数据应该不会被更新,存储稳定性强,体现了历史数据的变化:数据仓库存储的是长期的历史数据,与OLTP数据库相比是。,因为性能的考虑,后者将近期的热点数据作为一个整体。3存储。OLTP和OLAP P1)OLTP和OLAP概念。
数据处理大致可以分为两类:在线事务处理OLTP(ON-线事务处理)和在线分析处理OLAP(ON-线分析处理)。
OLTP是传统关系数据库的主要应用,主要处理基本和日常事务。比如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重于决策支持,提供直观易懂的查询结果。
2)OLTP和OLAP的区别
OLTP系统强调数据库内存效率、内存各种索引的命令率、绑定变量、并发操作等。。OLAP系统强调数据分析、SQL执行市场、磁盘I/O、分区等。。
3)OLAP与数据仓库的连接
OLAP和数据仓库之间的关系是依赖和互补的。一般是基于数据仓库,从数据仓库中提取详细数据的子集,存储在OLAP存储中,供数据分析工具读取。
4.数据仓库的作用数据仓库聚合来自不同来源的结构化数据,以便在商业智能领域进行比较和分析。数据仓库是一个包含各种数据的存储库,它是一个高度模型化的。
如下图所示,通过ETL将各系统的元数据同步到业务数据仓库ODS,对ODS数据进行面向主题的建模,形成DW(数据仓库)。DM是针对某个业务领域的模型,特定用户(决策层)可以查看DM生成的报表。。
什么是ETL?(提取-转换-加载提取-转换-加载)
传统的数据仓库集成处理架构是ETL。利用ETL平台的能力,E=从源数据库中提取数据,L=清洗和转换数据(不符合规则的数据)(根据业务需求计算和统计不同维度、粒度和业务规则的表),T=将处理后的表增量、全量、分时段加载到数据仓库。中。
什么是ELT?(提取-加载-转换提取-加载-转换)
大数据背景下的架构体系是ELT架构,根据上层对建模分析。的应用需求,随时从数据中心提取想要的原始数据
ELT利用数据库的处理能力,E=从源数据库提取数据,L=将数据加载到目标数据库的临时表中,T=将临时表中的数据转换后加载到目标数据库的目标表中。
ELT优于ETL的优势:
资源利用率的提高:ELT主要是通过数据库引擎实现系统的可扩展性(尤其是数据处理过程在晚上的时候,可以充分利用数据库引擎的资源)。。任务运行效率的提升:ELT可以将所有数据一直保存在数据库中,避免了数据加载和导出,从而保证了效率。提高系统的可监控性。并行处理优化:ELT可以根据数据的分布优化并行处理,可以优化磁盘I/O。可伸缩性增强:ELT的可伸缩性依赖于数据库引擎及其硬件服务器的可伸缩性。性能优化:通过优化相关数据库的性能,一般来说,提高ETL过程的效率3到4倍并不是特别困难。。数据仓库系统的作用可以实现跨业务线、跨系统的数据集成,为管理分析和经营决策提供统一的数据支持。。数据仓库可以从根本上帮助你将公司的运营数据转化为可以获取的高价值信息(或知识),并在合适的时间将合适的信息以合适的方式传递给合适的人。。下图是一个例子:
数据仓库的作用主要体现在企业决策、分析、计划和响应的以下几个方面:
数据仓库在实时数据处理和非结构化数据处理方面较弱,对其在预警、预测等业务中的应用有一定的限制。。
II。数据平台1。数据平台概念在大数据时代,数据平台一般被称为大数据平台。
狭义的数据平台是解决数据仓库无法处理非结构化数据,报表开发周期长的问题。所以,首先抛开业务需求,把企业的所有数据提取出来,放在一起成为一个大的数据集,包括结构化数据,非结构化数据等。。当业务方需要时,可以单独提取几个小数据集,以数据集的形式提供给数据应用。。
广义大数据平台:广义大数据平台通常被赋予更多的使命,是主要处理海量数据存储、计算和不间断流数据实时计算、离线计算、智能推荐、交互查询、数据湖构建等的一套基础设施。。通常包括基于Hadoop的大数据平台。提供易于部署和管理的Hive、Spark、HBase、Flink、StarRocks、Iceberg和Alluxio。
狭义的数据平台与传统的数据平台(数据仓库)功能相同,区别只是技术架构和数据容量。
广义上的大数据平台是数据湖的基础,为泛Hadoop生态系统和其他易于部署和管理的存储和计算引擎提供PaaS平台,帮助企业构建企业级数据湖技术架构。
提示:本文对比的是窄数据平台,这里不做过多的窄数据平台。的概述
三。数据中心1。数据中心的概念1。数据中心1的由来:2015年年中,马云带领阿里巴巴集团高管参观了员工不足200人的芬兰小游戏公司Supercell。,该公司居然创造了高达15亿美元的年税前利润!Supercell之所以能够支持众多团队快速灵活地推出高质量的游戏作品,其强大的中平台能力是。不可或缺的
因此,在参观Supercell后,马云决定对阿里巴巴的组织和体系架构进行整体调整,以阿里的产品技术和数据能力建立强大的中台,构建大中小前台。的组织和业务体系
数据中心的主要目的是解决统计口径不一致、重复开发、对指标开发需求响应慢、数据质量低、数据成本高等问题。在企业发展过程中,由于数据激增和业务扩展。通过一系列数据工具(元数据中心、数据索引中心、数据仓库模型中心、数据资产中心-资产质量/治理/安全、数据服务中心等。),规范数据供应链。的各个环节
2.数据中心的特点:以标准、安全、可靠、统一、共享、解耦和面向服务的方式支持前端数据的应用。
3.数据中心功能(阿里数据中心逻辑架构图)
(表2数据中的产品能力图)
数据中心通过对企业内外多源异构数据的收集、构建、管理、分析和应用,通过优化内部数据管理提升商业价值,通过与外部数据的协同释放商业价值,使其成为企业的数据资产管理中心。数据中心建立后,将形成数据API服务,为企业和客户提供高效的数据服务。
数据中心在企业的数字化转型和可持续发展中发挥着至关重要的作用。。数据中心为解耦而生。在企业中建设数据中心最大的意义就是实现应用与数据的解耦,让企业可以不受限制的建设符合业务需求的数据应用。
构建了开放、灵活、可扩展的企业级统一数据管理和分析平台,按需链接企业内外部数据,打破数据的系统边界。
通过运用大数据智能分析、数据可视化等技术,实现数据共享、日报表自动生成、快速智能分析,满足各级企业的数据分析应用需求。
深挖数据价值,帮助企业实现数字化转型,。实现数据目录、模型、标准、识别、安全、可视化、共享等管理,实现数据的集中存储、处理、分类和管理,建立大数据分析工具库和算法服务库,实现报表生成自动化、数据分析敏捷化、数据挖掘可视化,实现数据质量评估和落地管理流程。
四。数据湖1。数据湖概念数据湖的起源:数据湖的起源要追溯到2010年10月,由Pentaho的创始人兼CTO詹姆斯·迪克森(James Dixon)提出。按照当时的历史背景来看,他提出的目的其实是为了推广自己的产品Pentaho。。当时要解决的核心问题是传统数据仓库报表分析面临的两个问题:
仅使用一些属性,这些数据只能回答-前确定的问题。。数据聚合,最底层细节丢失,能回答的问题受限于。。但是,我们目前讨论的数据湖已经远远超过了詹姆斯·狄克逊当初定义的数据湖,厂商之间对数据湖的定义也更加不同。。
1)AWS
数据湖是一个集中式存储库,允许您存储任何规模的所有结构化和非结构化数据。您可以按-原样存储您的数据,而不必首先结构化数据,并运行不同类型的分析-从仪表盘和可视化到大数据处理、实时分析和机器学习,以指导更好的决策。
Data Lake是一个集中式存储库,允许您存储任何规模的所有结构化和非结构化数据。。您可以按原样存储数据(无需首先构建数据),并运行不同类型的分析——从控制面板和可视化到大数据处理、实时分析和机器学习,以指导更好的决策。。
2)微软
Azure Data Lake包括所有必要的功能,使开发人员、数据科学家和分析师能够轻松存储任何大小、形状和速度的数据,并跨平台和语言进行所有类型的处理和分析。它消除了接收和存储所有数据的复杂性,同时加快了批量、流式和交互式分析的启动和运行。
Azure的数据湖包括所有使开发者、数据科学家和分析师更容易存储和处理数据的功能。这些功能使用户能够存储任何大小、任何类型和任何生成速度的数据,并可以跨平台和语言进行所有类型的分析和处理。。数据湖可以帮助用户加快数据的应用速度,消除数据采集和存储的复杂性,还支持批处理、流计算、交互分析等。。
3)阿里云
数据湖是一个统一的存储池,可以连接各种数据输入方式。您可以存储任何规模的结构化、半结构化和非结构化数据。。数据湖可以与各种计算和分析平台无缝连接。根据不同的业务场景,可以选择相应的计算引擎对数据湖中存储的数据进行处理和分析,从而打破孤岛,挖掘。的商业价值
2.数据湖内容数据湖包括结构化数据(行和列)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如电子邮件、文档、PDF等)。)和来自关系数据库的二进制数据(如图像、音频、视频)。。
3.数据湖的特点统一数据存储,原始数据存储。支持任意结构的数据存储,包括结构化、半结构化和非结构化。支持多种计算和分析,适用于多种应用场景。支持任意规模的数据存储和计算能力。目标是更好更快地发现数据价值。4。数据湖可以解决的问题1)数据湖的总体结构。
底层是分布式文件系统;
第二层是数据加速层。数据湖架构,是存储和计算完全分离的架构。如果所有的数据访问都是远程读取文件系统上的数据,那么性能和成本都非常高。。如果能在计算节点本地缓存一些频繁访问的热数据,自然会实现冷热分离。一方面可以获得良好的本地读取性能,另一方面可以节省。的远程访问带宽
第三层是表格式层,主要是将一批数据文件封装成具有业务意义的表,提供了ACID、snapshot、schema、partition等表级语义。。
顶层是不同计算场景的计算引擎。。开源的一般有Spark,Flink,Hive,Presto,Hive MR等。这些计算引擎可以同时访问同一个数据湖的表。
2)数据湖能解决什么样的问题?
数据分散,存储分散,形成数据孤岛,无法组合数据发现更多价值。
在这方面,其实数据湖要解决的问题和数据仓库类似,只是因为其定义支持半结构化和非结构化数据。的管理,而传统的数据仓库只能解决结构化数据。的统一管理,所以有所不同
在这个万物互联的时代,数据的来源多种多样。随着应用场景的不同,输出的数据格式也越来越丰富。不能再局限于结构化数据。如何统一存储这些数据是亟待解决的问题。
3)存储成本
或者数据库和数据仓库的存储受实现原理和硬件条件的限制,导致存储海量数据的成本很高。为了解决这类问题,HDFS/对象存储是技术解决方案。。如果在数据湖场景中使用这种存储成本低的技术架构,将会为企业大大节省成本。。结合生命周期管理的能力,可以更好的对湖中的数据进行分层(冷热存储在不同的存储介质:HDD、SSD、MEM),不用了。
4)SQL无法满足的分析需求。
越来越多种类的数据意味着越来越多的分析方法。传统的SQL方法已经不能满足分析的需要。如何通过各种语言定制贴近自己业务的代码以及如何通过机器学习。挖掘更多的数据价值
5)存储/计算可扩展性不足
在海量数据下,比如规模到PB级,传统数据库因为技术架构的原因无法满足扩展需求或者扩展成本极高。这种情况下,通过数据湖架构下的扩展技术能力,实现成本为0,硬件成本可控。。商业模式不确定,不可能提前建模。。
传统的数据库和数据仓库都是schema -on-写模型,所以需要提前定义schema-on-read 。。在数据湖场景中,可以先保存数据,然后分析后发现Schema-on-Read。。
动词 (verb的缩写)对比1。数据仓库VS数据中心VS数据湖2。数据仓库VS数据平台由于数据仓库的历史特点,其中存储的数据大部分是结构化数据,数据平台的出现解决了数据仓库无法处理非结构化数据、报表开发周期长等问题。因此,数据仓库和数据平台(狭义)是分开比较的。
本质:技术架构和数据容量差异。
通过上面的讨论,我们发现数据平台和数据湖似乎有很多相似之处。两者的区别应该是从数据处理的角度。数据湖更注重原始数据的存储,而数据平台和数据仓库一样,需要对原始数据进行清洗和转换,然后按照统一的标准规范进行存储。
不及物动词总结根据以上对数据平台、数据仓库、数据湖、数据中间站等概念的讨论和比较,我们做如下总结:
数据中心、数据仓库、数据湖之间没有直接关系;数据平台、数据平台、数据仓库、数据湖在某个维度上为业务产生价值的形式各有侧重;数据仓库是数据驱动业务的逻辑概念,用于支持管理决策分析。为企业提供服务的主要方式是报表。数据平台是一个企业级的逻辑概念,体现了将企业数据转化为商业价值的能力。为业务提供服务的主要方式是数据API。数据湖是一个企业级的技术逻辑概念,体现了企业级数据湖架构加速数据转化为商业价值的能力。为商业提供服务的主要方式是原始数据。数据台和数据湖更贴近业务,可以更快地响应业务和应用开发需求,从而为业务提供更快的服务;数据平台可以建立在数据仓库和数据平台之上,数据平台是加速从数据到商业价值过程的中间层。本文由@ Z先生原创,大家都是产品经理。。未经许可禁止转载。
标题来自Unsplash,基于CC0协议。
此观点仅代表作者本人,大家都是产品经理。该平台仅提供信息存储空间服务。
版权声明:本文所有内容均由第三方贡献,版权归原作者所有。本网站不拥有其版权,也不承担本文所有内容引起的任何版权归属问题或纠纷。如有侵权,请联系info@zhujicankao。com,而本网在核实确实侵权后,有权删除第。条。
以上是我们本期分享的详细内容。本站部分内容来自网络,希望对你有帮助。请关注zhujicankao.com。
这几篇文章你可能也喜欢:
- 暂无相关推荐文章
本文由主机参考刊发,转载请注明:一、了解数据仓库、数据平台、数据中心、数据湖(数据中心是数据湖的实现)的概念和区别。 https://zhujicankao.com/87857.html
评论前必须登录!
注册