数仓主题域和数据域、雪花模型,星型模型和星座模型

2023-09-14 15:07:28

一、主题域和数据域的差别

明确数据域作为数仓搭建的重要一环,能够让数仓的数据便于管理和应用。
数据域和主题域都是数据仓库中的重要概念,但含义略有不同,常常作为面试官的面试考点。

数据域
指的是特定的业务领域或是业务过程,如销售、采购、人力资源管理、财务等。在数据仓库中。每个数据域都对应一个或多个源系统(ODS层表数据),数据仓库从这些源系统中提取数据,经过清洗、转换和集成处理后,将数据存储在数据仓库中。数据域是数据仓库中的一个高层次概念,用于组织和管理数据仓库中的数据。
在这里插入图片描述
主题域
指的是特定的主题或领域,其中包含相关的概念、术语、知识和实践。在数据仓库中,每个主题域都包含一个或者多个维度表和一个或多个事实表,用于存储与该主题相关的数据。主题域通常是与业务相关的,例如销售分析、客户关系管理、供应链管理。主题域是数仓中的一个更细粒度的概念,用于描述和分析特定的业务领域或主题。
在这里插入图片描述
数据域和主题域之间存在一定的层次关系。数仓中的每个数据域都包含了一个或者多个主题域,每个主题域都包含了与其相关的维度和事实表,以及其他数据对象和元数据,用于支持数据分析和决策。

举个栗子:
下面是物理数仓所需的所有业务过程及数据域划分详情。
在这里插入图片描述
上图中的交易域由多个交易相关的业务过程事务型事实表组成,通常可以根据业务过程或者部门进行划分,如根据业务过程进行划分,需要注意的是一个业务过程只能属于一个数据域。

主题域是从业务视角自上而下分析,从整体业务环节中升华出来大的专项分析模块,结合对接的业务范围和行业形态从更高的视角去洞察整个业务流程。因此,主题域是由多个数据域组成的,这些数据域提供了主题域所需的数据。
例如:物流主题域需要统计历史至今的运单统计
在这里插入图片描述
完成该指标的统计需要使用到交易域和物流域数据。

再举个栗子:
数据域是萝卜,青菜,肉等原材料
主题大域是菜系,东北菜,粤菜,湘菜;子主题域是菜品,鱼香肉丝,东北烩菜
这些菜品都需要使用到萝卜,青菜,肉这些原材料,但却不属于同一个菜系。
在这里插入图片描述

总之,数据域是对数据的分类,而主题域和业务域是对业务的分类。主题域和数据域最终都是对数据的分类,只是一个是数据视角,一个是业务视角。

数据域是指将数据按照不同的维度进行划分,如时间、地区、产品等。而主题域则是指将业务对象高度概括的概念层次归类,目的是便于数据的管理和应用。

二、雪花模型,星座模型和星型模型

在构建数仓维度模型时,通常为数据分析提供便捷而进行反规范化的表结构设计。因此诞生出许多不同的维度模型。

星型模型
数据仓库中常见的一种模型,它是一种基于事实的模型,主要用于描述企业各个维度之间的关系。在星型模型中,事实表通过主键与维度表连接,形成一颗星星的形状。
在这里插入图片描述
星型模型只有一张事实表,通过主键外键关联的方式连接多张维度表,并且这些维度表之间不再存在关联关系。

星型模型的维度表只有一个层级,导致这些维度表存储了一定程度的数据冗余,比如一张包含国家、省份、城市三列的维度表,国家列会存在很多重复的数据。

星型模型的优点是简单易懂,易于理解和使用;缺点是扩展性较差,当业务需求发生变化时,可能需要对模型进行调整和扩展。

在这里插入图片描述
雪花模型
当一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化, 原有的各维表可能被扩展为小的事实表,形成一些局部的" 层次"区域,这些被分解的表都连接到主维表而不是事实表。
在这里插入图片描述

其优点是通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能,避兔了数据冗余。
其缺点是增加了主键-外键关联的几率,导致查询效率低于星型模型,且不利于开发。

在这里插入图片描述
星座模型
星座模型是星型模型的扩展,它允许在星型模型中存在多个事实表,不同事实表之间共享维表信息,常用于数据关系更复杂的场景。
在这里插入图片描述
星座模型的缺点是增加了主键-外键关联的几率,导致查询效率低于星型模型,并且不利于开发 。

通过上面的对比分析,可以发现数据仓库更适合使用星型模型来构建底层数据hive表,通过数据冗余来减少查询次数以提高查询效率。雪花模型在关系型数据库中(MySQL/Oracle) 更加常见。在具体规划设计时,应结合具体场及两者的优缺点来进行设计,找到一个平衡点去开展工作。

更多推荐

WebGIS开发教程:切片地图服务和动态地图服务的区别以及加载方式

arcgis发布切片地图服务arcgis发布动态地图服务切⽚地图服务和动态地图服务是两种常⻅的Web地图服务类型,它们有以下⼏点区别:1.数据格式:切⽚地图服务是⼀种基于瓦⽚(Tile)数据的地图服务,地图数据被预先切成⼩块并存储在服务器上,⽤户在使⽤时只需加载需要的瓦⽚数据即可;⽽动态地图服务则是⼀种基于⽮量(Vec

面试(架构,网络)

java八股treemap和linkdedhashmap区别,实现原理https://blog.csdn.net/shidebin/article/details/126814905架构https://www.cnblogs.com/crazymakercircle/p/17197091.htmlhttps://www

免费和开源的机器翻译软件LibreTranslate

什么是LibreTranslate?LibreTranslate免费开源机器翻译API,完全自托管。与其他API不同,它不依赖于Google或Azure等专有提供商来执行翻译。它的翻译引擎由开源ArgosTranslate库提供支持。这个软件在2022年3月的时候折腾过,但当时容器会停止,从下面的文章看,应该可能是内存

常用与业务密切相关的prompt

可以在Bard、Bing、Claude2、ChatGPT和Llama2上使用定义您的业务目的和愿景。提示:“我正在[插入行业]创业。我的重点是定义与我的受众产生共鸣的明确目标和愿景。你能指导我制定有意义的愿景声明吗?”研究和分析您的目标市场。提示:“我想了解[插入行业]的目标市场。对他们的需求和行为的详细洞察将塑造我的

《确保安全:PostgreSQL安全配置与最佳实践》

🌷🍁博主猫头虎(🐅🐾)带您GotoNewWorld✨🍁🐅🐾猫头虎建议程序员必备技术栈一览表📖:🛠️全栈技术FullStack:📚MERN/MEAN/MEVNStack|🌐Jamstack|🌍GraphQL|🔁RESTfulAPI|⚡WebSockets|🔄CI/CD|🌐Git&Versio

Linux进程【1】进程概念(超详解哦)

进程概念引言(操作系统如何管理)基本概念描述与组织进程查看进程进程pid与ppidgetpid与getppid总结引言(操作系统如何管理)在冯诺依曼体系结构中,计算机由输入设备、输出设备、运算器、控制器和存储器组成。我们使用计算机的时候,实际就是数据在这些硬件中传递的过程。硬件的行为由驱动控制,驱动又由更上层的操作系统

jvm深入研究文档--jvm分区以及职责

Java虚拟机(JVM)主要包括以下几个区域:方法区(MethodArea):这个区域存储已被加载的类信息,常量,静态变量,即时编译器编译后的代码等数据。方法区是所有线程共享的。在Java8之前,方法区是永久代(PermGen),从Java8开始,永久代被元空间(Metaspace)替代。堆区(Heap):这是Java

K8S:Pod概念、分类及相关的策略

文章目录一.pod相关概念1.Pod基础概念2.Kubrenetes集群中Pod两种使用方式3.pause容器的Pod中的所有容器共享的资源4.kubernetes中的pause容器主要为每个容器提供功能:5.Kubernetes设计这样的Pod概念和特殊组成结构有什么用意6.Pod分为两类:二.Pod容器的分类1.基

[k8s] 常见yml配置和详细解释

在Kubernetes(K8s)中,常见的YAML文件配置包括:文章目录PodDeploymentServiceClusterIPNodePortLoadBalancerIngressConfigMapSecretVolume访问模式StatefulSetDaemonSetJob容器的重启策略ConJobPodapiV

基于Java的高校科研信息管理系统设计与实现(亮点:完整严谨的科研项目审批流程、多文件上传、多角色)

高校科研信息管理系统一、前言二、我的优势2.1自己的网站2.2自己的小程序(小蔡coding)2.3有保障的售后2.4福利三、开发环境与技术3.1MySQL数据库3.2Vue前端技术3.3SpringBoot框架3.4微信小程序四、功能设计4.1主要功能描述五、系统实现5.1系统主要功能展示5.1.1三个角色展示5.1

详谈操作系统中的内核态和用户态

不知道大家有没有思考过这样一个问题:什么是处理器(CPU)的状态?🤔其实CPU和人一样,没有执行程序的时候,是没有什么状态的,当它执行的程序是用户程序的时候就叫用户态,当执行的程序是操作系统的代码时就叫系统态或者内核态.接下来,我们就来谈谈内核态和用户态.目录1.内核态和用户态的概念2.内核态和用户态的区别3.特权指

热文推荐