传统的事务处理数据库环境和数据仓库环境的另一个重要的区别在于,数据仓库环境中有很多的数据,比一般的操作型环境中要多得多,以万亿或千万亿计,而一个通用的DBMS通常管理下的传统事务处理数据库中的数据要少得多。
绝大数公司建立数仓之初是没有考虑好数据治理怎么做的,因为数据部门刚开始成立,必然要有一些“数据驱动”的成果,而数据治理不能很好的体现这些业绩。所以,都是在业务发展的过程中,逐渐遇到了一些数据问题,才考虑做这件事的。
对于数据仓库项目而言,更需要的是一套策略,一套组合拳,不仅仅需要技术卓越、业务理解,还需要需求方、业务方在整体架构和流程上的配合。
高质量的计算环境(包括服务器、操作系统、存储和数据库)对于任何使用大量数据的应用程序的成功都是至关重要的。
自我接触数仓以来,数仓建模就是最为核心的工作,而数仓建模的主要目的是建立公共层,公共层主要起到两个作用,第一个是屏蔽底层的变动对上层应用的影响,第二个作用是通过复用沉淀的公共层来提升应用支撑的效率,但在长期的数仓公共层运营实践中中,我发现公共层的表现不总是沿着我们设想的轨迹演进。
当前,数据仓库被分为离线数仓和实时数仓,离线数仓一般是传统的T+1型数据ETL方案,而实时数仓一般是分钟级甚至是秒级ETL方案。并且,离线数仓和实时数仓的底层架构也不一样,离线数仓一般采用传统大数据架构模式搭建,而实时数仓则采用Lambda、Kappa等架构搭建。
当人们听到“数据挖掘”这个词时,“数据仓库”这个词怎么样?找出数据挖掘和数据仓库之间的确切区别。
自我接触数仓以来,数仓建模就是最为核心的工作,而数仓建模的主要目的是建立公共层,公共层主要起到两个作用,第一个是屏蔽底层的变动对上层应用的影响,第二个作用是通过复用沉淀的公共层来提升应用支撑的效率,但在长期的数仓公共层运营实践中中,我发现公共层的表现不总是沿着我们设想的轨迹演进。