大数据分析产品架构

大数据组件

大数据相关组件更新快,技术栈变化快。但最终都会落地到SQL。

alt

https://bigdata.djbook.top/

3种产品模式

1.各类数据处理由各类数据库完成。
数据传输通过hdfs或者对象存储,数据转换通过datax,清洗,加工任由数据库编写SQL完成。

2.深度绑定spark,flink
作为批处理和流处理的,计算引擎。数据交互通过spark组件,flink组件。

3.星环,WeDataSphere之类
在大数据层中间,加上一层,上层统一SQL开发,屏蔽底层细节。

优缺点

1.技术栈能力低,能满足大数据初级用户。产品不能形成门槛。

2.需要针对spark,flink深度绑定,开发人员昂贵,一荣俱荣模式。

3.产品门槛高,需要对大数据组件深度二次开发,引入中间层增加复杂度。