大数据技术发展到目前已经经历了几个阶段,在很多企业都已经形成了相对成熟稳定的架构,如何了解其发展中的概况。
方法/步骤
1
大数据系统的演化历程包括:解决数据规模问题,解决使用门槛问题,解决计算延迟问题,解决复杂场景问题。
2
大数据的整体架构可以按以下分层:数据源、数据采集Agent、数据存储、数据计算和数据应用。
3
数据源从内部来讲一般来自于企业的各个数据中心,外部一般从互联网获取,也可能与其他企业或机构通过交换传输。
4
数据的采集通常有批处理的传送,或者基于kafka等组件的实时接口,采集要确保准确高效。
5
数据的存储方式也包含多种,可以基于hadoop的分布式文件系统,或者基于hbase分布式数据库,也可以基于Kafka。
6
数据的计算包括离线分析(Hive、Spark、MR),即席查询/多维分析(Presto、SparkSQL、Kylin)和实时计算引擎(Flink、Spark Streaming)。
7
数据的应用层包括数据报表和离线计算,交互式查询以及BI分析,模型训练以及针对性的广告投放。
上一篇:ODS层怎样创建数据库
下一篇:乳腺癌自检方法