多语言展示
当前在线:103今日阅读:91今日分享:37

大数据平台架构设计的5个关键点

大数据架构设计的关键首要是要满足业务需求,提炼业务需求的非功能特性,提出针对性的架构设计方案。作业自主研发能力有限的企业,在大数据系统建设中首要是合理的选择技术组件,如果科技力量更强可以考虑参与开源社区对组件的优化完善等工作中。
方法/步骤
1

针对结构化、半结构化和非结构化的数据进行大数据架构时,大数据平台最好存储与计算相关的数据,非结构化数据如果不能利用分布式计算能力就不建议在hadoop这类平台上存储,可以考虑其他的分布式存储方案。结构化和半结构化差别不多,考虑具体应用场景和数据使用模式来制定方案。

2

大数据架构根据不同的战略目标,使用不同的方式,小规模的使用,可以分散建设应用集群,灵活度高。没有发展自身技术团队打算的,可以找靠谱的集成商。有长远打算的,建议做平台的整体规划。通常超过TB级别可以考虑大数据技术或其他MPP,低于这个数量级RDB完全可以搞定。

3

在存放非结构化数据,如语音,视频时,大数据架构要结合该类数据的使用方式来判断。具备计算能力的存储其成本要更高,如果仅仅为了存储可以先考虑其他分布式存储方案如CEPH等。语音和视频涉及到语音识别和计算机视觉等技术领域,如语音识别文字等处理目前尚未了解到其是否能够基于Hadoop等并行处理框架实现,如果存在类似方案则可以考虑在Hadoop上集中存储。

4

最后,大数据依赖于数据的质量和数量,如果没有足够质量的较大数量的数据保证,使用大数据的战略目标也无法实现,故而在进行大数据架构时,必须要设计一个技术与管理相互结合的方法,要在企业范围内有统一的制度保证充分的执行,当然,目前阶段,大数据应用还处于一个离散化的状态,大量外部数据的引入,也对传统的基于封闭体系、强调源头管理的数据质量管理理论提出了挑战,降低噪音提取有价值的信息,会成为大数据应用的一个常态,不再是辅助流程,要在系统设计过程中予以考虑。最后,如何控制数据质量,还要平衡其成本和收益。

推荐信息