• 内页banner
  • ui1
  • 内页3
最新动态您当前所在位置: 首页 > 最新动态

大数据——河南、郑州‘我’来啦!

更新时间:2015-12-07 16:55:07点击次数:765次字号:T|T

2015.12.05日,郑州丰泽教育邀请到北京知名企业到丰泽教育给大家讲解大数据。


什么是大数据?

大数据是指一般的软件工具难以捕捉、管理和分析的大容量数据,一般以“太字节”为单位,大数据之“大”,并不仅仅在于“容量之大”,更大的意义在于:通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。

大数据将为信息产业带来新的增长点。面对爆发式增长的海量数据,基于传统架构的信息系统已难以应对,同时传统商业智能系统和数据分析软件,面对以视频、图片、文字等非结构化数据为主的大数据时,也缺少有效的分析工具和方法。信息系统普遍面临升级换代的迫切需求,为信息产业带来新的、更为广阔的增长点。以大数据开发为主,其主要课程包含有:Hadoop和Spare等。

hadoop是什么?

hadoop是一个平台,是一个适合大数据的分布式存储和计算的平台。是一个用于运行应用程序在大型集群的廉价硬件设备上的框架。Hadoop为应用程序透明的提供了一组稳定/可靠的接口和数据运动。然而Hadoop的优缺点在哪里呢?且看专家分析:

hadoop的优点一:低成本

hadoop本身是运行在普通PC服务器组成的集群中进行大数据的分发及处理工作的,这些服务器集群是可以支持数千个节点的。

hadoop优点二:高效性

这也是hadoop的核心竞争优势所在,接受到客户的数据请求后,hadoop可以在数据所在的集群节点上并发处理。

hadoop优点三:可靠性

通过分布式存储,hadoop可以自动存储多份副本,当数据处理请求失败后,会自动重新部署计算任务。

hadoop优点四:扩展性

hadoop的分布式存储和分布式计算是在集群节点完成的,这也决定了hadoop可以扩展至更多的集群节点。

此外,Hadoop还提供一个分布式文件系统用来在各个计算节点上存储数据,并提供了对数据读写的高吞吐率。

什么是Spark?

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。其架构如下图所示:

Spark与Hadoop的结合

Spark可以直接对HDFS进行数据的读写,同样支持Spark on YARN。Spark可以与MapReduce运行于同集群中,共享存储资源与计算,数据仓库Shark实现上借用Hive,几乎与Hive完全兼容。

Spark的适用场景

Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小(大数据库架构中这是是否考虑使用Spark的重要因素)。而Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。

总的来说Spark的适用面比较广泛且比较通用。

大数据的发展和前景

物联网的发展使需要处理的数据迅猛增加,从而影响未来的数据中心架构;物联网还将改变数据中心的管理,而这一改变的速度要快于前者。

随着数据分析集的扩大,以前部门层级的数据集市将不能满足大数据分析的需求,它们将成为企业级数据库(EDW)的一个子集。根据TDWI的调查,如今大概有2/3的用户已经在使用企业级数据仓库,未来这一占比将会更高。

一方面,数据集市和操作性数据存储(ODS)的数量会减少,另一方面,传统的数据库厂商会提升它们产品的数据容量,细目数据和数据类型,以满足大数据分析的需要。

因此,企业内的数据分析将从部门级过渡到企业级,从面向部门需求转向面向企业需求,从而也必将获得比部门视角更大的益处。再有,随着政府和行业数据的开放,更多的外部数据将进入企业级数据仓库,使得数据仓库规模更大,数据的价值也越大。当人们从大数据分析中尝到甜头以后,数据分析集就会逐步扩大。

综上所述,未来大数据将会遵循消费化模式,核心基础设施将作为服务或应用程序来提供。数据分析和数据可视化将会在原始数据基础上作为一套标准的服务,并允许用户创建自己的数据模型。

想要了解更多?就到郑州丰泽教育了解详情和小编一起学习吧!