大数据——河南、郑州‘我’来啦！

更新时间：2015-12-07 16:55:07点击次数：765次字号：T|T

2015.12.05日，郑州丰泽教育邀请到北京知名企业到丰泽教育给大家讲解大数据。

什么是大数据？

大数据是指一般的软件工具难以捕捉、管理和分析的大容量数据，一般以“太字节”为单位，大数据之“大”，并不仅仅在于“容量之大”，更大的意义在于：通过对海量数据的交换、整合和分析，发现新的知识，创造新的价值，带来“大知识”、“大科技”、“大利润”和“大发展”。

大数据将为信息产业带来新的增长点。面对爆发式增长的海量数据，基于传统架构的信息系统已难以应对，同时传统商业智能系统和数据分析软件，面对以视频、图片、文字等非结构化数据为主的大数据时，也缺少有效的分析工具和方法。信息系统普遍面临升级换代的迫切需求，为信息产业带来新的、更为广阔的增长点。以大数据开发为主，其主要课程包含有：Hadoop和Spare等。

hadoop是什么？

hadoop是一个平台，是一个适合大数据的分布式存储和计算的平台。是一个用于运行应用程序在大型集群的廉价硬件设备上的框架。Hadoop为应用程序透明的提供了一组稳定/可靠的接口和数据运动。然而Hadoop的优缺点在哪里呢？且看专家分析：

hadoop的优点一：低成本

hadoop本身是运行在普通PC服务器组成的集群中进行大数据的分发及处理工作的，这些服务器集群是可以支持数千个节点的。

hadoop优点二：高效性

这也是hadoop的核心竞争优势所在，接受到客户的数据请求后，hadoop可以在数据所在的集群节点上并发处理。

hadoop优点三：可靠性

通过分布式存储，hadoop可以自动存储多份副本，当数据处理请求失败后，会自动重新部署计算任务。

hadoop优点四：扩展性

hadoop的分布式存储和分布式计算是在集群节点完成的，这也决定了hadoop可以扩展至更多的集群节点。

此外，Hadoop还提供一个分布式文件系统用来在各个计算节点上存储数据，并提供了对数据读写的高吞吐率。

什么是Spark？

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。其架构如下图所示：

Spark与Hadoop的结合

Spark可以直接对HDFS进行数据的读写，同样支持Spark on YARN。Spark可以与MapReduce运行于同集群中，共享存储资源与计算，数据仓库Shark实现上借用Hive，几乎与Hive完全兼容。

Spark的适用场景

Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小（大数据库架构中这是是否考虑使用Spark的重要因素）。而Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。

总的来说Spark的适用面比较广泛且比较通用。

大数据的发展和前景

物联网的发展使需要处理的数据迅猛增加，从而影响未来的数据中心架构；物联网还将改变数据中心的管理，而这一改变的速度要快于前者。

随着数据分析集的扩大，以前部门层级的数据集市将不能满足大数据分析的需求，它们将成为企业级数据库（EDW）的一个子集。根据TDWI的调查，如今大概有2/3的用户已经在使用企业级数据仓库，未来这一占比将会更高。

一方面，数据集市和操作性数据存储（ODS）的数量会减少，另一方面，传统的数据库厂商会提升它们产品的数据容量，细目数据和数据类型，以满足大数据分析的需要。

因此，企业内的数据分析将从部门级过渡到企业级，从面向部门需求转向面向企业需求，从而也必将获得比部门视角更大的益处。再有，随着政府和行业数据的开放，更多的外部数据将进入企业级数据仓库，使得数据仓库规模更大，数据的价值也越大。当人们从大数据分析中尝到甜头以后，数据分析集就会逐步扩大。

综上所述，未来大数据将会遵循消费化模式，核心基础设施将作为服务或应用程序来提供。数据分析和数据可视化将会在原始数据基础上作为一套标准的服务，并允许用户创建自己的数据模型。

想要了解更多？就到郑州丰泽教育了解详情和小编一起学习吧！

上一篇：河南丰泽UI设计培训之雨雪天，丰泽好老师的关爱！
下一篇：圣诞最好的礼物，河南UI设计学子高薪就业！