【摘要】:虽然Hadoop 平台和MapReduce 编程能够有效解决大数据数据存储和分布式计算等问题,但是它也面临的问题着以下几个问题:1.人员学习成本太高。在实际生产中通常项目周期紧,不允许开发人员有充足的时间学习整个Hadoop 框架。Hive 的出现解决了上述问题,方便不熟悉Hadoop 框架的人员使用Hadoop 平台。通过下图6-1 可以看到Hive 是在MapReduce 框架之上,Hive 会将SQL 语句转换成相应的MapReduce 执行,这里需要注意的是Hive 并不是分布式框架,它只在部署的节点运行。
虽然Hadoop 平台和MapReduce 编程能够有效解决大数据数据存储和分布式计算等问题,但是它也面临的问题着以下几个问题:
1.人员学习成本太高。学习Hadoop 框架必须要掌握大量的配置信息,需要基本的Linux 知识和具备编程基础,这对于只是想通过Hadoop 平台进行数据分析的人员来说,无疑是学习成本高昂。
2.项目周期要求太短。在实际生产中通常项目周期紧,不允许开发人员有充足的时间学习整个Hadoop 框架。
3. MapReduce 编程难。要想熟练的掌握MapReduce 编程,不仅需要较强的编程能力,还需要很强的算法分析水平,这也使得只懂的SQL 语句的数据库人员在进行数据分析时无法下手。(www.daowen.com)
Hive 的出现解决了上述问题,方便不熟悉Hadoop 框架的人员使用Hadoop 平台。Hive 操作接口采用类SQL 语法(HQL),这使得数据分析人员不用开发专门的MapReduce 应用,可以通过类SQL 语句快速实现简单的MapReduce 统计,十分适合数据仓库的统计分析,提高开发效率。
通过下图6-1 可以看到Hive 是在MapReduce 框架之上,Hive 会将SQL 语句转换成相应的MapReduce 执行,这里需要注意的是Hive 并不是分布式框架,它只在部署的节点运行。
图6-1 Hive 架构
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
有关大数据技术及应用探究的文章