全网整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:400-708-3566

hive函数简介

首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 

 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

  2.Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

  要理解hive,必须先理解hadoop和mapreduce,如果有不熟悉的童鞋,可以百度一下。

  使用hive的命令行接口,感觉很像操作关系数据库,但是hive和关系数据库还是有很大的不同,下面我就比较下hive与关系数据库的区别,具体如下:

1.hive和关系数据库存储文件的系统不同,hive使用的是hadoop的HDFS(hadoop的分布式文件系统),关系数据库则是服务器本地的文件系统;

2.hive使用的计算模型是mapreduce,而关系数据库则是自己设计的计算模型;

3.关系数据库都是为实时查询的业务进行设计的,而hive则是为海量数据做数据挖掘设计的,实时性很差;实时性的区别导致hive的应用场景和关系数据库有很大的不同;

4.Hive很容易扩展自己的存储能力和计算能力,这个是继承hadoop的,而关系数据库在这个方面要比数据库差很多。

  以上都是从宏观的角度比较hive和关系数据库的区别,hive和关系数据库的异同还有很多,我在文章的后面会一一描述。

  下面我来讲讲hive的技术架构,大家先看下面的架构图: 

  由上图可知,hadoop和mapreduce是hive架构的根基。Hive架构包括如下组件:CLI(command line interface)、JDBC/ODBC、Thrift Server、WEB GUI、metastore和Driver(Complier、Optimizer和Executor),这些组件我可以分为两大类:服务端组件和客户端组件。

   首先讲讲服务端组件:

  Driver组件:该组件包括Complier、Optimizer和Executor,它的作用是将我们写的HiveQL(类SQL)语句进行解析、编译优化,生成执行计划,然后调用底层的mapreduce计算框架。

  Metastore组件:元数据服务组件,这个组件存储hive的元数据,hive的元数据存储在关系数据库里,hive支持的关系数据库有derby、mysql。元数据对于hive十分重要,因此hive支持把metastore服务独立出来,安装到远程的服务器集群里,从而解耦hive服务和metastore服务,保证hive运行的健壮性,这个方面的知识,我会在后面的metastore小节里做详细的讲解。

  Thrift服务:thrift是facebook开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发,hive集成了该服务,能让不同的编程语言调用hive的接口。

  客户端组件:

  CLI:command line interface,命令行接口。

  Thrift客户端:上面的架构图里没有写上Thrift客户端,但是hive架构的许多客户端接口是建立在thrift客户端之上,包括JDBC和ODBC接口。

  WEBGUI:hive客户端提供了一种通过网页的方式访问hive所提供的服务。这个接口对应hive的hwi组件(hive web interface),使用前要启动hwi服务。

  下面我着重讲讲metastore组件,具体如下:

  Hive的metastore组件是hive元数据集中存放地。Metastore组件包括两个部分:metastore服务和后台数据的存储。后台数据存储的介质就是关系数据库,例如hive默认的嵌入式磁盘数据库derby,还有mysql数据库。Metastore服务是建立在后台数据存储介质之上,并且可以和hive服务进行交互的服务组件,默认情况下,metastore服务和hive服务是安装在一起的,运行在同一个进程当中。我也可以把metastore服务从hive服务里剥离出来,metastore独立安装在一个集群里,hive远程调用metastore服务,这样我们可以把元数据这一层放到防火墙之后,客户端访问hive服务,就可以连接到元数据这一层,从而提供了更好的管理性和安全保障。使用远程的metastore服务,可以让metastore服务和hive服务运行在不同的进程里,这样也保证了hive的稳定性,提升了hive服务的效率。

  Hive的执行流程如下图所示:

图描述的很清晰了,我这里就不在累述了。

下面我给大家展示一个简单的例子,看看hive是怎么操作的。

首先我们创建一个普通的文本文件,里面只有一行数据,该行也只存储一个字符串,命令如下:

echo ‘sharpxiajun' > /home/hadoop/test.txt

然后我们建一张hive的表:

hive –e “create table test (value string);

接下来加载数据:

Load data local inpath ‘home/hadoop/test.txt' overwrite into table test

最后我们查询下表:

hive –e ‘select * from test';

  大家看到了吧,hive十分简单,很好入门,操作和sql很像,下面我就要深入分析下hive与关系数据库的区别,这部分可能有些人看的不是很明白,但是很有必要提前提出,以后我的文章里将进一步讲述hive,那时不太明白的童鞋在看看这部分,很多问题就会清晰很多,具体如下:

1.关系数据库里,表的加载模式是在数据加载时候强制确定的(表的加载模式是指数据库存储数据的文件格式),如果加载数据时候发现加载的数据不符合模式,关系数据库则会拒绝加载数据,这个就叫“写时模式”,写时模式会在数据加载时候对数据模式进行检查校验的操作。Hive在加载数据时候和关系数据库不同,hive在加载数据时候不会对数据进行检查,也不会更改被加载的数据文件,而检查数据格式的操作是在查询操作时候执行,这种模式叫“读时模式”。在实际应用中,写时模式在加载数据时候会对列进行索引,对数据进行压缩,因此加载数据的速度很慢,但是当数据加载好了,我们去查询数据的时候,速度很快。但是当我们的数据是非结构化,存储模式也是未知时候,关系数据操作这种场景就麻烦多了,这时候hive就会发挥它的优势。

2.关系数据库一个重要的特点是可以对某一行或某些行的数据进行更新、删除操作,hive不支持对某个具体行的操作,hive对数据的操作只支持覆盖原数据和追加数据。Hive也不支持事务和索引。更新、事务和索引都是关系数据库的特征,这些hive都不支持,也不打算支持,原因是hive的设计是海量数据进行处理,全数据的扫描时常态,针对某些具体数据进行操作的效率是很差的,对于更新操作,hive是通过查询将原表的数据进行转化最后存储在新表里,这和传统数据库的更新操作有很大不同。

3.Hive也可以在hadoop做实时查询上做一份自己的贡献,那就是和hbase集成,hbase可以进行快速查询,但是hbase不支持类SQL的语句,那么此时hive可以给hbase提供sql语法解析的外壳,可以用类sql语句操作hbase数据库


# hive  # 函数  # 简介  # Mysql 5.7.19 winx64 ZIP Archive 安装及使用过程问题小结  # php使用ZipArchive函数实现文件的压缩与解压缩  # nodejs下打包模块archiver详解  # php使用ZipArchive提示Fatal error: Class ZipArchive not  # php的ZipArchive类用法实例  # ORACLE DATAGUARD中手工处理日志v$archive_GAP的方法  # php ZipArchive压缩函数详解实例  # 加载  # 客户端  # 都是  # 则是  # 自己的  # 这一  # 就会  # 也不  # 是在  # 很好  # 这部  # 不支持  # 很像  # 很差  # 文件系统  # 命令行  # 服务端  # 结构化  # 的是  # 数据存储 


相关文章: 单页制作网站有哪些,朋友给我发了一个单页网站,我应该怎么修改才能把他变成自己的呢,请求高手指点迷津?  北京专业网站制作设计师招聘,北京白云观官方网站?  如何在宝塔面板创建新站点?  如何快速查询域名建站关键信息?  百度网页制作网站有哪些,谁能告诉我百度网站是怎么联系?  西安制作网站公司有哪些,西安货运司机用的最多的app或者网站是什么?  网站app免费制作软件,能免费看各大网站视频的手机app?  香港服务器租用费用高吗?如何避免常见误区?  建站之星代理如何优化在线客服效率?  动图在线制作网站有哪些,滑动动图图集怎么做?  如何通过宝塔面板实现本地网站访问?  深圳防火门网站制作公司,深圳中天明防火门怎么编码?  Thinkphp 中 distinct 的用法解析  如何高效搭建专业期货交易平台网站?  网页设计网站制作软件,microsoft office哪个可以创建网页?  广平建站公司哪家专业可靠?如何选择?  已有域名如何快速搭建专属网站?  南京做网站制作公司,南京哈发网络有限公司,公司怎么样,做网页美工DIV+CSS待遇怎么样?  惠州网站建设制作推广,惠州市华视达文化传媒有限公司怎么样?  淘宝制作网站有哪些,淘宝网官网主页?  如何快速搭建高效可靠的建站解决方案?  制作公司内部网站有哪些,内网如何建网站?  建站主机空间推荐 高性价比配置与快速部署方案解析  seo网站制作优化,网站SEO优化步骤有哪些?  建站上市公司网站建设方案与SEO优化服务定制指南  javascript中的try catch异常捕获机制用法分析  焦点电影公司作品,电影焦点结局是什么?  网站网页制作电话怎么打,怎样安装和使用钉钉软件免费打电话?  专业企业网站设计制作公司,如何理解商贸企业的统一配送和分销网络建设?  如何快速辨别茅台真假?关键步骤解析  广州顶尖建站服务:企业官网建设与SEO优化一体化方案  武汉网站设计制作公司,武汉有哪些比较大的同城网站或论坛,就是里面都是武汉人的?  唐山网站制作公司有哪些,唐山找工作哪个网站最靠谱?  公众号网站制作网页,微信公众号怎么制作?  大连网站设计制作招聘信息,大连投诉网站有哪些?  如何快速上传建站程序避免常见错误?  如何通过.red域名打造高辨识度品牌网站?  网站建设制作、微信公众号,公明人民医院怎么在网上预约?  如何快速搭建高效简练网站?  网站制作与设计教程,如何制作一个企业网站,建设网站的基本步骤有哪些?  建站之星导航配置指南:自助建站与SEO优化全解析  制作假网页,招聘网的薪资待遇,会有靠谱的吗?一面试又各种折扣?  建设网站制作价格,怎样建立自己的公司网站?  已有域名和空间,如何快速搭建网站?  网站制作公司,橙子建站是合法的吗?  制作无缝贴图网站有哪些,3dmax无缝贴图怎么调?  网站制作知乎推荐,想做自己的网站用什么工具比较好?  如何快速搭建自助建站会员专属系统?  企业微网站怎么做,公司网站和公众号有什么区别?  建站之星展会模板:智能建站与自助搭建高效解决方案 

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。