Hive Introduction

Created2025-11-23|Updated2025-11-23

|Post Views:

Hive的作用

Hive将提交任务这一件事情简化, 屏蔽了执行引擎, 提供了HiveQL供用户使用, 用户可以使用SQL的形式提交并执行任务.

从输入数据到最后的执行经过的步骤:

用户通过客户端连接到HiveServer2提交SQL -> Driver接受客户端的HiveQL -> Compiler / Semantic Analyzer / Optimizer将QL转化成逻辑计划, 物理计划, 并进行CBO优化 -> Execution Engine将物理计划分解成具体的执行任务, 提交到底层的计算引擎上 (MapReduce, Spark) -> 在HDFS上存储数据, 由YARN分配资源给计算引擎
另一条线是HiveServer2 -> Hive MetaStore Server访问元数据, 通过Thrift提供元数据 (表/分区/统计), 并将结果持久化到关系型数据库

HMS (Hive Metastore)

HMS

Author: John Doe

Link: https://functional.top/2025/11/23/Big_Data/Hive/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

Hive BigData Spark

Related Articles

Livy基础知识

概念理解Livy 解决了什么问题？为什么不直接用 spark-submit？解决了用户提交spark任务的易用性和控制性问题, 使用户能通过HTTP请求向spark提交任务权限问题: 使用spark-submit, 用户需要登陆上服务器, 使用spark-submit命令提交, 这将spark所在的服务器的访问权限和提交spark任务的权限绑定, 但是实际上提交spark任务的role和访问服务器的role应该是分离的. 易用性问题: 在过去用户需要在本地写好代码, 通过SFTP上传到服务器上, 再通过spark-submit提交任务, 现在用户可以通过jupyter + livy的方式, 在本地编写代码, 动态变更并且随时通过HTTP向Livy提交任务自动化问题: 直接通过spark-submit提交任务, 无法对于spark任务进行集中管理, 捕获一些指标, 或者进行配置覆盖等其他的自动化的操作, Livy的引入相当于为用户和spark-submit之间注入了一个管理的中间层 Livy 支持哪几种 Session 类型？它们的区别是什么？Session Type分成I...

[Spark Source Code 1] How launch a spark Application

只关注spark application通过spark-submit shell脚本启动的情况以问题为导向探究 ✅ spark-submit 脚本做了什么？ ✅ Launcher 层的作用是什么？为什么需要它？ ✅ 参数是如何从 Shell 传递到 Java 的？ ✅ 为什么使用 NULL 分隔符？ ✅ prepareSubmitEnvironment() 返回的 4 个值分别是什么？ ✅ Client 和 Cluster 模式的 childMainClass 有什么不同？ ✅ 不同集群管理器（YARN/K8s/Standalone）的启动有什么区别？ ✅ app.start() 之后发生了什么？ ✅ 配置的优先级是怎样的？ ✅ 为什么某些模式组合不支持（如 LOCAL + CLUSTER）？ How spark command is parsedshell脚本入口阶段找到SPARK_HOME, JAVA_HOME, 将launcher入口类和submit入口类添加到执行路径中, 补全java命令, 执行命令整体的流程entry pointfil...

[Spark Source Code 2] How spark access YARN and start container to run tasks.

Spark on YARN的整体运行的架构YARN重要的角色 Resource Manager: 全局资源管理器 ApplicationManager: 应用管理器(RM子组件), 接收Client提交的请求为每个APP分配一个appId 选择NM启动AM 管理AM的生命周期 Scheduler: 资源调度器(RM子组件) 根据调度策略分配资源, 响应AM的资源请求 NodeManager: 节点管理器, 每台机器分配一个NM, 是这台机器在集群中的代理管理单个节点的资源向RM报告节点状态和资源使用情况接收从AM收到请求 Container YARN中资源分配的基本单位对应着一组CPU 内存等资源运行ApplicationMaster (AM) 或Executor Spark on YARN的运行流程ApplicationMaster(区别于上面的ApplicationManager): 每个app都会分配一个AM, 该AM是这个app在YARN集群的代理, 运行在YARN集群中的app通过AM向RM(scheduler)请求资源提交AM Cl...

大数据结构总览

大数据结构大数据可以分成五个层次数据收集:将数据从数据源收集到数据存储层, 常用的组件有关系型, 非关系型, 分布式消息队列三种关系型: Sqooq/Canal, 连接MySQL这种关系型数据库和Hadoop之间的桥梁, Sqool可以全量将数据库中的数据导入到Hadoop中, Canal则能实现增量的导入非关系型: Flume, 流式数据收集, 比如日志等数据, 经过ETL以后导入到Hadoop中分布式消息队列: [[Kafka]], 常用作消息总线, 有分布式的高容错的设计, 适配大数据场景数据存储主要由分布式文件系统和分布式数据库组成分布式文件系统: HDFS, Hadoop分布式文件系统, 有强大的容错机制, 社区开发了很多种文件格式分布式数据库: HBase, 构建在HDFS之上的分布式数据库, 提供结构化和半结构化的数据库, 支持列无限拓展资源管理和服务调度 YARN: 统一资源管理与调度系统, 能够管理集群中的各种资源, 并按照一定策略分配给上层的各类应用. 同时支持灵活的配置, 允许用户按照队列的方式组织和管理资源, 且每个队列的...