Hive归档 - 互联网资源站

Hive

hive底层与数据库交互原理

Hive的查询功能是由hdfs + mapreduce结合起来实现的 Hive与mysql的关系：只是借用mysql来存储hive中的表的元数据信息，称为metastore

2023年11月30日 0 0 78 0

Hive

说说对 Hive 桶表的理解？

桶表是对数据进行哈希取值，然后放到不同文件中存储。数据加载到桶表时，会对字段取 hash 值，然后与桶的数量取模。把数据放到对应的文件中。物理上，每个桶就是表(或分区）目录里的一...

2023年11月30日 0 0 80 0

Hive

Hive 的函数：UDF、UDAF、UDTF 的区别？

UDF：单行进入，单行输出 UDAF：多行进入，单行输出 UDTF：单行输入，多行输出

2023年11月30日 0 0 83 0

Hive

所有的 Hive 任务都会有 MapReduce 的执行吗？

不是，从 Hive0.10.0 版本开始，对于简单的不需要聚合的类似 SELECT from LIMIT n 语句，不需要起 MapReduce job，直接通过 Fetch ta...

2023年11月30日 0 0 104 0

Hive

Hive 中的压缩格式 TextFile、SequenceFile、RCfile 、ORCfile 各有什么区别？

1、TextFile 默认格式，存储方式为行存储，数据不做压缩，磁盘开销大，数据解析开销大。可结合 Gzip、Bzip2 使用(系统自动检查，执行查询时自动解压)，但使用这种方式，...

2023年11月30日 0 0 82 0

Hive

Hive 内部表和外部表的区别？

创建表时：创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。删除表时：在删除表的时候，内部表的元数据和数据会被一起删除...

2023年11月30日 0 0 81 0

Hive

Hive 有哪些方式保存元数据，各有哪些特点？

Hive 支持三种不同的元存储服务器，分别为：内嵌式元存储服务器、本地元存储服务器、远程元存储服务器，每种存储方式使用不同的配置参数。内嵌式元存储主要用于单元测试，在该模式下每次...

2023年11月30日 0 0 86 0

Hive

写出 hive 中 split、coalesce 及 collect_list 函数的用法（可举例）？

split 将字符串转化为数组，即：split('a,b,c,d' , ',') ==> ["a","b","c","d"]。 coalesce(T v1, T v2, …) 返回...

2023年11月30日 0 0 92 0

Hive

请说明 hive 中 Sort By，Order By，Cluster By，Distrbute By 各代表什么意思？

order by：会对输入做全局排序，因此只有一个 reducer（多个 reducer 无法保证全局有序）。只有一个 reducer，会导致当输入规模较大时，需要较长的计算时间。...

2023年11月30日 0 0 80 0

Hive

谈一下 Hive 的特点？

hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的 sql 查询功能，可以将 sql 语句转换为MapReduce 任务进行...

2023年11月30日 0 0 76 0

Hive

Hive 的两张表关联，使用 MapReduce 怎么实现？

如果其中有一张表为小表，直接使用 map 端 join 的方式（map 端加载小表）进行聚合。如果两张都是大表，那么采用联合 key，联合 key 的第一个组成部分是 join ...

2023年11月30日 0 0 77 0

Hive

Hive 底层与数据库交互原理？

由于 Hive 的元数据可能要面临不断地更新、修改和读取操作，所以它显然不适合使用 Hadoop 文件系统进行存储。目前 Hive 将元数据存储在 RDBMS 中，比如存在储 My...

2023年11月30日 0 0 81 0

Hive

Hive 的 HSQL 转换为 MapReduce 的过程？

HiveSQL ->AST(抽象语法树) -> QB(查询块) ->OperatorTree（操作树）-> 优化后的操作树->mapreduce 任务树->优化后的 mapredu...

2023年11月30日 0 0 78 0

Hive

Hive 表关联查询，如何解决数据倾斜的问题？

1）倾斜原因：map 输出数据按 key Hash 的分配到 reduce 中，由于 key 分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的 reduce 上的数据量差...

2023年11月30日 0 0 87 0