hive中的几种join到底有什么区别（hive中join的用法）新鲜出炉

🌐 经济型：买域名、轻量云服务器、用途：游戏网站等《腾讯云》特点：特价机便宜适合初学者用点我优惠购买

🚀 拓展型：买域名、轻量云服务器、用途：游戏网站等《阿里云》特点：中档服务器便宜域名备案事多点我优惠购买

🛡️ 稳定型：买域名、轻量云服务器、用途：游戏网站等《西部数码》特点：比上两家略贵但是稳定性超好事也少点我优惠购买

文章摘要

这篇文章介绍了Hive中几种常见的JOIN操作的区别，包括LEFT JOIN、JOIN、FULL JOIN以及UNION和UNION ALL。以下是总结： 1. **LEFT JOIN**：只会从左边表中选取所有记录，右边表中没有匹配记录的部分会显示为NULL。适用于需要保留左边所有数据的情况。 2. **JOIN**：筛选出两个表中匹配字段的记录，适用于需要同时处理两个表中相关数据的情况。 3. **FULL JOIN**：将两个表的所有记录都包含进去，即使右边表中没有匹配字段。可能会导致笛卡尔积的问题，影响性能。 4. **UNION**：将两个查询结果合并，去重后返回结果。会报错如果两个查询结果的 Schema 不一致。 5. **UNION ALL**：将两个查询结果合并，不去除重复数据。结果中包含所有重复记录。文章还提醒了LEFT JOIN和其他JOIN的区别，以及Union和Union All的核心区别在于是否去重。

目录数据：1. left join2. join3. full join4. Join…on 1=15. union6. union allunion和union all的区别总结

hive中，几种join的区别

tom,1

jey,2

lilly,7

lilly,8

tom,1

lilly,3

may,4

bob,5

以上两个为数据，没有什么意义，全是为了检测join的使用

看一下两张表，其实可以看出来，在name一行有重复的，也有不重复的，在id一行1表完全包含2表

left join会把左边的表所有数据列出来，当左边表有而右边表没有的时候，就会用null代替

select *
from jn1
left join jn2
on jn1.name=jn2.name;

jn1.name jn1.id jn2.name jn2.id

tom 1 tom 1

jey 2 NULL NULL

lilly 7 lilly 3

lilly 8 lilly 3

而右表有左表没有的就不会显示了

join会把两个表共有的部分筛选出来

select *
from jn1
join jn2
on jn1.name=jn2.name;

jn1.name jn1.id jn2.name jn2.id

tom 1 tom 1

lilly 7 lilly 3

lilly 8 lilly 3

可以看到，共有的部分筛选了出来

会把两者没有的有的全部数据都选出来，没有的显示空值

select *
from jn1
full join jn2
on jn1.name=jn2.name;

jn1.name jn1.id jn2.name jn2.id

tom 1 tom 1

NULL NULL bob 5

jey 2 NULL NULL

lilly 7 lilly 3

lilly 8 lilly 3

NULL NULL may 4

这种情况会有笛卡尔积的产生，就是表1的每一行都会和表2匹配一下，这样就会产生指数级的增长

select *
from jn1
join jn2
on 1=1;

jn1.name jn1.id jn2.name jn2.id

tom 1 lilly 3

tom 1 bob 5

tom 1 may 4

tom 1 tom 1

jey 2 lilly 3

jey 2 bob 5

jey 2 may 4

jey 2 tom 1

lilly 7 lilly 3

lilly 7 bob 5

lilly 7 may 4

lilly 7 tom 1

lilly 8 lilly 3

lilly 8 bob 5

lilly 8 may 4

lilly 8 tom 1

会把查询结果拼接起来，但是要求两个查询结果的行数必须保持一致

否则会报错

FAILED: SemanticException Schema of both sides of union should match

select *
from jn1
union
select *
from jn2;

_u1.name _u1.id

jey 2

lilly 7

bob 5

lilly 3

lilly 8

tom 1

may 4

union会组合起来，那么union all可以不

select *
from jn1
union all
select *
from jn2;

lilly 3

tom 1

may 4

bob 5

tom 1

jey 2

lilly 7

lilly 8

从上述的两个结果就可以看出来了两者的区别，union会自动去重处理，所以结果把重复的数据去掉了，而union all则不会去重。

注意tips：left join会用之后，right join不用说了吧

到此这篇关于hive中的几种join到底有什么区别的文章就介绍到这了,更多相关hive的join区别内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

随心笔谈

文章版权归作者所有，未经允许请勿转载。

sql索引失效的情况以及超详细解决方法（sql索引失效的情况以及超详细解决方法有哪些）不看后悔

随心笔谈

1年前

2960

html中插入avi格式视频文件的代码（添加html）难以置信

随心笔谈

1年前

3510

PostgreSQL并行计算算法及参数强制并行度设置方法（post a letter for sb）真没想到

随心笔谈

1年前

3110

Python入门教程(三十八)Python的NumPy库简介（python从入门到精通百度网盘下载）难以置信

随心笔谈

1年前

3170

hive中的几种join到底有什么区别（hive中join的用法）新鲜出炉

文章摘要

Go语言编程中字符串切割方法小结（go 字符串拼接）原创

Hive导入csv文件示例（hive导入excel数据）满满干货

相关文章

sql索引失效的情况以及超详细解决方法（sql索引失效的情况以及超详细解决方法有哪些）不看后悔

html中插入avi格式视频文件的代码（添加html）难以置信

PostgreSQL并行计算算法及参数强制并行度设置方法（post a letter for sb）真没想到

Python入门教程(三十八)Python的NumPy库简介（python从入门到精通百度网盘下载）难以置信