玖叶教程网

前端编程开发入门

Hive 计算 topN 的函数可以用 row_number

在处理数据中,计算 top n 的时候,经常用到 row_number 这个函数。

例子

select 
 ip
3
,uuid
,row_number() over(partition by uuid order by p_dt desc) as rank 
from ip_uuid_table;

这个例子中有哪些值得关注的地方呢?

partition by 用于给结果集分组。

over() 函数用于返回一个分组中的多个值。这里与聚合函数(count,sum,min等等不同),因为聚合只返回一个统计值。

上面的例子使用的是 row_number() ,不会有重复值的。

rank() over()是跳跃排序,有两个第二名时接下来就是第四名(同样是在各个分组内)

dense_rank() over()是连续排序,有两个第二名时仍然跟着第三名。相比之下row_number是没有重复值的

发表评论:

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言