您的当前位置:首页正文

spark 二次排序两种方法(scala)

2024-11-24 来源:个人技术集锦

排序数据:

aa 34
bb 24
cc 83
aa 53
cc 12
aa 47
bb 35
aa 21
cc 64
bb 73

第一种方法是用spark中的sortBy方法:

首先将数据处理成(“aa”,34)的格式;

然后使用sortBy算子进行排序;

/**
  * 二次排序使用sortBy
  */
rdd.map(a => (a.split(" ")(0),a.split(" ")(1).toInt)).sortBy(x=>x,false).foreach(println)

第二种方法是用spark中的sortByKey方法:

因为sortByKey方法是按照key值排序,所以需要构建特殊的key值类

class SortClass(val x :String,val y:Int) extends Serializable with Ordered[SortClass]{
    override def compare(that: SortClass): Int = {
        if(!this.x.equals(that.x)){
            this.x.hashCode - that.x.hashCode
        }
        else {
            this.y - that.y
        }
    }
}

注意:该类在shuffle中是需要序列化传输的,所以要继承Serializable接口,不然会报错。

构建好key值类后,就可以使用sortByKey来排序了;

最后排序完以后,将排序用的key值去除掉;

rdd.map(a => (new SortClass(a.split(" ")(0),a.split(" ")(1).toInt),a)).sortByKey()
                .map(a => a._2)



显示全文