spark 二次排序两种方法（scala）

2024-11-24 来源：个人技术集锦

排序数据：

aa 34
bb 24
cc 83
aa 53
cc 12
aa 47
bb 35
aa 21
cc 64
bb 73

第一种方法是用spark中的sortBy方法：

首先将数据处理成（“aa”，34）的格式；

然后使用sortBy算子进行排序；

/**
  * 二次排序使用sortBy
  */
rdd.map(a => (a.split(" ")(0),a.split(" ")(1).toInt)).sortBy(x=>x,false).foreach(println)

第二种方法是用spark中的sortByKey方法：

因为sortByKey方法是按照key值排序，所以需要构建特殊的key值类：

class SortClass(val x :String,val y:Int) extends Serializable with Ordered[SortClass]{
    override def compare(that: SortClass): Int = {
        if(!this.x.equals(that.x)){
            this.x.hashCode - that.x.hashCode
        }
        else {
            this.y - that.y
        }
    }
}

注意：该类在shuffle中是需要序列化传输的，所以要继承Serializable接口，不然会报错。

构建好key值类后，就可以使用sortByKey来排序了；

最后排序完以后，将排序用的key值去除掉；

rdd.map(a => (new SortClass(a.split(" ")(0),a.split(" ")(1).toInt),a)).sortByKey()
                .map(a => a._2)

显示全文

全部栏目

spark 二次排序两种方法（scala）