排序数据:
aa 34 bb 24 cc 83 aa 53 cc 12 aa 47 bb 35 aa 21 cc 64 bb 73
第一种方法是用spark中的sortBy方法:
首先将数据处理成(“aa”,34)的格式;
然后使用sortBy算子进行排序;
/**
* 二次排序使用sortBy
*/
rdd.map(a => (a.split(" ")(0),a.split(" ")(1).toInt)).sortBy(x=>x,false).foreach(println)
第二种方法是用spark中的sortByKey方法:
因为sortByKey方法是按照key值排序,所以需要构建特殊的key值类:
class SortClass(val x :String,val y:Int) extends Serializable with Ordered[SortClass]{
override def compare(that: SortClass): Int = {
if(!this.x.equals(that.x)){
this.x.hashCode - that.x.hashCode
}
else {
this.y - that.y
}
}
}
注意:该类在shuffle中是需要序列化传输的,所以要继承Serializable接口,不然会报错。
构建好key值类后,就可以使用sortByKey来排序了;
最后排序完以后,将排序用的key值去除掉;
rdd.map(a => (new SortClass(a.split(" ")(0),a.split(" ")(1).toInt),a)).sortByKey()
.map(a => a._2)