专利名称:一种基于 Spark 平台的高效率文本分类方法专利类型:发明专利
发明人:唐卓,鲁彬,李肯立,李巧巧,陈建国,熊燎特申请号:CN201610066429.X申请日:20160129公开号:CN105740424A公开日:20160706
摘要:本发明提供了一种基于Spark平台的高效率文本分类方法,该方法包括:在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中;Spark平台从HDFS文件系统中读取数据,将数据转换为RDD并将其存储在内存;将所有任务分为不同的stage,然后运行各个任务;对RDD进行预处理;进行训练;测试分类模型。本发明弥补了朴素贝叶斯模型的缺点与不足,还提高了处理的速度;还对数据挖掘和机器学习起到了有效地促进作用:促进了传统的数据挖掘算法向并行的数据挖掘算法转变;对贝叶斯算的改进提高了分类的精度;促进了以Spark平台为基础的算法的改进;最后提高了集群资源利用率。
申请人:湖南大学
地址:410082 湖南省长沙市岳麓区麓山南路1号
国籍:CN
代理机构:深圳市兴科达知识产权代理有限公司
代理人:王翀
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容