一种基于 Spark 平台的高效率文本分类方法[发明专利]

2024-09-16 来源：个人技术集锦

专利内容由知识产权出版社提供

专利名称：一种基于 Spark 平台的高效率文本分类方法专利类型：发明专利

发明人：唐卓,鲁彬,李肯立,李巧巧,陈建国,熊燎特申请号：CN201610066429.X申请日：20160129公开号：CN105740424A公开日：20160706

摘要：本发明提供了一种基于Spark平台的高效率文本分类方法，该方法包括：在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台，并将数据集上传到HDFS文件系统中；Spark平台从HDFS文件系统中读取数据，将数据转换为RDD并将其存储在内存；将所有任务分为不同的stage，然后运行各个任务；对RDD进行预处理；进行训练；测试分类模型。本发明弥补了朴素贝叶斯模型的缺点与不足，还提高了处理的速度；还对数据挖掘和机器学习起到了有效地促进作用：促进了传统的数据挖掘算法向并行的数据挖掘算法转变；对贝叶斯算的改进提高了分类的精度；促进了以Spark平台为基础的算法的改进；最后提高了集群资源利用率。

申请人：湖南大学

地址：410082 湖南省长沙市岳麓区麓山南路1号

国籍：CN

代理机构：深圳市兴科达知识产权代理有限公司

代理人：王翀

更多信息请下载全文后查看

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

一种基于 Spark 平台的高效率文本分类方法[发明专利]