聚类和spark论文范文检索聚类和spark类有关论文范文检索5000字有关写作资料-论文写作网

聚类和spark论文范文

《基于Spark框架的政府公文聚类方法》

该文是聚类和spark类论文范文文献与政府方面毕业论文格式模板范文.

摘要：政府网站中的政府公文数目巨大,对政府公文进行快速有效的分类,可以提供更好的用户体验.本文提出基于spark分布式计算框架采用K-means算法对政府公文进行分类的方法.首先从政府网站爬取足量的政府公文数据,对其进行数据预处理,再通过TF-IDF将处理后的政府文本信息转换成二维矩阵,然后在spark计算框架中使用K-means算计进行聚类.最后分别在单机和使用spark框架的分布式计算环境下进行测试,三组实验结果表明,使用spark分布式计算框架进行聚类有着更高的计算效率.

关键词：Spark;公文聚类;TF-IDF;K-means

中图分类号：TP311 文献标识码：A

文章编号：1009-3044（2020）01-0210-03

随着大数据、云计算之类的信息技术的发展,面对大数据带来的数据采集、数据融合、数据传输、数据处理、数据计算、数据存储等一系列问题,许多新的大数据计算框架和模型值得我们开发应用.同时随着大数据的深入应用,国家已发布多个文件要求强化数据资源规划,强化数据资源管理,推进数据资源应用.要求在2020年底前,建成覆盖全国的“互联网+政务服务”技术和服务体系.在“互联网+”的背景下,针对政府要业务数据等各类数据的管理需求,走向“数据治理”成为实现治理体系和治理能力现代化的必然要求.信息渠道的变革,数据汇集管理也需要吸收新的技术.政府公文作为政府数据的一部分,需要对其进行分类处理.正对着一部分本文考虑用spark计算框架下的聚类技术,实行大数据技术下政府公文的分类,提高政府公文的分类效率.

1相关理论以及技术

1.1Spark并行计算框架

Apache spark是一种快速的集群计算技术,专为快速计算而设计.它基于HadoopMapReduce,在MapReduce计算框架基础上进一步实现了分布式计算,以有效地将其应用于更多类型的计算,包括交互式查询和流处理.MapReduce是基于磁盘的运行模式,运算结果会暂存于磁盘上,增加内存消耗和数据传输所占用的磁盘I/O的成本,极大的影响总体计算效率.而Spark将中间处理数据存储在内存中,数据在内存中的处理速度至少是在磁盘中的10倍,通过这样的方式减少对磁盘读写操作的数量,增加总体计算效率.

Spark是Hadoop在2009年加州大学伯克利分校的MateiZa-haria的AMPLab開发的子项目之一.它是在2010年根据BSD许可开放.

与Hadoop不同的是,Spark采用弹性分布数据集（ResilientDisTributedDataset,RDD）实现了以操作本地集合的方式来操作分布式数据集,对集群上并行处理数据在内存上进行分布式抽象,并基于RDD迭代式计算.RDD是spark最核心的部分,RDD必须是可序列化的.RDD可以缓存到内存中,迭代计算的结果都可以放到内存中,下一个操作可以直接从缓存中输入,省去了MapReduce大量的磁盘I/O操作这对于迭代运算比较常见的机器学习算法来说效率提升较大.Spark并行计算框架如图1所示.

Spark的工作流程为：

（1）构建spark应用程序的运行环境（启动Spark Context）,SparkContext向Yarn资源管理器注册并申请执行器资源;

（2）资源管理器分配执行器资源,执行器运行情况将随着心跳发送到资源管理器上;

（3）SparkContext构建成DAG图,将DAG图分解成阶,并将任务发送给任务分时管理器.执行器向Spark Context申请任务,任务分时管理器将任务发送给执行器的同时Spark Context将应用代码发送给执行器;

（4）任务在执行器上运行,运行完毕释放资源.

1.2聚类算法

聚类算法是把距离作为特征,通过自下而上的迭代方式,快速的将一群样本分成几各类别的算法.聚类算法大致分为基于层次和基于划分的两种聚类,本文用到的K-means算法则是基于划分的聚类算法.

K-means算法的步骤包括：

（1）数据集随机选取k个数据作为初始的聚类质心;

（2）计算剩余的样本到聚类质心的距离,并将其分配到距离最近的簇内;

（3）将每个簇的样本平均值作为簇的新聚类质心;

（4）判断样本的簇是否改变,若改变则返回（2）.

K-means算法的优点有：

（1）算法快速简单;

（2）对大数据集有着较高的效率并且可伸缩;

（3）时间复杂度呈线性,适合挖掘大规模数据集.

K-means算法的缺点有：

（1）在K-means算法中的K需要事先确定,K的确定非常难判断,需要用不同的方法找出合适的K值;

（2）K的选取极大地影响了聚类结果,如果初始值选取的不好,可能无法得到有效的聚类结果.

1.3文本表示

文本是一种无结构的数据,想要进行聚类,首先必须把文本表示成计算机能够识别和处理的形式.本文采用最常用的向量空间模型（v）,向量的每一维都由特征项及其权重组成,特征项的权重用TF-IDF的方法来计算.

其中tfik表示项tk在文本Di中出现的次数,N表示全部训练集的文本数,nk表示训练文本中出现tk.的文本频率数.Z的取值要根据实际来确定,一般取0.01.

根据香农信息学理论,如果项在文本中出现的频率越高,则它包含的信息熵越少;如果项表现较为集中,只在少量文中中有着较高的出现频率,那它则有着更高的信息熵.

考虑到文本长度也对权重有影响,还应该将权重公式做归一化处理,将各权重规范到[0,1]之间：

TF-IDF公式虽然不是一个严谨的计算公式,它只是根据以往经验获得的一个经验公式,但是其在文本聚类处理方面的有效性值得我们拿来应用.

2实验及数据分析

2.1实验环境

实验平台配置为4个服务器节点,每个节点均为双核、4GB内存的PC;其中一台作为master,其他台作为sles;每个节点操作系统均为CentOs;Hadoop版本为3.2.0,Ja开发包为JDK1.8.0版本,Hadoop程序使用ja编写;spark版本为2.4.4,scala版本为2.11.12,spark程序由scala编写.

政府公文数据采集自北京市政府网站.实验分别在单机和spark集群上分别测试.

2.2数据预处理

为了将待聚类文本成功输入到spark的文本聚类程序,常规的去停用词操作还不够,还需要编写格式处理程序,将待转换的文本集合所有内容写入一个忪t文件,每一行存储一篇公文的id,标题和正文内容.其中正文内容是经过分词和去停用词的词序列,词和词之间使用空格隔开.如图2所示：

2.3基于Spark的数据处理

基于sDark的K-means聚类实现步骤有：

（1）提交聚类任务给Master节点;

（2）Master用手肘法确定合适的K值,用作初始的聚类质心;

（3）Master计算数据节点到质心的距离,将数据节点划分到相应的质心;

（4）Master根据聚类质心个数将任务划分,并分配到每个sle节点;

（5）Sle计算节点到聚类质心的距离,将节点划分到相应的质心;

（6）Sle计算新质心的平均值,更行聚类质心;

（7）计算准则函数;