标点论文范文关于标点方面论文写作技巧范文2万字有关写作资料-论文写作网

标点论文范文

《基于文本标点密度连续和的网页正文抽取》

本文是关于标点相关本科论文怎么写跟文本和标点和密度和连续和网页和正文和抽取类在职研究生论文范文.

摘要：为了简化网页正文抽取操作与提高网页正文抽取的准确性,提出了一种基于文本标点密度连续和的抽取方法（TPDS）.TPDS基于网页中文本标点分布的密度并计算密度的连续和,选取所有文本块中连续和最大的文本块,将其确定为网页最佳文本块并抽取正文内容.从不同的门户网站随机选取的网页作为测试数据集,实验结果表明,TPDS可有效过滤网页噪声信息得到正文内容.该方法在不同网页上具有很好的适用性,抽取性能优于CETR、CETD、CEPR和CETD-TPC算法.

关键词：正文抽取; 文本密度; 标点分布; 标签树

中图分类号：TP391 文献标识码：A 文章编号：1006-8228（2020）01-69-04

Abstract： In order to simplify the extraction process of web page text and improve the accuracy of web page text extraction, a method based on text punctuation density continuous sum extraction （TPDS） is proposed. TPDS is based on the density of text punctuation distribution in web pages and calculates the continuous sum of density. The continuous and largest text blocks in all text blocks are selected, which are determined as the best text block of the web page and the body content is extracted. The webpage randomly selected from different portals is used as the test data set. The experimental results show that TPDS can effectively filter the webpage noise information to obtain the body content, and the method has good applicability on different webpage, and the extraction performance is better than CETR, CETD , CEPR and CETD-TPC algorithms.

Key words： content extraction; text density; punctuation distribution; tag tree

0 引言

Web技术快速发展,Web网页成为信息发布的主要载体.中国互联网络中心发布第43次《中国互联网络发展状况统计报告》[1]指出,我国网民规模达8.29亿,互联网普及率达到59.6%;网站数量为523万个,网页数量为2816亿个.Web网页数量如此庞大,显然无法依靠人工抽取所有网页主体信息,而需要通过计算机来辅助完成网页信息抽取.但是Web网页中除了主体信息外,还包括大量的噪声信息[2],如商家广告、兴趣内容推荐、网页导航栏目等.

大量的网页噪声数据会导致在检索网页主体信息时的操作变得困难和复杂,不利于后期的管理与分析.因此在对网页进行爬取时,需要对噪声信息进行过滤,以保证能够得到正确的网页主体信息.

随着互联网技术的不断发展,CSS、JaScript技术的广泛应用,不同的网页结构呈现出多样化与个性化特点,这使得Web信息抽取工作难上加难.通过研究发现,Web网页结构中的文本布局具有如下的表现：

⑴ Web网页中正文部分集中在网页的三分之一到三分之二处,这段内网页的某些标签将会反复出现,且其中文本内容较长,文本块较多,含有的标点符号也相应增加;

⑵ Web网页中噪声部分一般处于网页的边缘地区,多为短文本、图片以及大量的超链接,噪声块的文本标点密度连续小;

⑶ Web网页中正文内容多分布在相同类型的标签中,其主要内容节点之间是连续的,连续内容节点共享同一个父节点.

1 相关工作

Web信息抽取主要是将网页中半结构化的文本数据抽取出来,转换为结构化信息,使之能够为其他系统所利用.近年来,随着人们对Web网页正文信息提取需求的不断增加,国内外众多研究人员提出许多解决方案.

基于包装器的方法是首先由人工制定好抽取规则,然后使用程序依据规则返回规定格式的数据完成信息抽取.手工构建包装器可以解决特定网站的信息抽取问题,但是无法适应不同的网页结构,不同网站都需要依据其网页结构重新构造包装器规则,费时费力.

为了解决人工构建的包装器的不足,人们提出了基于模式匹配的方法.姬鑫等[3]人实现了基于模板页的相同噪音块清洗方法和基于class 属性的同类噪音块和特殊噪音块清洗方法,在此基础上提出基于起始块和终止块的新闻内容抽取方法,但未实现对分页新闻内容的抽取.Hassan A.Sleiman等[4]人實现了模式匹配的抽取算法,该算法不依赖于提取规则,无监督地进行信息抽取.

李伟男等[5]人基于视觉的网页分割算法VIPS提出了使用模拟退火算法改进的二阶隐马尔可夫模型得到最优模型参数,结合改进的Viterbi算法获取最佳状态序列的Web信息抽取方法.刘利等[6]人设计的WIEHF方法利用DOM树计算出容器标签的PSD、TSD、SD,对元素进行筛选,根据元素在内容里的出现频率与标点符号找出网页正文.

针对上述问题,本文设计的TPDS算法利用DOM树将网页分割成多个不同的块区域,通过计算不同块的文本标点分布密度连续和,选取最大连续和对应的文本块为最佳文本块,实现了一种简单、有效的抽取方式.该方法不需要进行训练且无须人工参与,可以适用于不同的网页结构,通过在不同的数据集上的测试,验证了算法具有良好的抽取性能.

2 基于文本标点密度连续和的抽取算法

基于文本标点密度连续和的网页正文抽取算法的主要流程如图1所示.主要分为网页预处理、算法特征值计算和信息抽取三个步骤.

2.1 预处理

在网页DOM结构中,网页被表示为一组标签并且标签之间具有层次关系.根据标签的不同功能,将html标签分为如下四类[7]：交互标签、样式标签、网页描述标签、容器标签.

在进行网页特征计算之前,需要对目标网页的标签进行过滤,在网页正文内容的抽取过程中,一般只需要操作容器标签,其他类型的标签（如交互标签,样式标签,网页描述标签）将被过滤掉.

2.2 文本标点密度连续和特征

定义1 DOM块：DB（v）是以节点v为根节点的子树,其中v为非文本节点,若DB（v）不为空时,则称子树DB（v）为DOM块.

从网页中选取两个DOM块,图2是文本块,可以发现在文本块中,文本标点信息更加集中,具有更少的超链接文本.而在图3噪声块中,超链接文本信息较多,文本标点信息之间相对分散.

其中,[SE]是由算法抽取的Web网页结果构成的正文集合,[]是由人工从Web网页中抽取的正文内容集合,[SE∩]是算法实际抽取的正确正文内容.精度P是衡量提取的文本与实际文本相关程度的指标,召回率R表示应该抽取结果中被正确抽取的正文内容的比例,F值则是衡量抽取性能的一个综合指标.

根据这些评价指标分析不用的抽取算法,并将其与本文提出的算法进行比较.表1给出了CETR、CETD、CEPR、CETD-TPC与TPDS算法在不同数据集上测试的结果.

从表1的对比实验结果可以发现,TPDS方法在大部分情况下都表现出良好的抽取性能.TPDS在部分网页上的抽取结果相比其他算法有点欠缺,但是综合考虑抽取结果的平均情况,都优于其他的抽取算法,所以,TPDS算法在不同网页中的适用性更强,抽取的性能更高.

4 结束语

本文提出了一种基于文本标点密度连续和的抽取算法,TPDS算法操作简单,无需训练和人工干预,可用于多源、异构、海量的网页正文内容抽取,在不同的数据集上的测试结果表明.与其他算法相比,抽取性能更高、适用性更强.

然而,基于文本标点密度连续和的抽取算法仍有较大的提升空间.本文中设计的算法仅是基于文本标点密度,連续标签与连续文本块的特征来选取最佳文本块.是否可以与网页中其他的特征进行融合,进一步提高抽取的性能、准确性以及实用性,是进一步研究的重点.

参考文献（References）：

[1] CNNIC.第43次中国互联网络发展状况统计报告[R]. 北京：中国互联网中心,2019.

[2] 刘鹏程,胡骏,吴共庆.基于文本块密度和标签覆盖率的网页正文抽取[J].计算机应用研究,2018.35（6）：1645-1650.

[3] 姬鑫,钟诚.基于分块的新闻网页信息抽取算法[J].计算机应用与软件,2015.32（4）：317-322.

[4] Hassan A.Sleiman,Rafael Corchuelo. TEX： An efficient and effective unsupervised Web information extractor[J]. Knowledge-Based System,2013.39：109-123

[5] 李伟男,李书琴,景旭,等.基于模拟退火算法和二阶HMM的Web信息抽取[J].计算机工程与设计,2014.35（4）：1264-1268

[6] 刘利,戴齐,尹红风,贾真,胡万亭.基于多特征融合的网页正文信息抽取[J].计算机应用与软件,2014.31（7）：47-49+77

[7] Liu Qingtang,Shao Mingbo,Wu Lingjing,et al.Main Content Exraction from Web Pages Based on Node Characteristics[J].Journal of Computing Science and Engineering,2017.11：39-48

[8] Carey H J,Manic M.HTML web content extraction using paragraph tags[C]//IEEE, International Symposium on Industrial Electronics.IEEE,2016：1099-1105

小结,上文是关于经典标点专业范文可作为文本和标点和密度和连续和网页和正文和抽取方面的大学硕士与本科毕业论文标点论文开题报告范文和职称论文论文写作参考文献.

标点引用文献: