彩票平台 分类>>

官网合法彩票平台_赛车_时时彩_体彩【官方推荐】正则表达式在网页数据采集的应用与研究

2025-12-29 17:22:34
浏览次数:
返回列表

  时时彩平台,腾讯分分彩,北京赛车,北京赛车pk10,北京赛车pk10技巧,幸运飞艇,彩票平台推荐,飞艇开奖,幸运飞艇官网,大发彩票,彩票平台推荐,500彩票,六合彩,大乐透,双色球,体彩足球,体育彩票

官网合法彩票平台_赛车_时时彩_体彩【官方推荐】正则表达式在网页数据采集的应用与研究

  内蒙古大学硕士学位论文一章绪论,,课题的背景及研究目的……,录,,课题的研究现状…………一……一…,,,,,,基于模版的网页内容提取算法…………………………一…………,,,,,基于语义信息的网页内容提取算法…………………一……一…一,,,,,基于视觉的网页内容提取………………………………一………一,,,相关技术简介……………………………,………………………………,,,,,,网页读取技术简介,……………一………………………一……一,,,,,正则表达式技术简介一……………………一…………,………一,,,本章小结………………一…………一………………………一…一…一,二章正则表达式的使用与优化分析……………………………………………一,,,,,,,,,,,,,工具使用说明一……………………一…………,………一,,,,优化,,,,,引擎下基于表达式的正则优化…………………,………,,,,,优化,,结合,,,引擎与,,,引擎的正则优化,,,正则表达式优化结果比较与分析一…一一…………………一…………,,,,,本章小结……一…,,第三章实例分析……一,,,,,,,,,,,,学术采集,………一……一……………,,,,系统数据库设计,,,…………………………………………………………,,,,,,,逻辑结构设计………一…………一……一…一……………………,,,,,,采集结果数据表…一………………………………一…一…………,,,,系统功能与编程实现, ,, ,采集系统的设计………………………,……一……………………,,, ,, ,系统主界面与功能模块说明……一…………………一一…………,,, ,, ,系统编程实现…………………, ,本章小结………………………………………………………一…………一,,四章实例分析……一澳客网彩票投注采集…………………一………………一,

  正则表达式在网页数据采集的应用与研究, ,系统数据库设计…………………………………,………………………,,, ,, ,逻辑结构设计……………………………,…一…………………一,,, ,, ,采集结果数据表……………………………………………………一,,, ,系统功能与编程实现………………………………………………………,,, ,, ,采集系统的设计……………, ,, ,系统主界面与功能模块说明………………………………………,,,, ,, ,系统编程实现……………,, ,, ,采集数据的数据挖掘…………………………一…………………一,,, ,本章小结………………………………………………………一………一,,五章结论与展望………………………………………………………………一,,, ,本文工作总结……………………………………,………………………,,,, ,下一步展望…………一………一考文献一………………………一一…一………一…………一……一………,,,谢…,………………………………一…………一…,………………………,,,,

  正则表达式在网页数据采集的应用与研究,,网页中的内容除了包括与主题有关的正文信息外,还存在一些与正文关的噪音信息,这些噪音信息增加了正文内容的自动搜索和获取的度,降低了数据抽取的准确性和效率,,,网页组织形式自由多变且不严格,一些针对特定结构网页所编写的抽规则往往不能适应新网页的抽取。数据量不大的情况下,通常的做法是网页指定部分的手工复制、粘贴,格整理后,再将数据导入数据库中。如果大数据量情况下, 巨大的工作量使得手操作变得不现实,根本无法完成。本文就是研究如何自动读取网页,编写正则达式,,,,,,,,,,,,,,,,,,, 即制定规则,匹配、抽取出指定内容,导入,,,,,,中,以前的手工工作通过程序自动实现。, ,课题的研究现状前在这个领域已经发表了很多的研究成果,分类方法也各有不同,文献,,】出目前主流有三大类的研究方法,一种是基于模板的网页内容提取的方法,一种基于语义信息的网页内容提取,另一种为基于视觉的网页内容提取算法。但目还没有一种方法能适用于所有的网页内容提取,没有达到人们所期望的程度,此还要不断地研究和改进。, ,, ,基于模版的网页内容提取算法献【 ,】 ,,】指出基于模板的网页正文提取算法依赖于,,,,内部结构特征。该法设定提取的,,,同类网页中有着相似的结构特征, 即,,,树,,,,,,,,,,,,,,,,,,,结构是类似的。可以通过模板定制来获取同类网页的内容。基于模板的网提取一般是使用分装器,,,,,,,,,来抽取网页中正文数据。分装器是一个分析程,该程序根据网页的页局特征,制定模板,写分析器,解析出指定的内容在面中的位置, 即它根据特定的信息模式从信息源中抽取出需要匹配的内容,并加展示。板方式需要对特定的网页进行模板配置,抽取模板中设置好的需要的信息,以针对有限数量的网站信息进行精确地采集。其优点是简单、准确、技术难度内蒙古大学硕士学位论文,方便快速部署。其缺点是需要对每一个信息源的网站模板进行度地设定。如信息源是多样性情况下,维护量巨大。所以这种方式适合少量信息源的信息处,不是搜索引擎级的应用。于模板的网页正文提取方法的重点和难点是如何确定以及维护模板,,,,,,,如何生成。 ,,,,,,,的生成和维护都是费时费力的。 目前研究人员人仍在究如何高效的构建分装器。使用基于模板的网页正文提取算法可以快速的提取格式较为规则的网页正文内容,一旦模板制定,抽取速率很快。但是模板的制过程复杂而且耗时很大。 同时基于模板的网页正文提取算法都是线性的处理,,,文档,通过字符串模式匹配到关键信息,而忽略了,,,,文档本身的语法。时字符串模式很难保证匹配的准确性。为了改进网页正文内容提取的效率,研人员提出了基于语义信息的网页正文提取方法。, ,, ,基于语义信息的网页内容提取算法谓的语义信息是指除了网页中的视觉信息,字体大小,颜色,背景色等信,之外的所有信息。包括,,,,的标签信息, 网页的文字信息, ,,,,的,,,信息。文献,,】指出基于语义信息的网页内容提取方法可以分为两类,一类是基去除,,,,标签的网页正文提取算法,另一类是基于统计的建立,,,树的网正文提取算法。于去除,,,,标签的网页正文提取算法,于去除,,,,标签的网页正文提取算法是一种不必建立,,,树的网页正提取算法,,, 【 ,】 。该算法的主要思想是首先去除,,,,标签,根据去除,,,,签后的文字密度判断出正文区域。最后将所有的正文区域合并,取得网页正文容。下面详细介绍具体的算法流程,一步首先需要去除,,,,标签和,,,,,,,,,,代码。采用正则表达式与栈的合去除,,,,的标签和,,,,,,,,,,代码。例如对于,,,,,,,,…,, ,,,,,,,这种类型标签,使用正则表达式,,,,,,,,, ,,, ,,,,,,,去除标签以及标签中的内容,对于,,,,…,,,,,…,, ,,,,,, , ,,,,这种类型,使用栈,完成按顺序取出,,,,中的非标文字的需求。二步根据去除,,,,标签后的文字密度获得正文区域。对于去除,,,,标内蒙古大学硕士学位论文。该算法的输入为,,,,源代码, ,,,,的视觉属性,需要修改浏览器的内核,得浏览器提供视觉属性接口,便于开发者获得,,,,的视觉属性,。献,,,该算法的流程大体分为三步,首先根据视觉信息和,,,,源代码将网分割为多个页面块,分块的过程是一个迭代的过程,初始化页头为,块, 中间一块,页脚为一块。然后将中间块分割为更多的小的页面块。其次当分块完成,需要对页面块与页面块之间的分隔条,水平和垂直方向分隔条,赋予权值,于分析页面块之间的关联性。最后,需要根据分隔条的权重进行页面合并,将小的页面进行合并,使它可以更好地体现页面的主题内容,合并结束后将最后到的这些数据块提取出来,得到网页正文内容。该算法清晰的展现出,,,页面主题内容块,完成,,,,源码与人类视觉信息的良好沟通。于视觉的网页正文提取算法充分利用了网页的框架信息和视觉信息,相比基于语义信息的网页正文提取算法,对于结构较为复杂,正文内容分散的网页以提高提取的准确性。基于视觉的网页正文提取算法也有其先天不足之处,先,基于视觉的网页正文提取算法需要多次的迭代,最后需要语义块的合并。比于基于语义信息的网页正文提取算法其迭代次数较多,实现起来更为复杂增了时间复杂度。次, 网页视觉信息的提取是费时费力的。因为网页视觉信息的获取与浏览本身, ,,,文件, ,,,,,,,,,,文件有关,获取视觉信息之前需下载这些文件,之浏览器的内核将调用这些文件,最后从浏览器的对外接口中获取网页的视觉信。这个过程依赖于浏览器的内核,,,代码, 同时非常耗时。 目前某些已经实现,,,,算法是在,,,,,,,编程环境下实现的,实现中调用,,,,,接口,而该算的发现者微软使用的是修改后的,,内核,使得,,内核可以提供相应的网页视觉息提取接口。 ,,,,在,,,,,编程环境下, 目前只有,,,,,,,,,,,, , ,,,浏览器的源码开放,如果需要在,,,,,环境下实现网页视觉信息提取,需要修改,,,,,,,的代码,这样在通用性和可扩展性方面的优势降低。, ,相关技术简介课题开发软件环境是,,,,,,,,操作系统。在, ,,, ,,,,,,,,,,,,,,, ,,,,,,,,,,,,,,平台下,开发语言是,≠,,分别做了,, ,和,, ,结构的,个版本。正则表达式在网页数据采集的应用与研究于,,,引擎的,,,使用开发语言为,,,, 因此本文程序代码也少量使用了,,,。课题的硬件平台为,,,,,,,,,,,,,,, ,,,,,, 内存,,,,,,, ,,,。, ,, ,网页读取技术, ,,,平台下获取网页内容或读取网页主要有三种方法,,,】 。,,使用,,,,, ,,,,类曲,, ,,,,类位于,,,,,,, ,,,命名空间下, ,,,,, ,,,,类提供想,,,标的任何本地、 ,,,,,,,资源发送数据以及从这些资源接受数据的公共方法。码示例如下,,,通过,,,,,,,,,,控件获取网页内容,,,,,,,,,是一个, ,,,控件类, ,,,,,,,,,,类使用户可以在窗体导航网页。用,,,,,,,,,,控件可以在,,,,,,,窗体应用程序中承载网页以及持浏览器的其他文档。例如,可以使用,,,,,,,,,,控件在应用程序中提基于,,,,的集成用户帮助或,,,浏览功能。,,,,,,,,,,控件会占用大资源。码示例如下,,,——————————,,,■————,, ‘ ’初始化,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, ,,,,,,,,,,,新实例,,,,,,,,,,亿哭,,,,,, ,,,,,,,, ,,,,,, , ,打开网页,, ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,。 ,,,,,,,,,,,,,,,,,,,,,,,,,, ‘,,,,,,,,,七,,,,,,,,,,,,,,,,。 ,,,,,,,,,,,,,,,,,,, ,,,,,,, , ,获取网页数据,,, ,,,,,,,, ,,,,,,,,,,,,,,,,,,,,—, ‘” ,,乏, ,,,” ,, , ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, ,,,,,,,,,,,,,,,, ,,,,,,,,,, ‘ ,,,, ,,,,,,,,,,” ,,” ,, ,内蒙古大学硕士学位论文,,使用,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,和,,,,,,,,,,,,,,,类是用于发送和接收,,,,数据。用,,,,,,,,,,,,,,, ,,,,,,,,,,,方法返回的是一个,,,,,,,,,,,,,,,象。可以把,,,,响应的数据流,,,,,,,,绑定到一个,,,,,,,,,,,,对,然后就可以通过,,,,,,,,,,方法把整个,,,,响应作为字符串取回。码示例如下,于返回值是字符串,便于下一步正则表达式处理, 因此在本文中网页取采用的就是这种方式。, ,, ,正则表达式技术简介编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串需要。正则表达式就是用于描述这些规则的工具。换句话说,正则表达式就是录文本规则的代码。正则表达式使用单个字符串来描述、匹配一系列符合某个法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那符合某个模式的文本。模式匹配和数据提取使用正则表达式将变得不再是一件难的事情。单而言,正则表达式主要,个作用,,,匹配,给定的字符串是否符合正则表达式的过滤逻辑,,提取,可以通过正则表达式从字符串中获取我们想要的特定部分则表达式的匹配都是通过正则表达式引擎实现的。正则表达式引擎分为两正则表达式在网页数据采集的应用与研究,,,,,表达式主导的基于,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,非确定有穷状态自动机,和文本主导的基于,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,定型有穷状态自动机,的引擎。也有一些系统采用了混合引擎,它们会根据任务不同选择合适的引擎,甚至对同一表达式中的不同部分采用不同的引擎, 以求功能与速度之间的平衡,。 ,,,和,,,的区别在于, ,,,对于一个状态和一个输,一定会有一个唯一的后续状态,而,,,可能有多个状态,也可能没有。一般说, ,,,正则在编译的时候花的时间会多一点,但是在匹配的时候会更快一点。,,引擎在生产环境里使用较多。正则表达式的引擎分类如表,, ,所示,, ,则表达式引擎分类 ,,,,, ,,,,,,,,,,,,,,,,,,,,,,’ ,,,,,,,,,,,,,,,,,,,,,,,,部分版本,,,,,,,,,大部分版本,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,大部分版本,,,,,,内蒙古大学硕士学位论文式修改为,,木,” , 即懒惰模式,,,,,,,,,。般情况下, ,,,,文本主导的,,,引擎速度快。正则表达式主导的,,,引擎,为需要对同样的文本尝试不同的子表达式匹配,可能会浪费时间。在,,,的匹过程中, 目标文本的某个字符可能会被正则表达式反复检测很多遍,每一个字被检测的次数不确定,所以,,,叫做不确定型有穷自动机,。相反, ,,,引擎在配过程中目标文本中的每个字符只会最多检查一遍,每个字符被检测的次数相确定,所以,,,叫做确定型有穷自动机,。 由于,,,取得一个结果可能有上百种径,但是因为,,,能够同时记录它们,选择哪一个表达式并无区别,也就是说改变写法对于效率是没有影响的。而,,,是表达式主导,改变表达式的编写方可能会节省很多功夫。引擎能提供一些,,,不支持的功能,最常见的捕获括号反向引用。正则表达式最理想的情况是能够兼具,,,的速度和,,,的功能。, ,本章小结章介绍了本课题的研究背景和研究目的。介绍了本课题目前的研究现状,绍了目前主流有三大类的研究方法,一种是基于模板的网页内容提取的方法,种为基于语义信息的网页内容提取,另一种为基于视觉的网页内容提取算法。绍了三种方式的优缺点, 目前还没有一种方法能适用于所有的网页内容提取,有达到人们所期望的程度。本章还介绍了本文在网页采集、定制内容提取所使的技术,简要介绍了, ,,,平台下采集网页的三种技术,分别为使用,,,,, ,,,,、通过,,,,,,,,,,控件以及使用,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,进行网页取,简单分析了三种方式的特点。最后介绍了正则表达式基本概念、功能,匹与提取,以及正则引擎的分类。表达式主导的基于,,,引擎和文本主导的基于,,引擎以及个别系统采用的混合引擎。本章最后简要介绍了引擎的特点和适用场。正则表达式在网页数据采集的应用与研究二章正则表达式使用与分析, ,,,,,,,,,,,工具使用说明杂的正则表达式的生成和测试是一件令人头疼的事情。 ,,,,,,,,,,,是一个助的正则表达式测试生成工具。它不仅可以帮助理解他人写的复杂的正则式,能很方便快捷地写出符合自己需求的表达式,它甚至可以生成符合你所使用编语言的正则源代码。该工具提供匹配、分解、替换字符串的功能,一目了然地到匹配的捕获组的内容, 图形化地一步一步地展示匹配过程,是一个非常优秀生成与测试正则表达式的工具。,, ,是,,,,,,,,,,,功能菜单、表达式输入等功能的说明图—话磊两矗,,∞,,鬈, 。 ,,二,,,,,, ,馨,, ,一 ,,,,, ,,苫,酬,槽糖腑字符翠,二,磊, ,,,,,, 。 。 ,☆神 ‘ 。膏,。 ,。 ,蛔,娃泔。 , 单 ,,口兰萋鍪蹩,幕囊熏藏簿篓兰, ,黜,毒,麓正刊熹迂菇轼 区,日。 ,…,国,,¨ ,一,一,抽,睁㈠,、谣, ●醉函,舔专渤一,,,÷》 ,,黼 ,, ,,, ‘●,,,,,, ,暖遁釜蚤酮圉, ,,,,二,㈣,㈣,,, ,磊,瞄譬,,, , …,,,‰,’ ,,, ,,Ⅲ, ,Ⅲ,‰№, ‘ ,, ,,,¨ ,,,,,’…兰,二竺生二………孽,, , ” ,,,” ,, ,,州,,,” ,,, ‘,,警丐, ” “ “。…“…。 “ “ “ “ “” 。 ’∞, , , , , ,七,,,,, 【妻≈是琢牲平,,,,一,,一,,鹊】 争售最髓一壹彰是王妻,,,,一,,—,,鞲孥,三一盘遥二莲攫,,, ,一, ,, ,睇,川 。 ,‘,№,, ‘,…,,,,,…壹毫。星瑞,,,, ,,,,,糍簪,主,童话足谨,,…,,,,, ,。 ,…,, ,协,帆,…,。 ,,, ,,,,“ ,,”…,,,,,’ 【睡喾鼍鱼毛三是棼奇悄数,嚣。一篡,薏遵, 白苣塞垂量,,,嚣伯,,,, , , , , , ” , ,譬, ‘冀’ ÷竺,, , , , , …一,,, 。 ,。 ,, ,, ,, ,,,。 ,。 , ,” ,三, , , , , , , ≥,毛,,幂奠一,斥蠹两, , ,军, ,, , , , , , ,竺, , ,, , , , , ,嚣竺, , ,, , , , , , , , ,, , , , , ,, , , , ,, ,美, , , , ,嚣,嚣, ≤冀三, ’ ,, 《 ,,,,…,“ ,,,,,,,,, ,,,’ ,,,,,。 , ,,,,,,,一 , ,,,’加—上己——,, 目,鹰否, ,,蕊, ,■,, 『,,—薹累幕,薹, , ,耵—的正剜语印,氟辅潮,措爨,纂意鼍,,∞一。 , 辩笨勒,———————,箍舻晦赫黼耐尾耍尔 ,,舞攫,糖,————————一拇鲁瓦,,籀黼克薯器粤 ,,雒铀特, ,,,,,,,,,,,主界面与功能区说明,,,,,,,, ,,,,,,,,,,,。 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,功能菜单区,提供了,,,,,、 ,,,,,,,、 ,,,,,三个主要功能,完成匹配、换、分解字符串的功能。,,正则表达式输入区,该区域内输入测试的正贝仆表达式。绿色部分位捕获组,蓝色说明有量词存在。,,源字符串区,该区域内为需要测试的源字符串,在本文中是需要匹配的,

搜索