千果论文网
论文范文
千果论文网免费提供各类论文范文,专注 毕业论文、职称论文!7年服务经验,质量保证!
当前位置:千果论文网 >> 论文下载 >> 论文格式范文 >>浏览文章
分析算法互联网上少数民族信息统计的关键技术毕业论文标准格式
已成为海量信息的载体。搜索引擎的出现为人们利用互联网提供了较好的便利性,同时也成为探讨网站用户行为的有效工具。近年来伴随着网络的兴起,民族不足是困扰我国进展的一大障碍,其在互联网中的传播也愈来愈突出。如何运用已有搜索引擎对互联网中民族不足的传播进行监督成为目前网络舆情监控的一大课题。本论文着重对网络中民
摘要:随着网络的迅速进展,互联网已成为海量信息的载体。搜索引擎的出现为人们利用互联网提供了较好的便利性,同时也成为探讨网站用户行为的有效工具。近年来伴随着网络的兴起,民族不足是困扰我国进展的一大障碍,其在互联网中的传播也愈来愈突出。如何运用已有搜索引擎对互联网中民族不足的传播进行监督成为目前网络舆情监控的一大课题。本论文着重对网络中民族不足特定信息提取面对的关键技术进行探讨。本论文首先介绍了聚焦搜索引擎及相关关键技术进展概况及原理,重点介绍了常见的网页分类算法、网页关键信息提取及抓取对策,为本论文所设计的基于搜索引擎的聚焦爬虫算法及实现提供论述基础。搜索引擎搜索结果并不能完全与用户的需求匹配,且在某些情况下给出的搜索信息量显著不足。由此对搜索引擎搜索结果进行进一步聚焦搜索具有一定的价值。互联网中信息主要以HTML页面形式出现,而HTML具有显著的分类特点。网页代码中大量的信息与搜索信息关联度很低,使得优化网页代码搜索机制显得极其重要。由于搜索的目的性较强,使得搜索的要求,如对特定事件中网页的共同特点,具有显著的结构化,由此选用空间向量对网页代码进行简化,并基于向量空问模型对不足进行算法设计。算法首先将模型分为两大模块,百度搜索模块和聚焦搜索模块。百度搜索模块通过算法实现对搜索词在百度搜索引擎上进行抓取搜索结果对应的URL等信息,得到相应的初始URL队列;聚焦搜索模块实现以此初始URL队列作为起点,基于空间向量模型通过KNN分类算法在网络中实现聚焦爬虫搜索,得到相应的搜索结果。最后本论文完成对算法的初步实现,并对结果进行简要统计浅析。通过搜索结果中所含信息的特点与社会中影响网络传播的事件进行浅析,得到搜索结果与社会中敏感信息来源匹配,证明搜索结果的可操作性和有效性,为算法实现的进一步优化提供数据支持。 关键词:聚焦搜索论文 舆情监控论文 网页分类论文 向量空间模型KNN分类算法论文
本论文由http://www.qqg88.com整理提供,需要 论文可以联系客服人员哦。

    摘要2-4

    Abstract4-7

    目录7-8

    第一章 绪论8-16

    第一节 课题探讨背景8-9

    第二节 国内外探讨近况9-14

    一、聚焦爬虫探讨近况9-10

    二、网页分类探讨近况10-11

    三、网页关键信息抽取探讨近况11-13

    四、网页抓取对策探讨近况13-14

    第三节 VC 6.0平台14-15

    第四节 本论文所做的工作15-16

    第二章 相关关键技术16-24

    第一节 聚焦爬虫相关技术16-17

    第二节 网页分类17-21

    一、支持向量机18

    二、贝叶斯分类算法18-19

    三、KNN分类算法19-21

    第三节 网页关键信息提取21-22

    第四节 网页抓取对策22-24

    第三章 基于向量空间模型的算法设计24-30

    第一节 向量空间模型24-26

    第二节 与算法有关的相关定义26-27

    第三节 算法的系统结构27-28

    第四节 算法的模块化实现28-30

    第四章 相关算法的实现30-42

    第一节 实现百度搜索中提取相关URL30-35

    一、通过关键词对单页源码中URL提取的实现31-33

    二、对单个关键词进行URL提取33-34

    三、对多个关键词进行URL无重复提取34-35

    第二节 聚焦搜索准备35-38

    第三节 聚焦搜索实现38-40

    第四节 对抓取结果的统计浅析40-42

    第五章 总结与展望42-44

    参考文献44-47

    攻读学位期间发表的学术论文目录47-48

    致谢48-49

千果论文网专注 毕业论文与职称论文以及论文 表业务,如有需要请联系客服人员!