搜索引擎技术[编辑]
简介:
现有的搜索引擎技术主要有:自由词全文检索、关键字检索、分类检索及其他特殊信息检索。
索引技术:
编辑索引技术是搜索引擎的核心技术之一。搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库,而中文搜索引擎的核心是分词技术。分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备。具体有如下几点:
1.存储语法库,和词汇库配合分出句子中的词汇;
2.存储词汇库,要同时存储词汇的使用频率和常见搭配方式;
3.词汇宽,应可划分为不同的专业库,以便于处理专业文献;
4.对无法分词的句子,把每个字当作词来处理。
处理技术:
1.按频次排定次序。
2.按页面被访问度排序 在这种方法中,搜索引擎会记录它所搜索到的页面被访问的频率。
3.二次检索 进一步净化(比flne)结果,按照一定的条件对搜索结果进行优化,可以再选择类别、相关词进行二次搜索等。
但是这种处理技术还不具有智能性。
智能技术:
网络机器人(Robot)又被称作Spider、Worm或Random,核心目的是为获取Internet上的信息。
1.机器人从起始URL列表中取出URL并从网上读取其指向的内容;
2.从每一个文档中提取某些信息并放入索引数据库中;
3.从文档中提取指向其他文档的URL,并加入到URL列表中;
4.重复上述3个步骤,直到再没有新的URL出现或超出了某些限制;
5.给索引数据库加上检索接口,向网上用户发布或提供给用户检索。
还有搜索算法一般有深度优先和广度优先两种基本的搜索策略
量贩式搜索引擎优化是:网络技术、数据库技术动标引技术、检索技术、自动分类技术,机器学习等人工智能技术。
搜索应用:
1.政府应用
2.企业运用
3.媒体应用
4.行业应用
5.网络信息的监督监控
网络营销词典内容均由网友提供,仅供参考。如发现词条内容有问题,请发邮件至info # wm23.com。