/* */

关于搜索引擎技术的发展和思考

2019-11-16| 发布者: admin| 查看: |

随着互联网、大数据等新技术的快速发展和广泛应用,人们对数据的需求进一步提高,促使数据的获取、改造、利用效率不断加强,基于此背景,搜索引擎得到了飞速发展。搜索引擎技术发展至今已有百年历史,本文将从时代背景出发,通过原理介绍及技术实现,来探索搜索引擎技术未来的发展方向。

一、搜索引擎发展背景

在高速发展的互联网时代,信息数据呈级数式增长,但在海量的信息中存在大量的非需求性信息,影响了对有效信息资源的获取,因此,信息检索功能成为必要手段,搜索引擎应运而生。搜索引擎依据查询要素对数据信息进行遍历,通过检索、筛选与查询条件吻合的记录,依据特定算法对返回结果二次排列,帮助用户及时获取有效的信息。

目前,商业搜索引擎都有一个共同的特点:搜索的信息内容广泛,特别是相关的信息均呈现,造成有效信息寻找困难的局面。当前,用户对搜索引擎的需求,已经不再局限于找到信息,而是升级为快速找到专业领域、全面有效、更新及时的信息资源。

二、搜索引擎相关概念

目前,常用的搜索引擎工具包含网络爬虫、索引建立、内容检索、链接分析等相关技术。

(一)网络爬虫

网络爬虫提供基于关键字的检索和基于语义信息的查询,是一种按照一定的规则,自动抓取万维网信息的程序或者脚本,可通过互联网的链接顺序爬取及收集相关网页内容。根据爬取信息的获取方式,爬虫分为如下几类。

批量性爬虫:目标和范围是明确的,目的实现立即停止。

增量型爬虫:为应对网页不断更新及时反应。

垂直型爬虫:针对某个特定领域通过主题过滤。

暗网抓取:针对常规方式难以爬取到的网页。

(二)索引建立

索引是搜索引擎的核心关键技术,根据应用效果和存储方式的不同,主要有3种建立索引的方法。

1. 两遍文档遍历

通过扫描文档,将其包含的文档收集到临时数据集内,通过对关键字出现频次及其在海量文档中出现的全局信息进行统计,刻画该关键字的整体描述。在获取以上信息后,通过获取空间,即全局信息索引大小,将倒排索引内容存储起来并扫描遍历,生成关键字优先排列表信息。

2. 排序法

在遍历索引时,对内存的消耗较高,关键词不同,所包含的文档数量、大小也不同,当遍历文档消耗内存过大时,可能会因内存不足而导致索引创建失败。此方法用内存存放中间结果及字典信息,随着新文档的不断增加,所占内存会越来越多,为了释放内存,将排好序的序列清出内存放入磁盘,可以实现以固定内存对任意文档集合创建索引。

3. 归并法

排序能将大的文档建立索引存储起来,随着时间的推移,需要维护的字典信息越来越多,内存终将被占满。归并法对此问题做了针对性改进,除数据字典以外都会被清空并写入磁盘,从而有效避免了后续索引内存被占用的情况,保证了后续索引能够使用全部内存。

(三)内容检索

内容检索用以支撑搜索引擎对查询结果的排序,体现爬取网页和反馈结果的关联。

(四)链接分析

链接分析是网络基本的链接结构用以获得网页信息的重要步骤。谷歌公司采用的是PageRank算法,用来计算已获取的网页的PageRank值。链接分析算法主要分为两类。

随机游走:从某个网页以一定的概率跳转到其所包含的链接。

子集传播:依据规划的传播方式,分配给某子集特定的传播要求,依次将权值传递给其他链接网页。

三、搜索引擎关键技术

技术实践的过程,为搜索引擎的快速发展及关键技术的应用奠定了重要的基础。

(一)技术流程

搜索引擎的基本技术流程包括:一是收集信息,发现并确定新的资源和链接;二是对信息进行提取、分析、存储,并建立对应的索引;三是根据关键词检索,通过索引数据库文件快速检测;四是进行相关度评价,根据评价结果进行排序,并将结果返回。搜索引擎架构如图1所示。

图1 搜索引擎架构

图1 搜索引擎架构   下载原图

 

(二)技术操作

技术操作分为抓取、处理、检索、交互4个步骤。

1. 抓取网页

网页爬取程序是每一个搜索引擎的重要组成部分,定义了广度优先或者深度优先的信息收集策略。其依据超链接顺序依次提取各个网页的内容,形成完整的信息集合,在对其分析、排序后进行整体展示,称之为“网页快照”。

2. 处理网页

获得网页快照页面,必须先对获得的结果集进行一定的信息处理,以便向用户提供更便捷的信息搜索服务。主要步骤依次是:提取关键要素、建立索引、分词、去重、打分等。

3. 检索服务

关键字提交之后,系统进行分词及检索,从符合匹配的网页中根据相关度排名把搜索结果返回。

4. 用户交互

提供搜索的主入口,通过立体友好的交互界面,将技术应用到场景中,实现良好的用户体验,为用户提供高效稳定的技术支撑。

(三)关键技术

搜索引擎的关键技术是搜索和索引,这是实现用户需求的核心技术,也是建设搜索引擎的重要工具。

1. 搜索器

搜索器基于HTTP协议,广泛用于多线程并发机制。用户输入关键字后,后台系统根据策略查找库中相关网页,从索引中找到结果返回给用户,结构如图2所示。

可以利用搜索器先根据信息抓取起始网页并进行解析,提取所有带有某一标签的链接,然后,再对每一个链接进行解析并提取HTML元素,并提取关键字的有关信息,存入数据库。原理如图3所示。

2. 索引器

建立索引器能够减少查询的时间、降低CPU开销、提高查询效率。索引器根据临时数据库表建立唯一或联合索引,从数据库表中分析搜索得到的网页信息,通过分词器,将近期更新的信息利用全文搜索技术进行替换更新,把数据库表的数据转换成能够识别的文档和域。初次建立索引时需要创建,之后每次更新均向索引中添加相应文档,从而达到更新索引的效果。索引建立过程如图4所示。

图2 搜索器结构

图2 搜索器结构   下载原图

 

图3 抓取网页原理

图3 抓取网页原理   下载原图

 

图4 索引建立过程

图4 索引建立过程   下载原图

 

在用户输入关键字之后,先对用户的关键字进行分词,然后再对分词后的新关键字与索引中的文档进行匹配,根据用户关键字与文档匹配原则,对结果按照固定的优先级算法排序,排序结果返回给用户。

(四)性能指标

搜索引擎的系统性能决定系统的处理能力,性能指标由查全率、查准率、更新速度以及反馈速度等评价指标组成。

1. 查全率

查全率是搜索反馈结果中的相关内容和系统中固有的相关内容比值的体现。但当前互联网信息量巨大,查全率难以预测,可通过搜索引擎的相对查全率对其做相应的补充(搜索引擎相对索引=相关信息条数/实际检索信息条数)。

2. 查准率

查准率是检出相关条目与检出结果相比的结果,查全率与查准率是矛盾体,一个提高,另一个必然下降。因此,索引建立分词的过程要特别严格,只有做好分词,才能更好地查到准确的结果。搜索引擎根据用户习惯,一般更加注重查准率,但是无论强调哪方面,都必须统筹兼顾,因为查准建立在系统内存中,两者互为基础,不能忽视更新的内容。

3. 更新速度

当前,内容信息的及时性尤为重要,必须实时更新,否则,就会成为无用信息。搜索引擎应该及时删除失去价值的信息,对更新的信息及时入库,确保其能够随时被检索。当热,应该对有价值的信息保留,保持检索信息的有效性。

4. 响应速度

系统响应速度是用户最直接的感知。因此,评价搜索系统成败最直观、最贴切的指标就是响应时间,对于用户的选择起着决定性的作用。

四、搜索引擎未来展望

随着社会发展,搜索引擎更加注重结果的准确性、相关性,在人机交互下让客户获得更好的体验。未来,搜索引擎技术应面向更开放、更高效、更智能的趋势发展,更加强调交互性和客户友好程度。

(一)发展趋势

1. 社会化搜索

传统搜索引擎面对社交平台和众多应用系统的崛起,面临如何保持用户黏性、增强用户黏度等挑战。传统搜索引擎强调的是结果与搜索的相关性,而社会化搜索引擎更注重搜索结果的可信度,从用户心理角度出发提供更加准确且值得信赖的结果。

2. 智能化搜索

在数据优先的时代,快速满足用户定制化需求是占领应用市场的关键,因此,个性化搜索、地理感知等应用场景应运而生,所见即所需。同时,当用户的关注点发生变化时,基于历史搜索内容,自动展现用户当前想得到的信息,所得即所想。智能化搜索成为应用场景的主要关注方向。

3. 跨语言搜索

随着经济社会的发展,语言不再是障碍,用户希望搜索结果不受语言的限制,可以将母语译为想获取的语言,或通过地域分析转化为本地语言。除机器翻译、双语词典查询、双语语料挖掘方法外,能够利用更先进的搜索技术来实现语言一体化,让语言不再成为搜索的瓶颈,都将是未来搜索的探索方向。

 

4. 多媒体搜索

随着人们的文化需求不断增长,多媒体领域的搜索值得关注。对图片、音像、视频等多媒体的处理能力,可以广泛应用到多个场景中,未来应通过快速迭代的方式,不断优化搜索引擎对多媒体的关注度,进一步提升人们的生活品质。

5. 个性化搜索

在追求个性的时代,建立一套准确的个人兴趣模型,将引领搜索走向更高层次。根据用户历史浏览、社交网络、地理感知等提取关键词及权重,为不同用户提供个性化的搜索结果。而随着用户兴趣的不断变化,让机器学习用户兴趣,保持与用户一致的兴趣,将是未来搜索引擎的发展趋势。

6.垂直化搜索

综合搜索引擎虽然搜索的内容多且广,却无法满足特定的需求,而垂直化搜索引擎具有有效的信息收集政策,缩短了更新周期。有针对性关注的领域,必定促进其对核心专业知识和技术的关注,以确保信息收集的完整性。其特点是给具有相同兴趣的用户提供平台,通过交流、共享经验,实现用户满足感的最大化,以此获得更多用户的青睐。

(二)发展意义

随着科技的不断发展,搜索引擎综合利用人工智能、分布式处理、云计算等新技术手段,对信息进行全面收集和良好的去噪,从而展现更加细致、精确的检索结果,为用户创造价值。发展搜索引擎,对人类社会进步、提升社会文明及推动经济发展都具有划时代的意义。

 
QQ在线咨询
售前咨询热线
13524991327
售后服务热线
13524991327
返回顶部