google搜索原理论文上(内容枯燥但非常有用)
日期:2007年10月4日 作者: 查看:[大字体 中字体 小字体]-
5.1存储需求除了搜索质量,Google的设计可以随着Web规模的增大而有效地增大成本。一方面有效地利用存储空间。表1列出了一些统计数字的明细表和Google存储的需求。由于压缩技术的应用知识库只需53GB的存储空间。是所有要存储数据的三分之一。按当今磁盘价格,知识库相对于有用的数据来说比较便宜。搜索引擎需要的所有数据的存储空间大约55GB。大多数查询请求只需要短反向索引。文件索引应用先进的编码和压缩技术,一个高质量的搜索引擎可以运行在7GB的新PC。
5.2系统执行搜索引擎抓网页和建立索引的效率非常重要。Google的主要操作是抓网页,索引,排序。很难测试抓全部网页需要多少时间,因为磁盘满了,域名服务器崩溃,或者其它问题导致系统停止。总的来说,大约需要9天时间下载26000000网页(包括错误)。然而,一旦系统运行顺利,速度非常快,下载最后11000000网页只需要63小时,平均每天4000000网页,每秒48.5个网页。索引器和网络爬行机器人同步运行。索引器比网络爬行机器人快。因为我们花费了大量时间优化索引器,使它不是瓶颈。这些优化包括批量更新文档索引,本地磁盘数据结构的安排。索引器每秒处理54个网页。排序器完全并行,用4台机器,排序的整个过程大概需要24小时。
5.3搜索执行改进搜索执行不是我们研究的重点。当前版本的Google可以在1到10秒间回答查询请求。时间大部分花费在NFS磁盘IO上(由于磁盘普遍比机器慢)。进一步说,Google没有做任何优化,例如查询缓冲区,常用词汇子索引,和其它常用的优化技术。我们倾向于通过分布式,硬件,软件,和算法的改进来提高Google的速度。我们的目标是每秒能处理几百个请求。表2有几个现在版本Google响应查询时间的例子。它们说明IO缓冲区对再次搜索速度的影响。 6结论 Google设计成可伸缩的搜索引擎。主要目标是在快速发展的World Wide Web上提供高质量的搜索结果。Google应用了一些技术改进搜索质量包括PageRank,链接描述文字,相邻信息。进一步说,Google是一个收集网页,建立索引,执行搜索请求的完整的体系结构。
6.1未来的工作大型Web搜索引擎是个复杂的系统,还有很多事情要做。我们直接的目标是提高搜索效率,覆盖大约100000000个网页。一些简单的改进提高了效率包括请求缓冲区,巧妙地分配磁盘空间,子索引。另一个需要研究的领域是更新。我们必须有一个巧妙的算法来决定哪些旧网页需要重新抓取,哪些新网页需要被抓取。这个目标已经由实现了。受需求驱动,用代理cache创建搜索数据库是一个有前途的研究领域。我们计划加一些简单的已经被商业搜索引擎支持的特征,例如布尔算术符号,否定,填充。然而另外一些应用刚刚开始探索,例如相关反馈,聚类(Google现在支持简单的基于主机名的聚类)。我们还计划支持用户上下文(象用户地址),结果摘要。我们正在扩大链接结构和链接文本的应用。简单的实验证明,通过增加用户主页的权重或书签,PageRank可以个性化。对于链接文本,我们正在试验用链接周围的文本加入到链接文本。Web搜索引擎提供了丰富的研究课题。如此之多以至于我们不能在此一一列举,因此在不久的将来,我们希望所做的工作不止本节提到的。
6.2高质量搜索当今Web搜索引擎用户所面临的最大问题是搜索结果的质量。结果常常是好笑的,并且超出用户的眼界,他们常常灰心丧气浪费了宝贵的时间。例如,一个最流行的商业搜索引擎搜索"Bill Clillton"的结果是the Bill Clinton Joke of the Day: April 14, 1997。Google的 设计目标是随着Web的快速发展提供高质量的搜索结果,容易找到信息。为此,Google大量应用超文本信息包括链接结构和链接文本。Google还用到了相邻性和字号信息。评价搜索引擎是困难的,我们主观地发现Google的搜索质量比当今商业搜索引擎高。通过PageRank分析链接结构使Google能够评价网页的质量。用链接文本描述链接所指向的网页有助于搜索引擎返回相关的结果(某种程度上提高了质量)。最后,利用相邻性信息大大提高了很多搜索的相关性。
6.3可升级的体系结构除了搜索质量,Google设计成可升级的。空间和时间必须高效,处理整个Web时固定的几个因素非常重要。实现Google系统,CPU、访存、内存容量、磁盘寻道时间、磁盘吞吐量、磁盘容量、网络IO都是瓶颈。在一些操作中,已经改进的Google克服了一些瓶颈。Google的主要数据结构能够有效利用存储空间。进一步,网页爬行,索引,排序已经足够建立大部分web索引,共24000000个网页,用时不到一星期。我们希望能在一个月内建立100000000网页的索引。 - 上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] 下一页
-
- google搜索原理论文上(内容枯燥但非常有用) 相关文章:
- ·用ASP+Access制作论坛教程
- ·AutoCAD各大论坛技巧精华集
- ·论语精萃:论语名言警句(论语中的名言名句)
- ·ASP制作学生档案管理系统(毕业论文)
- ·个人网站研究论文:个人网站发展的历程
- ·google搜索原理论文上(内容枯燥但非常有用)
- ·经典言论爱情妙语
- ·侵入最大的六合彩论坛系统---六合专用BBS
- ·硬盘修理理论知识
- ·各大论坛总结和地址
- google搜索原理论文上(内容枯燥但非常有用) 相关软件
- ·驾照理论考试速成 V7.1 免费版
- ·100分驾照理论0.01
- ·机动车驾驶员理论科目考试仿真软件 V9.0
- ·机动车驾驶员理论考试模拟系统(全国通用版) V6.0
- ·论犯罪与刑罚(英文)
- ·论坛卡通QQ头像
- ·论语·论语集注
- ·优易得机动车驾驶理论考试 V4.9_Build070911a
- ·君王论(exe版)
- ·辩论计时器 V0.51
- 特别声明:本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作
- 者.文章版权归文章原始作者所有.对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转
- 载的文章有版权问题请联系编辑人员,我们尽快予以更正. 转载请注明来源:http://www.hackhome.com
上一篇:域名注册的创意四大法则
下一篇:起名字网站
精品推荐
热点TOP10
- ·Google中文地图开始支持我的地图
- ·google搜索原理论文上(内容枯燥但非常有用)
- ·google maps api document 中文翻译
- ·Google的技术剖析:
- ·google的分析(analytics)js代码分析以及重写
- ·《Google排名技巧》共十五课学习笔记
- ·google pr更新时间
- ·活学活用Google
- ·C# Google PageRank .net库 (checksum)
- ·Google的AdSense服务在中国的部分合作网站分布及流量
- ·Google注册域名大全
- ·总结:Google使用技巧
- ·GOOGLE搜索高级技巧大集合
- ·google 相关关键词查询
- ·两行代码在任意页面实现谷歌卫星图
- ·Google入门到精通
- ·搜索“涉黄” Google台湾站拒绝修改
- ·Google 的秘密- PageRank
- ·Google邮局申请即开通的秘诀
- ·Google靠什么赚钱?
