一、简介
- 目前信息检索存在的挑战:
- 网络上信息数量巨大,增长速度快
- 必须有效利用存储空间(存储索引和文档)
- 信息更新速度快,需要快速抓取技术(Fast crawling technology)
- 用户数量巨大,而且缺乏搜索经验
- QPS更高
- 人工维护话题成本巨大、包含主观因素
- 依赖关键字匹配,返回数据质量不高
- 网络上信息数量巨大,增长速度快
- 谷歌的设计目标
- 提升查询质量
- 建设合理数量的人可以使用的系统
- 建设一个支持大规模网络数据研究活动的架构
二、系统特征
- 系统产出高精确率的结果,满足两个特征:
- 通过链接结构计算每个页面的质量排名(PageRank)
- 利用链接改善搜索结果
2.1 PageRank:为互联网带来秩序
2.1.1 计算描述(下篇博客详细介绍)
- 计算公式:
- PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
- d为阻尼系数(0-1之间,一般选择0.8)
- C(T1)表示从T1流出的链接数
- A有n页,分别为T1-Tn
2.2.2 选用pagerank的理由
- 代表了用户行为模型;
- 如果很多页面都指向了同一个页面,则该页面的pagerank值很高;
- 如果一个pagerank值很高的页面指向了另外一个页面,则这个页面的pagerank也高;
2.2 Anchor Text:链接文本
- 大多数搜索引擎将链接的文本与链接所在的页面相关联。此外,我们将它与链接指向的页面相关联。
- 使用原因:
- 通常提供比网页本身更精确的网页描述,可以提供更高质量的搜索结果;
2.3 其他特征
- 位置信息
- 字体大小
- HTML页面数据
三、相关工作
省略
四、系统解剖
主要应用程序:爬行器(crawlers)、索引器(indexer)和搜索器(searcher)