Posted by 新宇的博客 on July 29, 2021

一、简介

  • 目前信息检索存在的挑战:
    • 网络上信息数量巨大,增长速度快
      • 必须有效利用存储空间(存储索引和文档)
      • 信息更新速度快,需要快速抓取技术(Fast crawling technology)
    • 用户数量巨大,而且缺乏搜索经验
      • QPS更高
    • 人工维护话题成本巨大、包含主观因素
    • 依赖关键字匹配,返回数据质量不高
  • 谷歌的设计目标
    • 提升查询质量
    • 建设合理数量的人可以使用的系统
    • 建设一个支持大规模网络数据研究活动的架构

二、系统特征

  • 系统产出高精确率的结果,满足两个特征:
    • 通过链接结构计算每个页面的质量排名(PageRank)
    • 利用链接改善搜索结果

2.1 PageRank:为互联网带来秩序

2.1.1 计算描述(下篇博客详细介绍)

  • 计算公式:
    • PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
    • d为阻尼系数(0-1之间,一般选择0.8)
    • C(T1)表示从T1流出的链接数
    • A有n页,分别为T1-Tn

2.2.2 选用pagerank的理由

  • 代表了用户行为模型;
  • 如果很多页面都指向了同一个页面,则该页面的pagerank值很高;
  • 如果一个pagerank值很高的页面指向了另外一个页面,则这个页面的pagerank也高;

2.2 Anchor Text:链接文本

  • 大多数搜索引擎将链接的文本与链接所在的页面相关联。此外,我们将它与链接指向的页面相关联。
  • 使用原因:
    • 通常提供比网页本身更精确的网页描述,可以提供更高质量的搜索结果;

2.3 其他特征

  • 位置信息
  • 字体大小
  • HTML页面数据

三、相关工作

省略

四、系统解剖

主要应用程序:爬行器(crawlers)、索引器(indexer)和搜索器(searcher)

4.1 google整体架构