Discuz! Board

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 58|回復: 0

Google 使用多种因素对搜索结果进行排名

[複製鏈接]

1

主題

1

帖子

5

積分

新手上路

Rank: 1

積分
5
發表於 2023-11-12 13:30:47 | 顯示全部樓層 |閱讀模式
我们有两个实现 PageRank 的搜索引擎。在第一个中,我们将以简单的标题讨论搜索引擎。第二个是称为 Google [BP] 的全文本搜索引擎。,包括 IR 测量、邻近度、锚文本(网页的文本链接)和 PageRank 值。尽管对 PageRank 优势的全面用户研究超出了本文的范围,但我们在本文中提供了比较实验以及一些示例结果。 PageRank 最重要的好处是针对未指定的查询。例如,在标准搜索引擎上查询“斯坦福大学”可能会返回几个提到斯坦福大学的网页(例如出版物列表),但由于使用了 PageRank,该大学的主页被列在最前面。 5.1 标题检索 为了测试 PageRank 的实用性,我们开发了一个搜索引擎,仅使用 1600 万个网页的标题信息。为了回答查询,搜索引擎会查找标题包含所有查询词的关键字。然后它按 PageRank 对结果进行排序。

该搜索引擎实施起来非常简单且便宜。在非官方测试中,它给出了非常成功的结果。如图 6 所示,搜索“大学”会加销 香港 WhatsApp 号码列表 量并强化返回顶尖大学的列表。这种形式是我们的 MultiQuery 系统,允许用户同时搜索两个搜索引擎。左边的搜索引擎是我们基于PageRank 的标题搜索引擎。显示的条形图和百分比是实际的 PageRank 值,其峰值标准化为 100%。我们可以说,本文其他地方没有使用这个百分比。右边的搜索引擎是Altavista。您可以看到 Altavista 返回随机结果以及与该单词匹配的服务器主页以响应查询“University”。(Altavista 似乎使用 URL 长度作为质量指标)。 图 6:查询“University”的比较 表 1:最高页面价值:1996 年 7 月 5.2 价值组合 基于标题的 PageRank 系统之所以如此出色,是因为标题匹配响应速度快,并且 PageRank 保证了高质量。当在网络上匹配“大学”这样的查询时,助记符并不那么重要,因为用户可以查看的内容远不止于此。对于召回率更重要的特定搜索,应根据传统的全文本信息和 PageRank 相结合来确定分数。我们的 Google 系统执行这种类型的排名合并。



众所周知,值聚合是一个非常困难的问题,需要付出大量的努力才能有机会对这些类型的查询进行合理的评估。然而,我们认为使用 PageRank 作为这些查询中的一个因素是非常有用的。 5.3 示例结果 我们已经对 Google(一个使用 PageRank 的全文本搜索引擎)进行了大量的实验。尽管大规模用户研究远远超出了本文的范围,但我们在附录 A 中提供了一个示例查询。对于更多查询,我们建议读者自行测试 Google [BP]。 表 1 显示了基于 PageRank 的前 15 个页面。该清单于 1996 年 7 月制作。在最近的 PageRank 计算中,Microsoft 在 PageRank 方面以微弱优势击败了 Netscape。 5.4 常见情况 PageRank 的设计目标之一是解决查询中的常见情况。例如,让我们记住,在像“wolverine”这样的用户查询中,密歇根大学执行所有管理功能的系统是由包含 wolverine 的学生命名的。我们基于 PageRank 的标题搜索系统返回“Wolverine Access”作为第一个结果。


回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|小黑屋|DiscuzX

GMT+8, 2024-11-19 18:23 , Processed in 0.030779 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回復 返回頂部 返回列表