欢迎光临
我们一直在努力

搜索引擎如何处理链接

有没有想过搜索引擎是如何抓取、分析、索引和排名页面的?专栏作家Jenny Halasz在链接图上创建了一个有用的入门来回答这些问题。

links-graph-web-pages-22-1920

你有没有想过为什么404s,rel=canonicals,noindex,nofollow,和robots.txt文件像他们那样工作?或者你不清楚他们是怎么工作的?为了帮助您理解,这里有一个关于搜索引擎如何抓取页面并向链接图添加链接的非常基本的解释。

简单的抓取

搜索引擎爬虫(让它成为一个有趣的蜘蛛)访问一个网站。它首先收集的是robots.txt文件。

假设文件不存在,或者说可以对整个站点进行爬取。爬虫程序收集所有这些页面的信息并将其反馈到数据库中。严格地说,这是一个爬取调度系统,它按优先级对页面进行重复数据消除和洗牌,以便以后索引。

Basic crawl process

当它在那里时,它收集每个页面链接到的所有页面的列表。如果它们是内部链接,爬虫程序可能会跟踪它们到其他页面。如果它们是外部的,它们会被放到数据库中以备以后使用。

search-engine-spider2

处理链接

稍后,当处理链接图时,搜索引擎会从数据库中提取所有这些链接并将它们连接起来,为它们分配相对值。值可以是正的,也可以是负的。例如,让我们想象一下,其中一个页面是垃圾邮件。如果该页链接到其他页,则可能会向这些页传递一些不好的链接值。假设s=垃圾邮件发送者,G=良好:

search-engine-spider3

右上角的页面有更多的G,因此,它将获得一个相当好的分数。只有G的页面会获得更好的分数。如果S多于G,则该页将获得相当低的分数。再加上一些S和一些G比其他的更有价值的复杂度,你对链接图的工作原理有了一个非常简单的看法。

通过robots.txt阻止页面

让我们回到原来的例子。假设robots.txt文件告诉搜索引擎不要访问其中一个页面。

search-engine-spider4

这意味着,当搜索引擎在页面中爬行并创建链接列表时,它不会有任何包含在robots.txt文件中的页面的数据。

现在,回到那个超级简单的链接图示例。假设右上角的页面是被robots.txt文件阻止的页面:

search-engine-spider5

搜索引擎仍将获取指向该页面的所有链接并对其进行计数。它将无法看到该页面链接到哪些页面,但它将能够为该页面添加链接值度量-这将影响整个域。

使用404或410删除页面

接下来,让我们假设不是用robots.txt文件阻止页面,我们只是移除了它。所以搜索引擎会试图访问它,但得到一个明确的信息,它不再存在。

search-engine-spider6

这意味着在处理链接图时,指向该页的链接将消失。如果该页恢复,它们将被存储以供以后使用。

search-engine-spider7

在另一点上(很可能是由另一组服务器!),已爬取的优先级页将分配给索引。

索引的工作原理

索引标识页面上与数据库中的单词和元素匹配的单词和元素。搜索“blue widgets”。搜索引擎使用数据库查找与blue、widgets和blue widgets相关的页面。如果搜索引擎还认为widget(单数)和cornflower(一种蓝色)是同义词,那么它也可以用页面上的这些词来评估页面。

搜索引擎使用它的算法来确定索引中哪些页面分配了这些单词,计算指向页面和域的链接,并处理数十个其他已知和未知的度量值以得出一个值。如果网站因为熊猫或企鹅等不良行为被过滤,也会考虑到这一点。然后,总值确定页面在结果中的显示位置。

更复杂的是,网站管理员可能会做一些操纵值的事情。例如,如果两个页面非常相似,则网站管理员可能会决定使用rel=canonical向搜索引擎发出信号,表明只有其中一个页面具有值。不过,这还不确定。如果“cornflower widget”页面相对“blue widgets”页面是rel=canonical,但是cornflower widget页面有更多有价值的指向它的链接,搜索引擎可能会选择使用cornflower widget页面。如果接受canonical,则页面上的元素和指向页面的链接的值将合并。

使用noindex删除页面

Noindex更明确。它的工作原理与robots.txt文件相似,只是搜索引擎能够访问它,而不是阻止爬取该页面,但随后被告知走开。搜索引擎仍将收集页面上的链接以添加到数据库中(除非页面上的指令也指示不追踪这些链接,即不追踪),并且仍将为指向该页面的链接分配值。

search-engine-spider8

但是,它不会将值与任何其他页面合并,也不会阻止值在页面中流动。noindex所做的只是请求搜索引擎不要将页面分配给其索引。

因此,只有一种确定的方法可以停止链接值流。完全删除页面(404或410状态)是停止页面的唯一方法。410比404更明确,你可以在这里读到,但两者最终都会使页面从索引中删除。有多种其他方法可以从链接的起源阻止链接流,但网站管理员很少有控制其他网站,只有他们自己的。

希望这本入门书能帮助您理解搜索引擎是如何访问页面的,以及robots.txt、noindex和not found之间的区别,特别是当它们与链接相关时。请在评论中留下任何问题,一定要检查出我的会议在SMX先进:先进技术的最新的SEO。

【本文机器翻译自Search Engine Land

赞(0) 打赏
未经允许不得转载:据析趣知 » 搜索引擎如何处理链接

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用?长按识别二维码打赏~

支付宝扫一扫打赏

支付宝收钱码