搜索引擎如何处理链接

315

有没有想过如何搜索引擎抓取,分析,索引,和排名的网页?专栏作家珍妮Halasz创造了对链接图有助于引物对这些问题的回答。

links-graph-web-pages-22-1920

你有没有想过为什么404,rel= nofollow,礼服,索引,和robots.txt的工作他们做的方式?或者你从来没有明确比较他们如何做所有的工作?为了帮助你理解,这里是一个很基本的解释如何搜索引擎抓取页面,添加链接的链接图。
简单的抓取
搜索引擎爬虫(让蜘蛛的乐趣)访问一个网站。它收集的第一件事是robots.txt文件。
让我们假设文件不存在或者说是抓取整个站点的好。爬虫收集所有的网页信息和反馈到数据库。严格地说,这是一个缓慢的调度系统,去重复和洗牌页面优先级索引。

Basic crawl process

而它的存在,它收集的所有页面,每个页面的链接。如果他们的内部链接,履带 可能会跟随他们到其他页。如果他们外,进入数据库后。

search-engine-spider2

处理 链接
后来,当链接图得到处理,搜索引擎将这些链接的数据库连接,分配给他们的相对值。这些值可以是积极的,也可能是消极的。让我们想象一下,例如,一个页面的垃圾邮件。如果页面链接到其他页面,可以通过一些坏链接价值在这些页面。让我们说S =垃圾邮件发送者,G =好:

search-engine-spider3

在右上方的网页有更多比的。因此G,它会获得一个相当不错的成绩。一个只有G的页面会获得更好的成绩。如果S是G的超过,页面会赚相当差的成绩。添加到一些的一些G的价值超过其他的并发症,与你有怎样的链接图的作品一个非常简化的看法。

阻塞用robots.txt页
让我们回到最初的例子。假设的robots.txt文件告诉搜索引擎不要访问其中一页。

search-engine-spider4

这意味着,而搜索引擎爬行通过网页和链接列表,它不会有任何数据,网页被包括在robots.txt文件。
现在,回到那个超级简单的链接图的例子。让我们假设,在右上方的网页,网页被robots.txt:

search-engine-spider5

搜索引擎仍将采取所有的那页的链接数。它不可能看到什么页面,页面的链接,但它将能够添加链接价值度量页面 影响域作为一个整体。
使用404或410删除页面
接下来,让我们假设而不是阻塞,页面robots.txt,我们简单地删除它。因此,搜索引擎会试图访问它,但有一个明确的信息,它不在了。

search-engine-spider6

这意味着当连接图进行处理,网页链接,走吧。他们得到存储供以后使用如果页回来。

search-engine-spider7

在其他一些点(可能由一组不同的服务器!)这是匍匐,优先获得分配给索引页面。
多指标的作品
索引标识词和元素的网页上,在数据库中匹配的用词和元素。做一个“蓝色小工具搜索”。搜索引擎使用的数据库找到网页相关的蓝,小工具,和蓝色的小部件。如果搜索引擎还考虑部件(单数)和矢车菊(一种蓝)是同义词,它可以评估网页与网页上的文字,以及。
搜索引擎 使用算法来确定哪些网页索引中有那些话交给他们,并指向页面的链接和领域,和处理其他已知和未知的度量值几十到。如果网站是不良的行为像熊猫和企鹅的过滤,也考虑了。整体价值确定在结果页面上会出现。
这是事情进一步复杂化,可能做站长操纵值。例如,如果两个页面非常类似,站长可以决定使用rel=典型信号的搜索引擎,只有一页有价值。这是不明确的,虽然。如果“矢车菊部件”页rel=规范了“蓝色小工具”页面,但页面矢车菊部件更多有意义的链接指向它,搜索引擎可以选择使用矢车菊小工具页面。如果规范被接受,这两种元素在页面和链接指向的页面的价值观的结合。
索引删除页面
noindex更加明确。它的工作方式类似于robots.txt不是防止爬行的页面,搜索引擎能够访问它,但后来告诉走开。搜索引擎仍将收集的网页链接添加到数据库(除非该页上的指令也表示不跟着他们,即nofollow),并将指定值的链接指向的网页。

search-engine-spider8

然而,它不会与任何其他页面整合价值,它会不停的价值从流经页。所有noindex不要求搜索引擎不分配的页索引。
因此,只有一个明确的方法来在目的站的链接值流。以页面完全消失(404或410状态)是阻止它的唯一方法。410比404更明确的,你可以在这里阅读,但都将导致该页被退学的指数最终。有停止从链路的起始环节流多其他的方式,但很少有对其他网站的管理员控制,只有自己。
希望,这有助于你理解如何引物的网页被搜索引擎和之间的差异的robots.txt,索引访问,并没有发现,特别是涉及到链接。请在评论中留下任何问题,一定要检查出我的会议在SMX先进:先进技术的最新的SEO。

【本文机器翻译自Search Engine Land

当前文章:Search » 搜索引擎如何处理链接