Google搜索是一款全自动搜索引擎,使用网页抓取工具定期探索网络,找出新的或更新过的网页添加到Google索引中。本文从网站角度介绍Google搜索运作的各个阶段,帮助你了解如何优化网站在Google搜索结果中的呈现效果
Tips(防骗指南)
Google不会通过收取费用来提高网站抓取频率或网站排名;
Google不保证一定会抓取你的网页、将其编入索引或在搜索结果中显示你的网页
Google搜索的3个阶段
Google搜索的工作流程分为3个阶段,并非每个网页都会经历着3个阶段
抓取:Google使用抓取工具的自动程序从互联网上,发现各类网页,并下载其中的文本、图片和视频
索引编制:Google会分析网页上的文本、图片和视频文件,并将信息存储在大型数据库Google索引中
呈现搜索结果:当用户在Google中搜索时,Google会返回与用户查询相关的信息
抓取
第一阶段——网址发现:Google不断搜索新网页和更新过的网页,并将其添加到已知网页列表中。由于Google之前已经访问过某些网页,这些网页是已知的网页,跟踪已知网页上指向新网页的链接时,Google会发现其他网页。当你以列表形式(站点地图)提交一系列网页供Google抓取时,Google也会发现其他网页
第二阶段——抓取:Googlebot程序执行抓取任务,来Google发现的网页,访问该网页了解其中的内容。Googlebot使用算法流程确定要抓取的网站、抓取频率以及要从每个网站抓取的网页数量。抓取工具基于网站的响应和Search Console中的设置,确保不会过快抓取网站,避免网站收到过多请求
抓取过程中,Google会使用最新版Chrome呈现网页并允许它找到所有JavaScript。Googlebot不会抓取它发现的所有网页,某些网页可能被网站所有者设置为禁止抓取,其他网页可能必须登录网站才能访问,有的可能是之前抓取过的重复网页。能否抓取取决于Google的抓取工具能否访问网站。Googlebot访问网站时的一些常见问题包括
服务器在处理网站时出现问题
网络问题
robots.txt指令阻止Googlebot访问网页
索引编制
抓取网页后,Google会尝试解析并了解该网页的内容,包括处理和分析文字内容以及关键内容标记和属性等。在索引编制过程中,Google会确定网页是否与互联网上的其他网页重复或是否为
规范网页
(可能会显示在搜索结果中的网页)
为了选择规范网页,我们首先会将在互联网上找到的内容类似的网页归为一组,然后选择一组网页中最具代表性的网页进行呈现
。该组网页中的其他网页可作为备用版本在不同情况下提供,例如用户在移动设备上进行搜索时,或查找该组网页中的某个具体网页时
Google还会收集关于规范网页及其内容的信号(包括网页语言、内容所针对的国家/地区、网页可访问性等),相关信息可能会存储在Google索引中,这些信号可能会在下一阶段时用到
我们无法保证网页一定会编入索引,并非Google处理的每个网页都会编入索引。是否会编入索引还取决于网页内容及其元数据。一些常见的索引编制问题可能包括
网页内容质量低
漫游器元指令禁止编入索引
网站的设计可能使索引编制难以进行
呈现搜索结果
Google不会通过收取费用来提高网页排名,网页排名是程序化地完成的
用户输入查询时,Google会在索引中搜索匹配的网页,并返回我们认为与用户的搜索内容最相关的优质结果。相关性是由数百个因素决定的,其中可能包括用户的位置、语言和设备等信息
Search Console可能提示您某个网页已经编入索引,但在搜索结果中看不到该网页,这可能的原因有
网页内容与用户不相关
内容质量低
漫游器元指令阻止呈现搜索结果