1. 找出浪费抓取预算的地方
首先,什么是抓取预算?Google 将其定义为:
“结合抓取率和抓取需求,我们将抓取预算定义为 Googlebot 能够且想要抓取的 URL 数量。”
本质上,它是指搜索引擎每次访问您的网站时会抓取的页面数量,这些页面与域名的权重相关,并且与网站的链接权益流量成正比。
对于日志文件分析至关重要的是,抓取预算有时会浪费在不相关的页面上。如果您有希望被索引的新鲜内容,但预算已所剩无几,那么 Google 就不会索引这些新内容。因此,您需要通过日志文件分析来监控抓取预算的支出情况。
影响抓取预算的因素
拥有大量低附加值的 URL 会对网站的抓取和索引产生负面影响。低附加值的 URL 可以分为以下几类:
- 分面导航、动态 URL 生成和会话标识符(电子商务网站常见)
- 现场重复内容
- 被黑页面
- 软错误页面
- 低质量和垃圾内容
将服务器资源浪费在这些页面上会耗尽真正有价值的页面的抓取活动,从而可能导致网站上优质内容的发现时间显著延迟。
例如,查看这些日志文件后,我们发现一个错误的 WordPress 主题被频繁访问,这显然是一个解决方案!
查看每个页面的事件数量时,不妨问问自己,Google 是否应该费心抓取这些网址——你通常会发现答案是否定的。因此,优化抓取预算将有助于搜索引擎抓取并索引你网站上最重要的页面。你可以通过多种方式来实现这一点,例如,使用robots.txt 文件阻止包含特定模式的网址,从而将某些网址排除在抓取范围之外。查看我们关于此主题的实用文章。
2. 您的重要页面是否被抓取了?
我们已经解释了为什么 Google 不应该在低价值页面上浪费抓取预算。另一方面,要检查高价值页面的访问量是否与你赋予它们的权重相符。如果你按事件数排序日志文件并按 HTML 过滤,你可以看到访问量最大的页面。
说最重要的 URL 应该被抓取最多可能有些过于简单化 – 但是,如果你是一个潜在客户网站,你希望你的主页、关键服务页面和博客内容出现在其中。
作为一个电子商务网站,你会希望你的主页、类别页面和关键产品页面出现在那里。如果你在这些结果中看到一个你不再销售的旧产品页面,而你最重要的类别页面却没有一个,那么你就有问题了。
3.了解你的网站是否已切换到 Google 的移动优先索引
您可以记录文件分析以了解您的网站是否正在被 Googlebot 智能手机抓取更多,这表明它已切换到移动优先索引。 自 2019 年 7 月 1 日起, 所有新 电话号码 网站(新上线或之前 Google 搜索未知的网站)默认启用移动优先索引。 Google 自己曾声明:
“对于较旧或现有的网站,我们会继续根据本指南中详述的最佳做法监控和评估网页。我们会在 Search Console 中告知网站所有者其网站切换到移动优先索引的日期。” Google 移动优先索引最佳实践
通常,仍在常规索引中的网站大约有 80% 的 Google 抓取工作由桌面抓取工具完成,20% 由移动抓取工具完成。
中看到这一点。
4. 您所有的目标搜索引擎机器人是否都在访问您的网页?
继续使用机器人,这是一个很容易执行的检查。我们知道谷歌是占主导地位的搜索引擎,因此确保智能手机 Googlebot 和 Googlebot 定期访问您的网站应该是您的首要任务。
我们可以按搜索引擎机器人过滤日志文件数据。
过滤后,您可以查看每个所需搜索引擎机器人记录的事件数量。希望您能看到智能手机 Googlebot 或 Googlebot 访问您网站最多。
我还建议您检查每个不良机器人访问您网 数据建模师通常关注诸如 站的频率。例如,如果您是一家英国企业,并且不想向俄罗斯或中国销售商品或服务,您可以查看 Yandex 和百度机器人访问您网站的频率。如果它们的访问量异常(我发现在某些情况下它们的访问量超过了智能手机 Googlebot),您可以继续在 robots.txt 中阻止这些爬虫。
5. 发现不正确的状态代码
虽然我们在 Google Search Console 覆盖率报告中获得了大量关于 404 错误和有效 200 错误的数据,但日志文件却能让我们真正了解每个页面的 移动数据库 状态代码。只有日志文件或手动提交 Google Search Console 的抓取和渲染才能让您分析搜索引擎遇到的最后一个响应代码。
使用 Screaming Frog 日志文件分析器,您可以快速完成此操作,而且由于它们按抓取频率排序,您还可以查看哪些可能是最重要的需要修复的 URL。