For larger websites, 审计XML Sitemap通常可以发现丢失的流量机会,并提供向搜索引擎提供更准确、更值得信赖的XML Sitemap所需的洞察力. 花时间识别和修复XML站点地图中的问题可能意味着成千上万的访问您的网站的差异, 并可能对收入产生显著影响. 这对任何精通网络的人来说都是一个简单的练习, 我将向您展示如何以一种在大多数网站上都可重复的方式进行XML站点地图审计.
准确的XML站点地图的重要性
一个准确的XML站点地图的重要性已经被明确地说明了 Duanne Forrester (必应网站管理员工具的前负责人)在这个“白板星期五”视频中与 Rand Fishkin (founder of Moz). 杜安是这么说的:
如果你给我看这里的301, rel=canonicals, 404 errors, all of that, 我就会开始不信任你的站点地图我就不会再用它了. 如果你告诉我你有新内容的方式是通过网站管理员工具中的功能提交站点地图, 你马上就给了我一个我已经学会不信任的东西,因为它的清洁度有问题. 人们认真对待这一点非常重要. 这不是一场火灾.
目前还不清楚必应是否仍有同样的政策, 以及谷歌是否有类似的政策, 但是尽管存在这些不确定性, 审计站点地图除了确保准确性之外,还可以提供更多的好处. XML Sitemap审计通常可以帮助您识别以下情况, 这可能会阻碍你的网站获得最大的流量和收入潜力:
- 3XX重定向url(301、302等.)
- 4XX客户端错误(404、410等.)
- 5XX服务器错误(500、502等.)
- 带有“noindex,follow”或“noindex,nofollow”元机器人标签的url
- Non-self-canonicalized url
进行XML站点地图审计
我将提供一个循序渐进的过程来帮助您审核XML Sitemap, whether it’s your site, a company website, or a client’s website. 你们将需要以下工具来进行此类审核:
- Screaming Frog (或类似的爬行蜘蛛软件)
- Google Sheets or Microsoft Excel
- Google Analytics
步骤1:使用尖叫青蛙抓取XML站点地图
以前,您需要导出XML文件并将其转换为CSV或 .TXT文件,使用工具,如 Luxon软件XML到CSV转换器 以便复制url列表,以便与尖叫青蛙抓取. 虽然这不是一个漫长的过程, 它确实为具有非常大的XML站点地图的站点带来了挑战, 它确实为这个过程增加了额外的步骤.
这已经没有必要了, however, 因为尖叫青蛙可以自己抓取这些url, according to their article:
您知道您不需要将您的XML站点地图转换为url列表以便我们抓取它吗? 您可以简单地保存XML站点地图并以列表模式上传它,我们将本地抓取XML格式.
首先,转到您的XML站点地图URL并将页面保存为XML文件到您的计算机. Then, 只需将顶部导航菜单中的“模式”切换到“列表”模式, 点击尖叫青蛙顶部的“上传列表”按钮, 然后选择“From a File…”选项. 最后,将“文件格式”更改为“XML文件”,然后选择XML文件.
继续使用尖叫青蛙在XML站点地图中爬行url. 如果你有上千个url, 这可能需要一些时间, 所以去喝杯咖啡,或者在尖叫青蛙爬行的背景下做另一个项目.
步骤2:导出抓取数据
下一步是导出抓取数据. 您特别想导出 Internal (All) data. 这份报告提供给你的数据比你需要的多得多. 以下是您希望保留的列.
- URL Address
- Status Code
- Meta Robots tag
- Canonical URL
- Redirect URL
我更喜欢将抓取数据导出为CSV文件,然后导入到Google Sheets. However, 用于包含数万个以上url的大型XML站点地图, Google Sheets的性能可能会比较慢. 在这种情况下,Excel将是首选的电子表格工具.
步骤3:将抓取数据导入Google表格 & Prepare the Data
将CSV文件导入Google Sheets并删除所有不需要的列. 通常,您只需要上面列出的五种数据类型的列. 下面是一个简单的例子:
接下来,您需要准备用于分析的数据. 你可以添加一个“问题”栏来记录需要解决的问题. 下面是使用上面显示的相同数据的情况.
步骤3:导出谷歌分析数据 & Import into Worksheet
Next, 我们希望看到在一段时间内每个URL(在XML Sitemap中)的流量指标. 只要数据是可管理的,我喜欢用一年的数据来分析.
Note这是有可能从谷歌分析拉数据,因为你爬行与尖叫青蛙的url, however, 它可以减缓爬行的速度. Sometimes, 简单地将数据从Google Analytics导出为CSV文件会更快, 将数据导入电子表格的新选项卡中, 并使用VLOOKUP公式将流量数据同步到主工作表中的每个URL(按行).
以下是Google Analytics的流量数据与我们从尖叫青蛙爬行中收集的其他数据一起拉入主工作表时的样子. 在这个例子中,我回顾了过去12个月的Google /有机“会话”和“收益”. 数据已经被“会话”重新排序,以便在工作表顶部列出流量最多的url(在12个月期间).
By now, 您应该有足够的数据来做出明智的决定,如何修复站点地图错误. 寻找以下机会:
- 还原应该呈现200状态码的页面, 而是生产3XX, 4XX or 5XX errors
- 修复不正确规范化的url以改进索引
- 修复不准确的元机器人标签,以提高索引
- 从站点地图中删除url以提高准确性
- …etc.
奖金步骤:统计流量指标从url与问题
一目了然地查看所有XML Sitemap问题的流量度量是很有帮助的, 不管你是在向客户汇报工作, 高层管理人员或只是试图解决自己的网站问题. 为了做到这一点,在你的电子表格中创建一个新的选项卡,并将其格式化如下:
下面是上面示例中各个列的公式. 由于我使用的是谷歌表格,所以我的公式与Excel公式略有不同. 还要注意,我的XML站点地图抓取数据在“所有站点地图url”工作表中.
Number of URLs
=COUNTIF('所有站点地图url ')!$B:$B,$A2)
总有机交通损失
=SUMIF('所有Sitemap url ')!$B:$B,$A2,'所有Sitemap url '!G:G)
有机收入损失总额
=SUMIF('所有Sitemap url ')!$B:$B,$A2,'所有Sitemap url '!H:H)
对你的数据采取行动
现在知道XML Sitemap存在哪些错误是很好的, 如果不采取行动,任何事情都不会改变(流量和收入). 如果你的公司有一个开发团队, 他们很可能会因为大量需要解决的全公司问题而陷入困境. 这就是统计问题报告非常有用的地方. 它允许您量化修复XML站点地图中的问题的重要性(或不重要性).
而seo追求完美, 理解开发工作的优先级(基于对整个站点的影响)将决定问题修复的速度,这一点很重要. 越能证明对交通的影响, and ultimately revenue, 您就越有理由解决XML Sitemap问题.
祝你好运,请在评论区提出任何问题. I’m happy to answer them!