在搜索引擎中维护一个精炼的索引, 尤其是谷歌, 是b谷歌定期质量相关更新的关键. 这不是唯一的因素, but it’s important to ensure that Google deems your site to be “high quality” (assuming the rest of your content is quality; not duplicated with external websites, 没有明显的拼写和语法问题的, 不缺乏深度或完整性的, 不会过时的, 而不是让用户粘性变差). 此外, 清理索引膨胀通常比逐页的方法更容易,而逐页的方法需要改进其他低质量的页面,您可能希望在谷歌和其他搜索引擎中保持索引. 出于这个原因,这是优化站点的一个很好的起点.
When I do 内容审计 and 技术审核,我总是寻找索引膨胀(特别是在b谷歌中)。. 修复它为未来的内容改进和添加新内容奠定了基础. 想想花园需要营养丰富的土壤,偶尔修剪一下,未来的植被才能茁壮成长. 在新内容和现有内容的改进能够产生最大的自然搜索影响(并经受住算法更新的风暴)之前,你需要提高基础的质量。.
什么是索引膨胀?
索引膨胀是指搜索引擎索引了比站点地图中包含的更多的url, 假设你的站点地图是一个准确的质量列表, 在您的网站上可索引的url. 换句话说,当你的网站有太多的url被索引时(这是不应该的).
索引膨胀的常见类型
- url过滤器/方面 -这种URL类型最常见于电子商务网站. 例如,它们只是重新组织或过滤页面上显示的内容. In 赌搏十大新版官网, 将这些url排除在搜索引擎索引之外是很重要的,因为它们不为搜索引擎索引提供唯一的(内容)值.
- 跟踪网址 -此URL类型通常涉及一个附加到核心页面URL的参数,仅用于跟踪目的. 规范化是从搜索引擎索引中删除这些url的最佳方法, 因为它仍然允许抓取url, 但将链接权益应用于核心URL.
- 分页的url —这种URL类型提供了一系列内容页面的路径,这些内容页面被分成多个页面. 在电子商务类别和内容存档页面, 分页的url对搜索引擎索引没有什么价值. 之前,谷歌建议他们应该正确使用 rel =上一页/下一页编码 以及自引用规范,以便为搜索引擎整合分页系列. 理想情况下,我们不希望它们被索引,但是 b谷歌的约翰·穆勒于2017年宣布 谷歌可以处理“noindex”中的“follow”,一段时间后,“关注”meta机器人标签为“不关注”. 我们不希望限制爬行或PageRank(链接权益)从传递到我们的可索引页面上的分页url. 此外,一些分页的url为搜索引擎索引提供了价值,例如分页的论坛线程. 通常应该对这些类型的分页url进行索引. 但是,它们不应该出现在XML站点地图中.
- Tag Pages -这种URL类型创建一个动态生成的页面(通常在WordPress网站上发现),列出所有贴有相同贴子标签的贴子的博客贴子片段. 因为它们是动态生成的, 它们对搜索引擎没有什么独特的(内容)价值,通常应该设置为“无索引”,通过元机器人标签关注. 另外, 标签页面的优化方式与分类页面类似,可以在重要的标签页面顶部添加独特的内容(这些标签页面可能已经获得了大量的自然搜索流量)。.
- 内部搜索结果 -这种URL类型不应该被搜索引擎抓取, 和索引, 所以通常建议禁止机器人爬行.TXT文件,并应用" noindex,follow " meta robots标签.
为什么指数膨胀很重要?
索引膨胀的问题尤其与谷歌有关,因为这种额外url的“膨胀”通常是低质量的内容,并且通常涉及动态生成的页面. 这些都不是搜索引擎应该索引的页面类型, 没有包含在XML站点地图中(如果包含的话), 删除), 在b谷歌的眼中,他们会拖低你网站的整体质量, 具体地说.
下面的截图显示了一个客户网站的自然搜索流量,当谷歌发布了一个质量相关的算法更新后,这个客户网站的自然搜索流量得到了很好的提升. 我们已经修剪了相当数量的低质量索引膨胀url.
如何识别索引膨胀
有几种方法可以识别索引膨胀. 下面解释的方法最好是相互串联执行,以获得对问题的完整理解.
在搜索控制台中比较索引状态和站点地图
谷歌搜索控制台提供了一个覆盖率报告,可用于识别索引膨胀. 以前,旧的搜索控制台提供索引状态和站点地图索引报告. 下面是一个站点的示例,该站点在谷歌中索引的url比其站点地图中列出的url多近500个.
指数状态
注意:您还可以在谷歌中执行“site:”高级运算符, however, 它不如搜索控制台的覆盖率报告准确.
网站地图指数化
这相当于40%的指数膨胀,这是相当高的. 如果你只有一小部分额外的url被索引,而不是站点地图上的url, say 1-10%, 在b谷歌质量相关的算法更新时,不太可能经历负面影响(尽管它仍然应该得到解决). 这些额外url的索引也有可能随着时间的推移而减少,因为谷歌将继续改进其索引(如果您有适当的非索引信号:规范), “noindex”元机器人标签, robots.TXT命令,或重定向).
自己爬网站
抓取你自己的网站的工具,比如 尖叫的青蛙 or Deep Crawl 可以帮助识别可能在搜索引擎中被索引的特定url(如果它们是可索引的). 目标是创建所有可索引url的列表,然后将它们与Excel电子表格或谷歌表单中的XML站点地图进行比较.
下面是我在必要时使用尖叫青蛙识别这些url的方法. Update: 尖叫青蛙现在提供了一个“抓取分析”功能,可以检查站点地图上缺失的url. 但是,下面的方法仍然可以使用.
- 抓取网站(不包括外部网站)
- 将内部HTML报告导出为CSV文件, 然后将其上传到谷歌驱动器作为谷歌表.
- 过滤标题行,以识别和删除任何不可索引的url.
- 在列表模式下抓取XML站点地图(不遵循重定向),并将内部HTML报告导出为CSV文件,并将其上传到相同谷歌表单的新选项卡.
- Note #1: 确保删除不可索引的url的所有行.
- Note #2检查剩余的url,并确保没有明显的低质量页面类型应该从站点地图中删除(标记任何您找到的).
- 编写VLOOKUP公式(在主抓取选项卡中)以确定列出了来自Sitemap选项卡的哪些url.
- Note:与此相反的方法, 在Sitemap选项卡中编写VLOOKUP公式, 可以帮助您识别在抓取过程中未发现的孤立url吗.
- 筛选器仅显示未在Sitemap选项卡中列出的url. 检查它们,并在谷歌中搜索其中的一些,看看它们是否被索引了. 注意:使用高级操作符,如“site:”和“inurl:”来了解特定URL结构的多少个URL被索引了.
谷歌查询
扩展上面的最后一步, 以下是如何在谷歌中使用高级操作符来识别索引膨胀的url.
- “site:”操作符 —如果我想获得谷歌中索引的一般感觉,查询如 网站:http://www.storific.net 会给我搜索结果专用于我自己的网站索引吗.
- “inurl:”操作符 如果我想查看我的/services/子文件夹中有哪些页面被索引了,我可以输入这样的查询 网站:http://www.storific.net inurl: / /服务.
- 扩展的“site:”操作符 -如果感兴趣的特定页面类型的URL结构接近根, 您可以将它附加到" site: "操作符的末尾,如下所示: 网站:http://www.storific.net/services/.
对于WordPress网站, 这对于标记页面(动态生成)来说很常见, (没有唯一的内容)在谷歌中索引. 查询如下 网站:http://www.storific.net inurl: /标签/ 显示我的网站没有任何标记页索引.
然而,如果你看看这样的网站 TechCrunch,你会注意到它们大致 86,000 /标签/索引页 在写这篇文章的时候.
标记页似乎不在其 XML站点地图 (我承认我只是抽查了一下,因为它很大。). 他们没有被设置为“noindex”,他们也没有在他们的机器人中被禁止.txt file. 这是一个巨大的指数膨胀, 我怀疑他们可能会因为高索引量而带来相当多的流量. 注意:请记住,来自谷歌的这个数字可能不完全准确,但仍然有用.
如何解决指数化膨胀
一旦你确定了你网站上被索引的url, 不要急于将它们从搜索引擎索引中删除. 如果这些url驱动显著的自然搜索流量和/或转换, 突然将它们从搜索引擎索引中删除可能会导致有机搜索流量和收入的潜在危险下降. 您可能需要创建针对标记页面的关键字的新页面, 这些都在推动交通, 目前在搜索引擎中排名吗.
在b谷歌Analytics中查看有机指标
在从搜索引擎索引中删除这些索引膨胀的url之前,必须检查它们的自然搜索流量和转换. 这里有一个客户网站的例子,这个客户的WordPress标签页面带来了大量的自然搜索流量. 我们认为标签页面不是最好的排名页面,所以我们用博客文章取代了那些带来最多流量的页面,并放弃了其他页面的自然搜索流量(长尾)。, 我们能接受吗. 它是最小的. 请注意,这个网站在短期内并没有失去太多的自然搜索流量(比较红框),这让我们为未来的增长奠定了基础. 注:我在2016年5月- 12月没有和这个客户合作过, 因此,如果我们在2017年1月之前没有休息,自然搜索流量的增长会更快发生.
(计划)自然流量下降到标签页面
所有有机流量
确定部分移除(如果需要)
上面的例子表明,索引膨胀的url可以驱动自然搜索流量, 哪些是你需要注意的. 他们的目标是低竞争的关键字短语,所以我怀疑谷歌是为了提供相关的搜索结果而对他们进行排名的. 如果你遇到类似的情况, 您可以选择改进这些低质量页面的内容, 修剪它们(从搜索引擎索引中删除), 部分修剪它们(只修剪那些驱动低自然搜索流量的), 或者替换它们(全部), (或部分)使用更高质量的页面.
在这些情况下,请确保您查看了为页面带来流量的关键字 谷歌搜索控制台“搜索分析”报告),并在重定向到的新页面或现有页面中使用它们(这将取代臃肿的url)。. 这将有助于确保谷歌仍然看到关键字的相关性, 并将有助于维持或提高排名.
However, 有时问题太大,不能用这种“手术刀”的方法, 在进行尽职调查后,必须采取“短柄斧”方法,以确定是否有合适的替代页面可以取代被删除的页面.
下面是一个电子商务客户的图表(我曾帮助过他) Inflow 和谁一起开车 超过200万美元的会话 and 收入超过300万美元 超过18个月的时间从膨胀的url. 具体来说,它们是参数url. 在整个时间段内,有14种不同的参数类型驱动了相当一致的自然搜索流量和收入, 去指数化的方法需要非常谨慎地实施.
自然搜索流量
自然搜索收入
如你所见, 试图过快地删除这个特定站点的索引膨胀(参数url)可能会导致自然搜索流量和收入的不必要下降. 在这种情况下, 我建议确定是否有更高质量的页面可以在他们的位置上排名, 并删除参数类型(从b谷歌的索引),驱动较少的自然搜索流量和收入比其他作为一个样本测试来衡量影响. 在这个特殊的案例中, 它将包括从XML站点地图中删除参数url,并将它们规范化为它们的核心url.
确定从谷歌中删除的最佳方法 & 其他搜索引擎
有许多方法可以从谷歌的索引和其他搜索引擎中删除索引膨胀的url.
- 元机器人标签 —您可以将pages设置为“noindex”,跟着“noindex”或“noindex”,nofollow” with a meta robots tag in the , 视情况而定. Typically, “noindex,关注“meta robots”标签应该应用于页面类型,如内部搜索结果, tag pages, 以及其他您希望阻止搜索引擎索引页面的页面类型, 但流量内部链接权益的网页上的链接,如果他们发现和抓取它(虽然可能不是永久的, 至少用谷歌). “noindex,可以为开发站点上的所有页面保留“Nofollow”属性, 赞助页面(软文),你得到补偿, 以及其他页面类型,您希望限制页面上链接的权益, 并防止页面被索引.
- Robots.禁用规则 -你可以完全禁止搜索引擎从爬行特定的页面或页面类型(通过使用通配符)与“禁止”规则在你的机器人.txt file. 记住, however, 如果您不允许它们在机器人中爬行,当前索引的url将保持索引.txt file. 这将在b谷歌的搜索结果中抑制它们, 例如, 但它们仍将保持索引. 通常最好实现机器人.TXT禁止规则后,网页已完全从搜索引擎索引中删除,以防止他们在未来被抓取. 这可以帮助提高搜索机器人为您的网站抓取预算的效率.
- 规范化 -您可以规范化跟踪URL和其他URL类型(本质上是重复的), (如过滤器/facet URL)到核心URL,以便向谷歌和其他搜索引擎提供一个“提示”,即该URL不应该被索引.
- Delete & Redirect -如果页面没有价值(低质量的内容), 低自然搜索指标), 然后您可以选择删除并将其重定向到与主题相关的URL.
在适用的情况下,制定一个时间表 & 做样例测试
如果你有任何类型的膨胀url,驱动显著的自然搜索流量和/或转换, 您需要确保您仔细测量了上述的潜在影响. 在你的网站上寻找其他网址,这些网址应该在他们的位置上排名(目前没有排名), 以及它们是否可能),并确定它们的内容质量和内部链接信号是否可能影响搜索引擎将它们排在您希望删除的低质量url的位置.
如果你担心对自然搜索指标的影响, 把一系列的低影响测试和实施和测量的时间表放在一起. 有时候你得冒点险, however, 你可以选择等待这些膨胀的url的自然参数下降的迹象来承担这样的风险. 每个情况都是不同的,这通常是一个主观判断.
如果我能帮你解决任何通货膨胀问题,请说 赌搏十大新版官网我 或者在下面留言.