你在 Google Search Console 里看到页面没收录,点开原因后发现有时写着“已抓取 - 尚未编入索引”,有时又是“已发现 - 尚未编入索引”。很多人看到这两个状态,会把它们当成一个意思:反正就是没收录。

这一步如果分错,后面的修复动作大概率也会做错。因为这两个状态卡住的位置根本不一样。一个是 Google 还没抓到页面,另一个是 Google 已经抓了,但暂时不想收。

先记住一句最重要的话

已发现未收录与已抓取未收录两个状态所处阶段的对比图
“已发现 - 尚未编入索引”更像是还没进入抓取阶段。

“已抓取 - 尚未编入索引”则是已经过了抓取阶段,但没通过索引决策。

这不是文案差异,而是 Google 工作进度的差异。你可以先把它理解成:

状态 Google 做到哪一步了 更该先查什么
已发现 - 尚未编入索引 知道 URL 存在,但还没抓 入口、抓取优先级、站内结构
已抓取 - 尚未编入索引 已经看过页面,但没收 重复、内容价值、canonical、页面质量

如果你把“已发现”状态当成内容问题去大改文章,常常是在做无效劳动。反过来,如果页面已经被抓取过,你却还在反复提 sitemap、补抓取入口,也是在绕圈。

“已发现 - 尚未编入索引”更像发现了,但暂时没排上号

这个状态的核心意思不是“页面差”,而是 Google 目前还没抓它。

Google 已经知道这个 URL 存在,可能来自 sitemap、内链、外链、历史抓取或站点结构信号,但它暂时没有真正访问页面内容。对小站来说,最常见的原因通常是下面几类:

  • 新页面刚上线,Google 还没排到
  • 站点整体抓取频率低
  • 页面入口太弱,只藏在很深的位置
  • 同一时间冒出太多新 URL
  • 服务器或抓取负载信号让 Google 放慢速度

这种状态先查什么

先不要急着重写正文。优先查这几件事:

  1. 页面有没有进入 sitemap
  2. 首页、分类页、相关文章里有没有自然内链
  3. 这个 URL 是不是太深,只有翻很多页才能看到
  4. 站点最近是不是一次性新增了太多页面
  5. 服务器有没有偶发超时、403、重定向异常

如果一个小站昨天刚发了二十篇文章,今天 GSC 里一半是“已发现 - 尚未编入索引”,这不一定是故障。更合理的做法是先抽查几篇关键文章,看它们是否在 sitemap 和站内导航里都有稳定入口。

这种状态不该先做什么

不要先做这些:

  • 反复请求编入索引
  • 每天删除再提交 sitemap
  • 因为没收录就整篇重写
  • 给每个页面都强塞更多关键词

如果 Google 还没抓,内容写得再漂亮,它也还没看到。

“已抓取 - 尚未编入索引”说明问题已经往后走了一步

这个状态和上一个最大的区别,是 Google 已经看过页面。

也就是说,问题不再是“找不到”,而是“看过以后暂时没收”。这里的判断依据通常更接近页面本身,而不是单纯入口不足。

对小站来说,这类页面最常见的触发原因有四种:

  • 页面和别的页面太像
  • canonical 或规范版本信号混乱
  • 页面内容太薄,搜索价值不明确
  • 页面虽然能打开,但整体质量信号偏弱

这种状态先查什么

先看下面这张顺序表:

优先级 先查什么 为什么
1 canonical 是否正确 Google 可能认为另一个版本更适合收
2 页面是否和站内旧文重复 小站最容易写出换说法的相似文章
3 页面是否真的解决了一个问题 解释概念不等于值得收录
4 title、H1、正文主题是否一致 主题散,Google 更难判断页面价值
5 页面是否被其他文章引用 完全孤立的页面更像弱页面

如果你之前已经看过 GSC 收录异常排查,这里可以把它理解成更细的一层:这次不是大类排查,而是专门把两个灰色状态拆开。

这种状态常见误判

很多人一看到“已抓取 - 尚未编入索引”,就以为 Google 一定觉得这篇文章质量差。这个判断太粗。

更常见的现实情况是:

  • Google 觉得它和另一篇太像
  • Google 选了别的规范版本
  • 页面主题不够清晰
  • 页面能被抓,但没有强理由进入索引

所以不要一上来就大改文风。先判断是重复信号问题,还是内容价值问题。

两个状态最容易修反的地方

这两个状态最容易被修反。

你看到的状态 错误动作 更合理的动作
已发现 - 尚未编入索引 立刻重写内容 先补入口、看抓取路径、等一段时间
已抓取 - 尚未编入索引 继续反复提 sitemap 先查重复、canonical、页面主题和价值

一个很实用的判断方式是:

  • 如果 Google 还没抓,优先处理“能不能更容易看到这个页面”
  • 如果 Google 已经抓了,优先处理“为什么看完还不想收它”

你把这条线分清楚,很多无效操作会自动消失。

小站该怎么排查,效率最高

最省时间的做法不是盯着 GSC 里一大堆灰色 URL,而是先抽样。

建议你挑三类页面各看 3 到 5 个:

  • 最近新发但未收录的文章
  • 已经放了很久还未收录的文章
  • 已收录、结构相近的旧文章

然后只回答三个问题:

  1. 它现在是“已发现”还是“已抓取”
  2. 它有没有稳定入口和 sitemap 暴露
  3. 它和已收录文章相比,差在入口,还是差在页面信号

这样排查比一口气修几十个 URL 更有效。因为小站的大多数问题都是成组出现的,不会只落在某一篇文章上。

什么情况下不用太紧张

下面这些情况,看到灰色状态不必立刻当成故障:

  • 新站刚上线不久
  • 新文章发布才几天
  • 站点整体页面不多,但最近集中更新
  • 少量标签页、归档页没收录
  • 最近一两天报告波动明显

真正要提高警惕的是:

  • 核心文章长期停在同一个状态
  • 一批重点页面连续几周都没变化
  • sitemap 和内链都正常,但关键文章一直“已发现”
  • 页面已抓取,却大量不收,且内容主题彼此高度相似

结论

“已发现 - 尚未编入索引”和“已抓取 - 尚未编入索引”最大的区别,不是严重程度,而是卡住的阶段不同。前者更偏发现和抓取优先级,后者更偏索引决策和页面信号。

小站排查时,先分清 Google 还没看,还是已经看过。只有这一步分对了,你后面的动作才不会跑偏。发现阶段优先补入口和抓取路径;抓取后未收,则优先查重复、canonical 和页面是否真的值得被收。