GEO 检测

面向开发者:GEO 相关的工程清单

定义

开发者侧 GEO 准备度通常落在可抓取性(HTTP 状态、重定向链、CDN 规则)、机器说明文件(robots、llms.txt)、结构化数据有效性(JSON-LD 语法、类型与必填字段)以及 渲染一致性(SSR/CSR 下关键 Meta 是否一致输出)。报告以与检测工具一致的12 项分项呈现,其中上述工程层次主要映射核心五类;扩展分项(如 AI 发现端点、JS 渲染)补充可观测性。结构化类型的字段语义应以 Schema.org 文档 为准,避免复制粘贴第三方示例却不核对必填项。robots 指令的语义与常见误区还可对照 MDN 关于 rel 与爬虫关系的说明(与 `nofollow` 等链接级提示一并阅读),但站点级放行/禁止仍以 robots.txt 与响应状态为准。

步骤

  1. 固化静态资源路径
    确保 /robots.txt、可选的 /llms.txt 由边缘或应用层稳定返回 200,避免被 SPA 回退 HTML 吞掉;可用匿名 `curl -I` 与线上检测各验证一次,排除「开发机可见、边缘未放行」的假阳性。
  2. 校验 JSON-LD
    在预发环境用 Rich Results Test 或 Schema 校验器抽查模板输出;将校验步骤接入 CI 可对样例页做快照对比。语法层面可对照 W3C JSON-LD 1.1 JSON-LD 规范索引页,减少「能跑但不合法」的嵌套与 @context 错误。
  3. 与缓存策略对齐
    注意 CDN 对 HTML 与 JSON 的缓存键;发布结构化数据更新后,应能尽快在匿名抓取视角下看到新版本。

数据与参考区间

下列为公开材料中的典型表述或区间,便于理解背景;不构成本站检测结果的承诺。

  • ≥500 KiB

    实现 robots.txt 解析器时,规范要求至少处理不少于 500 kibibytes 的输入,否则可能与主流爬虫行为不一致。

    出处说明:IETF RFC 9309 §2.5 Limits(https://www.rfc-editor.org/rfc/rfc9309.html )。

  • ≤50,000 URL / ≤50MB(未压缩)

    Sitemap 协议对每个 XML 站点地图文件的 URL 数量与未压缩体积给出上限,超限需拆分为多个文件并用索引串联。

    出处说明:Sitemaps.org《Sitemap protocol》对单文件条目数与大小的说明(https://www.sitemaps.org/protocol.html#index 及协议正文)。

来源与延伸阅读

站内导航