面向开发者:GEO 相关的工程清单
定义
开发者侧 GEO 准备度通常落在可抓取性(HTTP 状态、重定向链、CDN 规则)、机器说明文件(robots、llms.txt)、结构化数据有效性(JSON-LD 语法、类型与必填字段)以及 渲染一致性(SSR/CSR 下关键 Meta 是否一致输出)。报告以与检测工具一致的12 项分项呈现,其中上述工程层次主要映射核心五类;扩展分项(如 AI 发现端点、JS 渲染)补充可观测性。结构化类型的字段语义应以 Schema.org 文档 为准,避免复制粘贴第三方示例却不核对必填项。robots 指令的语义与常见误区还可对照 MDN 关于 rel 与爬虫关系的说明(与 `nofollow` 等链接级提示一并阅读),但站点级放行/禁止仍以 robots.txt 与响应状态为准。
步骤
- 固化静态资源路径确保
/robots.txt、可选的/llms.txt由边缘或应用层稳定返回 200,避免被 SPA 回退 HTML 吞掉;可用匿名 `curl -I` 与线上检测各验证一次,排除「开发机可见、边缘未放行」的假阳性。 - 校验 JSON-LD在预发环境用 Rich Results Test 或 Schema 校验器抽查模板输出;将校验步骤接入 CI 可对样例页做快照对比。语法层面可对照 W3C JSON-LD 1.1 与 JSON-LD 规范索引页,减少「能跑但不合法」的嵌套与 @context 错误。
- 与缓存策略对齐注意 CDN 对 HTML 与 JSON 的缓存键;发布结构化数据更新后,应能尽快在匿名抓取视角下看到新版本。
数据与参考区间
下列为公开材料中的典型表述或区间,便于理解背景;不构成本站检测结果的承诺。
≥500 KiB
实现 robots.txt 解析器时,规范要求至少处理不少于 500 kibibytes 的输入,否则可能与主流爬虫行为不一致。
出处说明:IETF RFC 9309 §2.5 Limits(https://www.rfc-editor.org/rfc/rfc9309.html )。
≤50,000 URL / ≤50MB(未压缩)
Sitemap 协议对每个 XML 站点地图文件的 URL 数量与未压缩体积给出上限,超限需拆分为多个文件并用索引串联。
出处说明:Sitemaps.org《Sitemap protocol》对单文件条目数与大小的说明(https://www.sitemaps.org/protocol.html#index 及协议正文)。
来源与延伸阅读
- Google:robots.txt 简介与爬虫协作的基础规则说明。
- JSON-LD轻量关联数据序列化格式官方站点,与 Schema.org 常配合使用。
- MDN:HTML rel 属性链接关系与爬虫提示的参考文档,可与 robots 规则对照。
站内导航