工程技术 · 10 分钟阅读

零成本投入让你的产品对AI代理的可见度提升3.4倍

普林斯顿和斯坦福研究人员发现,GPT-4在结构化商业数据上达到54%准确率,而在非结构化HTML上仅16%——仅通过数据格式化就提升3.4倍。Schema.org JSON-LD就是这个格式。以下是具体实施方法。

16% 对 54%

这两个数字应该重新定义你对产品数据的认知。

在WebArena基准测试中——由普林斯顿和斯坦福研究人员开发的AI代理Web任务严格评估——GPT-4在处理非结构化HTML时端到端准确率为16%。同一个模型,给它明确语义的结构化数据,准确率达到54%。

3.4倍的提升。不是来自更好的模型,不是来自更多训练数据,而是来自格式化。

驱动这个提升的格式是Schema.org——具体来说是嵌入在页面<head>标签中的JSON-LD。这是由Google、Microsoft、Yahoo和Yandex共同维护的词汇表,给 AI 提供理解产品、价格、评论和品牌的标准化方式。

Schema.org不是新东西。Google从2011年起就用它做富搜索结果。变化的是受众。2024和2025年,AI购物代理——不只是搜索爬虫——开始把Schema.org JSON-LD作为主要数据来源。"有结构化数据"和"没有结构化数据"之间的准确率差距从SEO加分项变成了二元门:可见或不可见。

AI代理实际读取页面上的什么

当AI购物代理访问你的产品页面时,它不渲染CSS,不执行JavaScript,不欣赏你的产品大图。

它在<head>中寻找<script type="application/ld+json">标签。如果找到包含Schema.org Product标记的,它提取:产品名称、描述、SKU、品牌、价格、货币、库存状态、评分、评论数和图片。干净、有类型、无歧义的数据。

如果没有JSON-LD,代理退回到解析HTML DOM。它看到<span class="pdp-price__main">然后猜测那是价格。看到一个包含"有货"文字的div然后推断库存状态。每个推断点都是失败点。

16% vs 54%的差距不是因为HTML天生就差。而是因为HTML是为人类设计的。JSON-LD是为 AI 设计的。

杀死结构化数据的七个错误

分析了数千个电商结构化数据实现后,以下是反复出现的错误:

1. 价格写成字符串。 "price": "$139.99" 是错的。美元符号导致无法解析。正确写法:"price": "139.99" 配合 "priceCurrency": "USD"

2. 缺少库存状态。 不声明availability,AI代理就假设库存未知。未知等于风险。风险等于不推荐。

3. 数据过时。 JSON-LD显示有货但产品两小时前就卖完了。推荐了缺货产品的AI代理会学会降低你店铺的优先级。这就是实时同步重要的原因。

4. 品牌不是实体。 "brand": "TrailForge" 是错的。应该是 "brand": {"@type": "Brand", "name": "TrailForge"}。嵌套实体让AI代理将产品与知识库中的已知品牌匹配。

5. 只有一张图。 多张产品图提升AI代理信心。只有一张图的产品看起来比有三张的不那么靠谱。

6. 没有综合评分。 有评分的产品比没有的更容易被推荐。有评论就加aggregateRating。没有评论不要编造。

7. 自引用的offers URL。 offers URL应该指向产品可以实际购买的规范产品页面,不是分类页或搜索结果。

自动化问题

50个产品的店铺,手动写JSON-LD繁琐但可行。5,000个产品的店铺,不可能。50,000个产品跨多变体、语言和货币,手动维护连讨论的意义都没有。

这正是ORBEXA知识图谱引擎解决的核心问题。原始产品数据输入——来自Shopify、WooCommerce、CSV甚至视觉抓取——完整的Schema.org JSON-LD输出。每个产品、每个变体、每个属性、每次更新。自动。实时。

知识图谱不只是把现有数据套进JSON-LD模板。它规范化属性(把"大号""L""加大"统一为标准值),用结构化属性数据增强稀疏描述,根据Schema.org要求验证完整性,并通过UCP、MCP、ACP协议端点提供结果。

WebArena的数据很明确:结构化数据不是优化,是先决条件。AI代理解析HTML时错过的84%产品信息不是四舍五入的误差,是被推荐和不可见之间的差距。

← 返回新闻