数据飞轮:ORBEXA 如何持续提升商业数据质量
每一次关于AI代理在商务领域应用的讨论,最终都撞上同一堵墙:数据质量。行业研究表明,部署生产级AI代理所需的工程工作中,大约80%是数据工程——清洗、规范化、验证、丰富代理消费的信息。
数据质量是真正的瓶颈
每一次关于AI代理在商务领域应用的讨论,最终都撞上同一堵墙:数据质量。行业研究表明,部署生产级AI代理所需的工程工作中,大约80%是数据工程——清洗、规范化、验证、丰富代理消费的信息。只有20%与模型本身有关。
这个比例让很多人意外。流行叙事聚焦于模型能力:推理、规划、工具使用。但实际场景中,一个GPT-4级别的模型如果吃进脏数据,就会幻觉出错误的价格、推荐已下架的商品、并自信满满地呈现错误信息。模型不是瓶颈,数据才是。
数据质量差有具体的、可度量的表现。一个缺少货币代码的商品列表导致跨区域比价失败。一个返回404的图片URL让AI代理的推荐看起来像坏掉了。一个过时的库存计数导致代理发起的购买被取消,一次交互就摧毁了用户信任。一个品牌名在目录里有三种写法——"Apple"、"APPLE"、"apple inc."——碎片化了知识图谱,降低了品牌级查询的准确率。
ORBEXA的构建基于一个前提:结构化商务数据的价值完全取决于其准确性、完整性和时效性。平台的数据飞轮——一条持续运转、自我改进的管线——是让其他一切运转起来的核心技术投入。
六阶段管线
ORBEXA通过六个阶段处理商户数据:抓取、提取、验证、评分、丰富、服务。每个阶段有独立的技术挑战、故障模式和反馈机制。管线持续运行,而非批处理作业,但各阶段根据商户的数据变化速度以不同频率运作。
阶段一:抓取
抓取是从商户源获取原始数据的过程。ORBEXA支持三种主要的数据摄入路径:平台API集成(Shopify Admin API、WooCommerce REST API)、针对自建站的DOM爬取、以及针对维护产品Feed的商户的CSV/文件导入。
分布式抓取基础设施管理自适应频率。一个拥有50个SKU且每周才有变化的商户,不需要和一个拥有10,000个SKU且每天更新价格的时尚零售商一样的抓取节奏。ORBEXA追踪每个商户的变化速度,并相应调整抓取间隔——高频目录最快每15分钟一次,稳定的目录可以一天一次。
对于基于DOM的抓取,系统使用无头浏览器渲染来处理那些客户端渲染产品数据的JavaScript重度站点。这比基于API的摄入消耗的资源多得多,但对于长尾的、不暴露结构化API的自建站来说是必需的。
API集成在可用时始终是首选。Shopify的Storefront API提供带类型的、分页的产品数据以及用于实时变更通知的webhook。WooCommerce的REST API提供类似能力。这些路径更快、更可靠,且产出的初始数据比DOM解析更干净。
阶段二:提取
提取将爬取的原始数据转化为规范化的内部表示。电商平台的多样性在这一步带来了巨大的工程复杂度。
Shopify用特定字段的JSON对象表示产品变体:variant.price、variant.sku、variant.inventory_quantity。WooCommerce使用完全不同的模式。自建站可能把变体数据放在HTML data属性里,或通过JavaScript动态生成。
ORBEXA采用混合提取策略。基于规则的提取器处理已知平台——Shopify、WooCommerce、BigCommerce、Magento——因为这些平台的数据模式有文档可循且可预测。机器学习模型处理未知或自建站点,用训练好的分类器从原始DOM结构中识别价格元素、商品标题、图片画廊和变体选择器。
提取层输出标准化的商品对象:标题、描述、图片(经过验证的URL)、价格(以整数分表示并带货币代码)、库存状态、变体维度、SKU标识、品牌名称和分类路径。每个字段有定义的类型,每个字段都可以为null——系统绝不会为填补空缺而编造数据。
阶段三:验证
验证捕获提取无法发现的错误。它以一系列基于领域规则的约束检查来运行。
价格验证 拒绝给定品类中不合理范围之外的价格。一台标价$0.99或$999,999的笔记本电脑会触发标记。货币一致性检查确保一个在店面以美元标价的商户,不会因为基于地理位置的价格切换而被错误地以欧元值摄入。
图片URL验证 对每个图片URL执行HEAD请求,确认返回200状态码和图片内容类型。失效图片被标记但不移除——它们可能是暂时不可用而非永久消失。系统在后续抓取中重新检查被标记的图片。
类目分类映射 将商户特有的类目名称规范化到标准分类体系。一个将产品归类为"男装 > 休闲 > T恤"的商户被映射到与Google产品分类体系对齐的标准化层级结构。这种规范化对跨商户搜索和比较至关重要。
完整性检查 验证必需字段是否存在。没有标题、没有至少一张图片、或没有价格的商品被标记为不完整。这些商品仍然通过API提供服务——代理可能有填补空缺的上下文——但它们会获得更低的质量评分。
阶段四:评分
系统中的每个产品都会收到基于四个维度的复合质量评分,每个维度0-100分。
完整性(0-100) 衡量预期字段中有多少已填充。一个拥有标题、描述、三张图片、价格、SKU、品牌、类目和库存状态的商品得100分。只有标题和价格的商品可能得35分。权重并非均匀——价格和库存状态的权重高于描述长度,因为它们对代理决策的影响更大。
准确性(0-100) 衡量提取数据与源数据匹配的置信度。对于API摄入的数据,准确性初始值为95(API数据也可能过时)。对于DOM提取的数据,准确性取决于ML模型的提取置信分数。从明确标记的<span class="price">元素中提取的价格,比从模糊DOM结构中推断出的价格得分更高。
时效性(0-100) 随最后一次成功抓取后的时间递减。一小时内抓取的商品得100分。24小时后降至约70分。7天后降至30分。衰减曲线按品类可配置——生鲜商品和限时特卖的衰减比图书或工业设备更快。
一致性(0-100) 衡量数据点之间的对齐程度。如果商品标题写"红色跑鞋"但颜色属性是"蓝色",一致性会下降。如果价格在两次抓取间变化了50%且没有对应的促销标记,一致性会标记这一差异以待审核。
复合评分是加权平均:完整性(25%)、准确性(30%)、时效性(25%)、一致性(20%)。这个分数在API响应中暴露,允许消费端代理做出信任度调整后的决策。
阶段五:丰富
丰富在不编造信息的前提下,利用外部参考源填补商户数据的空缺。
GTIN/UPC解析 将产品标题和SKU与制造商数据库交叉引用,以填充缺失的条码标识。一个列出"Sony WH-1000XM5"但没有GTIN的商户,可以通过查询Sony公开的产品目录解析到正确的条码。
品牌名规范化 将不同写法合并为标准形式。"Apple"、"APPLE"、"apple inc."和"Apple Inc."全部解析为带有一致标识符的单一标准品牌实体。这种规范化使用维护中的已知品牌词典,辅以针对新兴或小众品牌的模糊匹配。
类目丰富 利用产品属性来建议或优化类目归属。一个标题包含"蓝牙"、重量低于500克、价格在20-200美元区间的产品,对"电子产品 > 音频 > 耳机"类目有很强的信号,即使商户没有明确分类。
描述增强 不会改写商户描述,但可以从中提取结构化属性作为补充。如果产品描述中以自由文本提到"续航:30小时",丰富层会将其提取为结构化属性(batteryLife: "30h"),代理可以直接查询。
阶段六:服务
服务层通过多个协议端点暴露经过丰富和评分的产品数据:MCP资源和工具、UCP REST API、ACP JSON-RPC方法。
服务不是简单的数据库读取。ORBEXA采用两层缓存架构。Redis作为L1缓存,将高频访问的产品数据保存在内存中以实现亚毫秒级读取。PostgreSQL(托管在Supabase上)作为持久化存储和L2缓存,处理完整目录和历史数据。
缓存失效是事件驱动的。当抓取检测到变化时,受影响的缓存条目立即失效,而不是等待TTL过期。这确保代理始终接收到最新的可用数据,即使是对高频变化的商户目录。
服务层还处理协议特定的格式转换。同一底层产品数据被转换为Schema.org兼容的JSON-LD用于UCP响应、MCP资源对象用于Claude和Cursor集成、以及ACP格式的载荷用于OpenAI代理交互。
异常检测
管线包含专门的异常检测模块,与主处理阶段并行持续运行。
价格异常 在两次抓取间价格下降超过80%且没有对应促销或清仓标记时触发标记。这既能捕获数据提取错误,也能发现潜在欺诈(商户用诱饵价格吸引代理流量)。类似地,突然上涨超过300%的价格也会触发审核。
评论数暴增 检测人为操纵。如果一个产品的评论数在两次抓取间从10跳到500,异常检测器会标记以待验证。合法的评论激增(产品走红)与可疑模式的区分,依靠在可用时与销售速度数据的关联来实现。
库存不一致 标记那些显示"有货"但库存计数为零、或反过来的产品。这些矛盾通常表明来自某个源的数据已过时,尚未与另一个源完成核对。
模式漂移检测
电商网站频繁改版。当商户更改网站结构——新模板、新CSS类名、新DOM层级——针对该站的基于规则的提取器可能静默失效。模式漂移检测持续监控每个商户的提取成功率。
特定商户的提取完整性突然下降会触发自动重新评估。系统回退到基于ML的提取,同时标记该商户以更新提取规则。大多数情况下,ML模型可以在无需人工干预的情况下处理中等程度的模式漂移。重大结构性变化需要更新的提取规则,这些规则作为配置变更部署,不需要代码发布。
反馈循环
管线不是单向的。两个反馈机制驱动持续改进。
消费者上报问题。 API消费者——查询ORBEXA端点的AI代理和应用——可以通过结构化反馈端点报告数据质量问题。一个报告某产品价格错误的请求会触发即时重新抓取和提取验证。多个消费者对同一产品的汇总报告具有更高权重,可以自动调整提取置信分数。
提取规则迭代。 当验证或异常检测阶段反复标记来自特定商户的产品时,该商户的提取规则会被自动审查。验证失败中的模式——例如价格持续比预期高10倍——通常指向系统性的提取错误(比如错误解析格式化价格字符串),可以一次性修复整个商户目录。
技术栈
ORBEXA的数据管线运行在一个以可靠性和运维简洁性为选择标准的技术栈上。
PostgreSQL(Supabase) 作为主数据存储。产品数据、商户配置、提取规则和质量评分全部存储在PostgreSQL中。Supabase提供带行级安全的托管服务、用于缓存失效事件的实时订阅、以及用于轻量级处理的Edge Functions。
Redis 提供L1缓存层。热点产品数据缓存在Redis中,TTL根据每个产品的时效性衰减速率校准。L2 PostgreSQL层以个位数毫秒延迟处理索引查询的缓存未命中。
后台作业队列 管理异步处理阶段。抓取任务、提取任务、验证执行和丰富任务全部作为带有重试逻辑、死信处理和按商户限速的后台排队作业运行,以避免压垮源站。
商业影响
飞轮效应很直接。更高的数据质量产生更高的代理置信分数。更高的置信度意味着代理更可能推荐ORBEXA连接商户的产品。更多推荐带来更多商户收入。更多收入吸引更多商户加入平台。更多商户提供更多数据来优化提取和丰富模型。
这不是理论上的循环。质量评分直接影响AI代理如何排序和呈现产品。一个代理在比较两个相似产品时——一个质量评分92且结构化数据完整,另一个评分45且字段缺失——会优先展示质量更高的listing。随着时间推移,这在数据干净的商户和数据不完善的商户之间创造了可度量的收入差异。
数据质量不是一个功能,它就是产品本身。