首页 > AI教程资讯

无人谈论的AI堆栈:数据采集作为基础设施

文章来源:08ai导航网发布时间:2025-08-07 16:41:31

人工智能社区痴迷于越来越大的模型、十亿令牌上下文窗口和GPU的微调运行让人感到厌倦,而人工智能堆栈中最被忽视的力量倍增器却静静地位于这一切之下的一层:数据。

让我们明确一点:虽然扩展模型规模仍然很重要,但对于大多数现实世界的人工智能产品而言,性能提升越来越取决于数据质量和新鲜度,而不仅仅是参数数量。将模型规模翻倍以榨取边际收益不仅成本高昂,而且在环境方面也难以为继,因为惊人的电力和水成本根本无法扩展。

该瓶颈已从堆栈中移出。

构建AI原生产品的创始人和首席技术官开始意识到,他们的代理不会错过新兴市场信号,也不会给出空洞的见解,因为“模型”本身“不够智能”——它之所以失败,是因为它盲目地处理过时、不相关或不完整的上下文。正因如此,Salesforce于2025年5月斥资80亿美元收购了Informatica,以增强其AI驱动的Agentforce平台。现在,他们可以访问高质量的实时数据,从而获得更准确、更可扩展的成果。

性能的成败取决于您能检索到什么,而不仅仅是您如何提示。除非您使用的是H100集群或运行着API预算无限的前沿模型,否则您超越巨头的最佳机会是在您负担得起的范围内为模型提供更智能的数据:领域特定、结构化、去重和新鲜的数据。

但在构建情境之前,它必须先存在。这意味着需要可靠、实时地访问开放网络——不仅仅是一次性的数据抓取或数据集,而是能够反映当前情况的强大管道。

各位,这就是基础设施。如果说计算让NVIDIA变得不可或缺,那么我认为下一个重大突破不是更多层,而是更多信号而不是噪声。而这始于将数据采集视为生产基础设施。

“好数据”是什么样的?

如果你正在构建一款AI原生产品,那么系统的智能程度将不再取决于你的提示有多巧妙,或者你能在上下文窗口中塞入多少个标记。而是取决于你能多好地为它提供当下重要的上下文。

但“好数据”的定义相当模糊。让我们来澄清一下。它对人工智能的意义如下:

领域特定:AI辅助优化零售定价需要竞争对手数据、客户评论或区域趋势,而不是无关的噪音。你必须做到精准定位。

持续更新:网络瞬息万变。错过今日X趋势的情绪模型,或使用上周价格的供应链模型,都已经过时了。

结构化和去重:重复、不一致和噪声会浪费计算并稀释信号。结构胜过规模。干净胜过庞大。

实时可操作:过时的数据就是死数据。实时数据——价格变动、新闻、库存变化——能够为即时决策提供支持。但前提是收集数据必须合乎道德、可靠且规模化。

这就是Salesforce收购Informatica的原因——不是为了新模型,而是为了向Agentforce提供结构化的实时数据,以改善下游决策。

正因如此,IBM于2024年7月斥资23亿美元收购了StreamSets,用于打造Watsonx。StreamSets专注于从混合数据源提取数据、监控数据流并处理模式漂移——这使得IBM能够跨企业系统为Watsonx提供最新、一致的信号。对于需要基于实时状态(而非仅仅基于历史模式)进行推理的AI来说,这种基础设施能够带来10倍的增效效果。

这也是Dataweps转向BrightData为飞利浦和华硕等电商客户收集实时竞争对手定价和市场趋势的原因。他们的AI驱动定价和竞价系统依赖于快速、准确的数据,而BrightData的API驱动生态系统(包括代理、存档/数据集、支持AI代理的浏览器自动化工具等)使他们能够可靠且大规模地收集这些数据。BrightData不仅仅是数据抓取,它还提供了现实世界AI系统所需的弹性、容量和合规性。坦率地说,它是一家AI基础设施提供商。

关键在于:检索质量如今胜过提示工程。即使是最好的提示也无法修复模型在推理时提取过时或不相关数据的问题。

正是现在,正确的环境。这就是后Deepseek时代AI生存或消亡的关键所在。

第一步总是最难的

乍一看,数据基础设施听起来像是管道。采集管道、转换、存储?貌似无聊至极。但在RAG和代理AI时代,这种管道已变得至关重要。为什么?因为你的系统不再只是运行推理——它基于外部、不断变化的多模态实时信息进行推理。这改变了一切。

我是这样认为的:现代人工智能数据栈已经发展成为一个成熟的价值链,从信息的获取和提取,到信息的转换和丰富,到信息的整理和排序,再到存储和提供给合适的组件——无论是模型、代理还是人类。每一层都带来了实时挑战和现实后果。与传统的ETL管道不同,它不仅仅是将数据录入数据湖然后留在那里。

大多数团队在第一步就搞砸了:采集。糟糕的数据提取会毁掉上下文。如果你的采集层错过了关键更新,在边缘情况下默默地失败,或者以错误的结构或语言捕获信息,那么你的整个堆栈都会继承这种盲目性。

换句话说:你无法设计你未曾摄取的语境。这里有一篇有趣的论文,《AI海洋中的塞壬之歌:大型语言模型中的幻觉调查》,作者是Zhang等人。该论文展示了在生产级系统中,未解决的摄取问题是“模型幻觉”和其他异常代理行为的最常见根源。

因此,在RAG和代理AI时代,摄取需要具有战略性,这是不容置疑的:

它必须对人工智能代理友好,也就是说,能够提供结构化的、即时的数据。

它必须处理动态UI、CAPTCHA、变化的模式和混合提取(API+抓取)。

多步骤AI代理既需要实时信号,也需要历史记忆——现在发生了什么,之前发生了什么,发生顺序如何,以及原因。因此,该基础设施必须支持定时提取、增量更新和TTL感知路由——所有这些都具有弹性、合规性,并且随时准备应对变化。

它必须具有规模可靠性,并能持续从数百万个来源提供最新信息。

并且必须符合网站条款和法律规范。

这就是为什么脆弱的抓取工具、静态数据集和一次性连接器不再足够好的原因,以及为什么像BrightData这样专注于自动化友好、代理优先数据基础设施的平台正在变得像模型本身一样基础。

我见过像Gemma3这样的开源、开放权重模型在狭窄领域中表现优于GPT-4,仅仅是因为新鲜的、精选的、基于领域的数据让它们能够用于更好的检索系统。

我们来算一下。假设我们将检索到的上下文片段的总效用定义为:

U=i=1ΣkRiFi

在哪里:

Ri∈[0,1]是第i个检索到的片段与查询的相关性得分。