Bill Inmon：为什么你的数据湖需要的是 BLM，而不是 LLM

文章来源：万象ai发布时间：2025-07-28 11:48:48

当你尝试使用文本生成AI解决结构化数据问题时，你投资的数据湖就变成了‘污水池’。”——BillInmon

根据Gartner的研究，85%的大数据项目都失败了。2023年，规模达152亿美元的数据湖市场增长了20%以上，但大多数企业却无法从文本数据中提取价值。

“数据仓库之父”BillInmon将这些失败的实施称为“污水池”和“数据沼泽”。这就是为什么你现在的方法不起作用的原因。那么，什么才是有效的呢？

大语言模型的陷阱正在耗尽预算

供应商一直在推销同样不完善的解决方案：“只需将ChatGPT添加到您的数据湖中！”

这个建议会让你付出高昂的代价。

ChatGPT每天要花费70万美元才能维持运营。对于中型应用程序，企业实施每月的运行成本为3,000至15,000美元。对于处理10万次以上查询的组织来说，仅API成本每月就高达3,000至7,000美元。

这还不包括基础设施开销。

但成本并不是真正的问题，根本问题更为严重。

ChatGPT生成的是文本，而不是结构化数据

当您分析10,000张客户支持票时，您不希望ChatGPT撰写有关客户感受的文章。

您需要结构化数据。

情绪评分、分类问题、趋势指标、可操作的洞察，填充仪表板并推动决策。

ChatGPT会给你更多文本阅读。这与你的需要恰恰相反。

95%的浪费问题

以下是Inmon的杀手级见解：ChatGPT的知识中只有5%与您的特定业务相关。

大型语言模型涵盖了世间万物。军事地图、名人趣闻、体育统计数据、流行文化参考。您的银行业务不需要了解达拉斯牛仔队的统计数据。

但你却要为这一切付出代价。

对于关键任务决策来说不可靠

ChatGPT会产生幻觉。它会生成看似合理但实际上完全错误的信息。

87%的数据科学项目从未投入生产。不可靠的人工智能使这一问题更加严重。

在企业环境中，可靠性每次都胜过创造力。

企业人工智能军备竞赛无人获胜

Inmon称之为“巨大的宇宙笑话”。

美国银行、花旗集团、富国银行、摩根大通等主要银行都投入了数百万美元来打造基本相同的大型语言模型。

保险公司、医疗保健机构、制造公司也都这么做。

每个人都在构建庞大的通用模型，但实际上他们只需要其中的一小部分功能。

2024年，人工智能市场规模达到2350亿美元，到2028年将超过6310亿美元。然而，70%的组织仍在进行试验，而不是部署可用于生产的解决方案。

与此同时，54%的组织在基本数据移动方面遇到困难——这是任何人工智能项目的基础要求。

这就像购买一把带有500种工具的瑞士军刀，而您只需要一把螺丝刀。

BLM商业语言模型：外科手术解决方案

商业语言模型(BLM)不是采用通用的万能模型，而是采用精确的方法。

它们恰好包含两个组件：

行业特定词汇(ISV)：您所在行业独有的术语

通用商业词汇（GBV）：通用商业语言

这种有针对性的方法与Gartner的预测相一致，即企业将转向特定领域的语言模型和可以微调的更轻量级模型。

微软最近推出了针对特定行业的定制化人工智能模型。他们正在与拜耳在农业领域合作，与Cerence在汽车领域合作，与罗克韦尔自动化在制造业合作。

市场认识到行业特定的人工智能能够带来真正的价值。

现实世界的BLM示例

银行业BLM包括：

贷款、信用卡、储蓄账户

外汇兑换、出纳、支票

法案合规、付款保证金

存折条目、付款到期日

餐饮业BLM包括：

服务模式、菜系（墨西哥菜、中国菜、意大利菜）

餐具、烹饪方法、菜单规划

高级餐厅、牛排馆、快餐类别

厨房运营、服务员管理

关键的见解是：这些词汇并不重叠。

银行术语从来不会出现在餐馆的语境中。餐馆术语从来不会出现在银行的语境中。

这种分离可以实现激光聚焦的准确性和效率。

真正有效的情境智能

BLM不仅能识别术语，还能理解关系：

法律法规→认定为立法

发薪日贷款→与信用卡功能挂钩

付款银行→归类为银行机构

APR（年利率）→连接到利率规范

AFN→被认定为阿富汗货币

这种情境理解确实能带来成效。麦肯锡报告称，如果高级文本分析部署得当，呼叫处理时间可减少40%，转化率可提高50%。

普通的LLM无法达到这种精度。

你不想构建BLM的69个复杂因素

想要创建自己的BLM吗？不。

Inmon的团队确定了69个必须解决的复杂因素。以下是一些需要解决的问题：

语言挑战

邻近分辨率：“达拉斯牛仔队”vs.“达拉斯”vs.“牛仔队”

地区拼写：“colour”（英国）与“color”（美国）

否定处理：正确解释“不”、“从不”、“无”

技术障碍

同形异义词解析：“HA”可能表示心脏病发作、头痛或甲型肝炎

词干提取：识别“moving”与“move”相关

多语言支持：西班牙语、德语、法语、俄语、普通话

姓名识别：识别“MaryLevens”这个人

情境智能

火灾可能意味着建筑物紧急状况、武器发射或终止雇佣关系

每个上下文都需要不同的处理并产生不同的分析输出。

大多数组织都低估了这种复杂性。

从沼泽回到湖泊：转变

如果正确实施，BLM会将非结构化文本转换为结构化的可查询数据。

这项功能解决了一个重大问题。每天会产生3.28亿TB的数据。2025年，每年将产生超过181ZB的数据。

80%到90%的商业数据都是非结构化的。然而，根据德勤的研究，只有18%的公司利用非结构化数据。

BLM使组织能够应用熟悉的分析工具：

Tableau用于可视化

Excel分析

用于关系映射的知识图谱

自定义仪表板，提供实时洞察

行业应用取得成果

医疗保健：医疗记录和药物试验分析。

财务：客户情绪和合同评估。FitBit在六个月内分析了33,000条推文，以自动识别产品痛点。

保险：保修索赔和风险评估与精确匹配。

法律：合同分析和合规性监控。文本挖掘可识别案例先例并撰写有影响力的法律论据。

制造业：用于预测见解的质量报告和维护日志。

模式很明显：大多数组织缺乏资源或工具来解析企业规模的非结构化数据。BLM系统地解决了这个问题。

预先构建的优势改变一切！

这些特定于行业的BLM已经存在。

据Inmon称，预先构建的模型涵盖了大约90%的所有业务类型：

保险、银行、建筑

房地产、制药、航空

零售、酒店、石油和天然气

餐厅等等

只需极少的定制

虽然BLM涵盖了绝大多数行业术语，但每个组织都有独特的术语。

定制很简单，通常占总词汇量的不到1%。无需从头开始建造。

需要采取行动的数字

85%的大数据项目失败。87%的数据科学项目从未投入生产。70%的组织仍在试验人工智能。同时2024年企业管理的非结构化数据将翻一番。

数据生成和数据利用之间的差距日益扩大。

商业语言模型代表着一种范式转变：从昂贵的通用人工智能到精确的、以行业为中心的、可立即获得投资回报的人工智能。

与ChatGPT每天70万美元的运营成本不同，BLM提供具有成本效益、有针对性且可有效扩展的解决方案。

实施路线图

前进的道路比大多数人意识到的要清晰得多：

1.评估您当前的文本分析方法。54%的组织在数据迁移方面举步维艰，85%的大数据项目以失败告终，因此了解您当前的状况至关重要。

2.确定您的行业特定词汇需求请记住，80-90％的业务数据是非结构化的，只有18％的公司利用它。

3.评估适合您行业的预先构建的BLM选项，而不是通过通用解决方案加入价值2350亿美元的AI市场。

4.计划最低限度的定制要求，通常少于总词汇量的1%。

5.利用现有的分析工具来实施，充分利用您当前的基础设施投资。

实施策略

问题不在于您的组织是否需要更好的文本分析。

随着非结构化数据在2024年翻一番，且70%的组织仍在试验人工智能，紧迫性显而易见。

真正的问题是：你会选择高效、有针对性的商业语言模型吗？还是继续纠结于那些消耗资源、却提供极少价值的通用解决方案？

您的数据湖不必一直是一片沼泽。

如今，将人工智能重新转化为战略资产的工具已经面世。随着人工智能市场规模到2028年将增长至6310亿美元，商业语言模型就是您将数据负债转化为竞争优势所需要的。

本文来自微信公众号“数据驱动智能”（ID：Data_0101），作者：晓晓，经授权发布。

上一篇: Meta发布“意念操控”腕带，研究登Nature，要抢马斯克生意？

能隔空写字，还能意念操控。