我挣了智谱10,000块

文章来源：08ai导航网发布时间：2025-08-12 10:50:26

你会如何构建Agent以应对下述多轮问答？

1.安井食品在2019年第一季度的最高价、最低价分别是多少？差价是多少？

2.创一季度最高价那一天，该股票是否创下了近一年新高？

3.分析该股票2019年1月份的成交量特征：哪几天的成交量超过月均量的2倍？具体是多少比例？这些放量日的收盘价相比前一日分别上涨/下跌了多少？

如果是400道涉及77张表、3000+字段、涵盖了58个二级市场各个领域（股权、交易、基金、财务、行业、港股、美股等）的类似题目呢？

这些题目来源于由智谱和清华大学联合举办的“地狱级”黑客松 -《2024金融行业·大模型挑战赛》。该黑客松颇为艰困，完全复刻了金融行业二级市场的真实需求。

而经过数月奋战，我，作为一名金融市场“门外汉”，在1300+名选手中“杀出一条血路”，最终获得了全国第七名以及10,000元的奖金。

图1: 老于得奖了

所以，我的Agent是凭何挣了智谱10,000块？

咱们先聊2,500块的。

2,500块

本次赛事一个颇为有趣的设置是：提交一个“能跑”的开源Baseline即可获得2500块奖金，而“能跑”则意味着Agent具备了完整回答多轮问答的水准。为了达成该水准，在初赛，我的Agent采用了以下设计思路：

图2: 初赛设计思路

分而治之。Agent会逐条处理多轮对话中的每个问题。此外，基于GLM将实体关系相对简单（涉及三、四张表以内，外键关系直白）的自然语言直接转化为SQL能力还不错，每个问题也会被拆解为子问题以降低复杂度；

实体识别。识别业务实体所属的库、表和字段是确定场景归属（例如，区分国内市场、美股或港股）和SQL生成（例如，“安井食品”隶属于中文简称字段）的“锚”。而在实际业务环境中，鉴于Agent几乎没有可能从高度管控的业务数据库中“扒”出数据进行Embedding Search，因此使用SQL进行实体召回更为实际；

大模型驱动的决策体系。由GLM依据Memory中的数据状态决定子查询要采取的Action（Search或者Coding），例如，当“最高价”和“最低价”已经存在时，Agent会自主决定通过Coding，而非Search，进行差值计算；

Zero-Shot NL2SQL。在初赛中我们利用了Schem_Links机制实现Zero-Shot NL2SQL，而剔除Few-Shot方案（SQL Template）的原因在于样例召回的小概率偏差会严重影响SQL的生成质量；

查询增强。用于补齐上下文中指代不清或者遗漏的实体信息，例如厘清“那一天”或“该股票”的指代关系。

感谢大模型日渐强悍的Code Gen能力，我在初赛只花了5天时间便基于Multi-Agent和Plan/Reflection框架实现了上述设计思路。

但是，上述思路还不足以挣到10,000块，Agent总要展示点“绝活”。