开源模型还是商业模型？阿里云智能张翅提出金融企业选择大模型的6大挑战

文章来源：万象ai发布时间：2025-07-09 16:22:36

大模型发展背景与趋势

大模型是DT时代标志性产物

大模型是数字转型（DT）时代的产物，标志着人工智能技术的一次重大突破，尤其是在自然语言处理（NLP）、图像识别、推荐系统等领域。这些大模型，如OpenAI的GPT系列、Meta的Llama、Google的Gemini，基于Transformer架构，通过消化海量数据集进行预训练，获得了对人类语言、图像等数据的深入理解和处理能力。

AI原生是一种全新的技术架构和思维方式，将AI技术作为一种基础能力，深度整合到企业的基础设施、业务流程、产品设计和服务模式中。

金融机构作为国民经济的中枢支柱，其运作效能、风险管控及服务质量对社会经济的整体稳定与发展具有深远影响。金融级AI原生（Financial-Grade AI Native）是一个综合性概念，旨在描述那些专为满足金融行业最严格需求而设计和优化的AI系统和应用。这些系统不仅在技术层面上高度先进，还在安全性、可靠性、可扩展性和合规性等方面达到了金融行业的高标准。

金融级AI原生的六大要素

AI技术在金融行业中扎根生长并深入应用，必须严格遵循金融行业的业务规则与标准，这就催生了专为金融领域打造的金融级AI原生。综合考虑金融级行业要求、AI原生核心技术，我们将金融级AI原生总结为如下6大要素：

要素1：可靠性和稳定性

当前金融行业随着数字化、智能化的转型，越来越多的金融级AI原生应用涌现，大规模智算资源的统筹管理和编排调度，对于确保金融基础设施的连续性与稳定性成为至关重要的能力基石。下面从训练态和推理态两个方面来说明智算平台需要提供怎样的能力来保证应用的可靠性和稳定性。

训练态：

智算平台需要大规模集群调度管理，洞察集群状态与性能变化，掌控系统全貌。通过训练引擎自动容错来屏蔽底层错误，提升任务稳定性和鲁棒性。通过实时保存模型文件，大幅度提高训练任务的整体效率。通过云原生性能测试平台，完成一键测试系统性能，及时发现隐藏的瓶颈。

推理态：

目前大模型的推理部署还没有一个事实标准，一方面不断有新的模型发布，另一方面也不断有新的训练和推理方法被提出，再者国产化GPU硬件和软件生态也在快速迭代，这给大模型推理服务生产上落地带来不小挑战。为了应对上述挑战在模型准备和部署阶段，我们建议遵从以下原则：

分层设计：由于模型本身文件较大，模型加载和启动时间往往以分钟甚至小时计。在模型准备阶段，将运行依赖环境、模型文件、推理代码分层设计统一验证并推送到合适的存储服务层；在模型部署阶段，通过云平台存算分离，共享挂载、缓存加速等方式实现模型的快速部署和加速启动；

统一调度：基于K8S 对IaaS 云服务或者客户 IDC 内各种异构的计算（如CPU，GPU，NPU）、存储（OSS，NAS， CPFS，HDFS）、网络（TCP， RDMA）资源进行抽象，统一管理、运维和分配，通过弹性和软硬协同优化，持续提升资源利用率。

云化部署：借助K8S调度框架和云化基础设施，实现对大模型应用的多实例高可用部署和故障自动切换。

要素2：低延时与高并发

大模型在实现低延时和高并发处理方面是AI原生应用的重大挑战之一，尤其是在需要实时响应和服务大量用户的应用场景中。

实时交易的场景下，系统需要几乎实时地处理和响应用户的查询或请求。如银行行业客户通话的场景中，需要应用大模型实时识别用户意图，并实时反馈相应的话术，这个场景对大模型的时延要求非常高，需要在很短的时间来做出相应的应答。同样在保险行业中，利用大模型处理车险、健康险等理赔案件，需要迅速分析上传的图片、视频及其他证据材料，快速准确地完成初步定损工作。当前，推理优化、加速主要有几种方式，如模型架构（使用MoE架构）优化、模型本身（剪枝、量化、知识蒸馏等）优化，和利用多机多卡环境进行数据并行、模型并行，分散模型负载，加速计算过程。

高并发场景是指在短时间内有大量用户请求涌入系统，要求系统能快速响应并处理这些请求，保证服务的稳定性和用户体验。如红包发放的促销活动期间，大量用户同时进行请求，在红包领取的同时需要应用大模型做实时推荐。高并发可以通过调度优化来支撑，调度系统可以根据请求状态的动态变化对调度决策进行适应性调整，并以此实现如负载均衡、碎片整理、请求优先级、高效的实例扩缩容等一系列调度特性和优化。

我们来看一个实际的案例：一家互联网金融企业，在外呼过程中，通过大模型识别客户意愿，完成多轮客户对话交互。

从当前业务模式观察，存在显著的忙闲周期：在需求高峰时段，必须确保充足计算能力以维持业务运营，确保客户享受到优质的外呼体验；而到了低谷期，则需释放这些资源，以便供给其他业务利用。然而，当这些释放的计算资源无其他业务承接时，便会造成极大的资源闲置。专为某特定业务保有大量计算资源是不切实际的，因为通常情况下，这些资源的使用效率极低，仅能达到约10%。因此，寻找一种既能应对峰值需求，又能高效利用资源的策略显得尤为重要。而混合云架构可以较好地解决这个问题，利用金融云的弹性资源来满足波峰波谷的业务需求。

要素3：扩展性与多样性

大模型的扩展性与多样性是确保其在未来可持续发展和适应新需求的关键属性。这两个概念在大模型的设计、开发、部署和维护过程中扮演着重要角色。

扩展性是指为了满足业务发展的需求，需要一种弹性的伸缩架构，满足大模型应用对不断增长算力的需求。通过这种弹性的伸缩架构，来解决了前面提到的“有限算力”的问题。

对于金融客户来说，目前有三种算力资源扩展的形态可以选择：

一、直接使用金融云的公共资源池。对于数据可以上云的客户来说，企业无需自行构建复杂的算力基础设施或大模型开发平台，而是直接利用公共资源池来进行模型推理和高效微调。金融云提供了简便的应用开发平台，开发完毕的应用能够便捷地通过API接口进行业务集成与调用，在金融云环境中，可以按需随意进行算力资源的扩缩容，从而极大地提升了效率和灵活性。

二、金融云客户VPC方式。对于有数据安全管控需求的客户，建议采用VPC方式。大模型应用及知识库部署在金融云客户VPC环境中，确保推理过程中产生的数据及微调所用的数据均存储在客户VPC的区域内，以此加强数据的隐私性和安全性。应用的开发工作在公共资源池的平台进行，同时该平台支持大模型的微调及推理等功能。一旦应用开发完成，便部署到客户VPC区域，并通过API接口无缝对接公共资源池中的大模型服务，实现高效、安全的资源调用与协同作业。在客户VPC方式中，同样可以根据需要对算力资源进行动态扩缩容。

三、线下IDC与金融云混合方式。对于私有数据不能出域的客户，可以采用线下数据中心(IDC)与金融云混合的方式。企业在其内部的IDC中构建智能计算集群，部署大模型及应用开发平台。应用的开发全程在IDC内完成，并在IDC环境中部署运行。在面对业务高峰或IDC资源紧张的情况下，企业可以采取灵活策略，将大模型扩展到金融云的资源池中，实现流量的智能分配，将部分业务负载转移到金融云上进行高效的模型推理，以应对高并发需求。同时，根据实际需要，可以选择性地将微调数据迁移至金融云，利用其强大算力进行模型的微调，进一步优化性能和服务能力。

混合云解决方案支持大模型在私有云和公共云之间无缝迁移和部署，用户可以通过统一的云管理平台对分布在不同环境下的计算资源进行集中管理和调度，简化运维复杂性。在网络互联上，通过先进的混合云网络技术，实现网络的高速稳定互联。

我们来看一个实际的案例：某证券公司通过大模型将咨询、公告、年报、研报、路演、业绩通告视频等多模态信息纳入知识库，满足内部分析师和机构用户的知识问答、观点总结生成。应用大模型准确理解用户搜索意图并提供逻辑分析能力、归纳总结能力。

1、客户线下IDC进行大模型微调，对微调好后的模型在线下IDC和金融云两套环境进行模型部署；

2、业务调用时，分为两种情况：

1）业务流程正常的情况下，直接使用线下IDC的资源，为业务提供在线推理服务。

2）当业务流量高峰期间，如果线下IDC资源不足以应对业务调用，采用分流的方式，将用户请求调拨至金融云，从而实现高效的SLA保障。在这种调用方式下，考虑到私有数据不能出域的情况下，需要在线下IDC完成敏感信息处理工作，将脱敏后的内容调用金融云上的大模型。

大模型的多样性体现在多个方面，包括模型尺寸的多样性、多模态、模型部署形态的多样性、和应用场景的适配性。为顺应不同场景用户的需求，有不同参数规模横跨5亿到1100亿的多款大语言模型。在模型的部署形态上，小尺寸模型可便捷地在手机、PC等端侧设备部署。在应用场景的适配性上，大尺寸模型如千亿能支持企业级和科研级的应用；中等尺寸如30B左右的在性能、效率和内存占用之间找到最具性价比的平衡点。

正是因为大模型的多样性，使得在具体的业务场景，可以采用大小模型相结合，既能充分利用大模型的优点，又能保持成本效益。通过将任务分解，用大模型处理那些需要高准确性的复杂分析，用小模型则快速处理那些对时效性要求高的任务。

以我们在财管领域的一个客户为例，通过大模型来进行问题规划和任务分解，通过小模型来构建各种Agent，实现了跟蚂蚁支小宝相似的效果。通过大小模型相结合的方式，既满足了需要，也降低应用成本。

大小模型相结合构建理财机器人

要素4：安全性与合规性

2023 年 8 月 15 日，国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局公布《生成式人工智能服务管理暂行办法》开始正式施行，办法对大模型训练数据、数据标注、内容生成规范、内容生成标识、算法备案机制、监督和责任都提供了相应的指引和要求。

生成式人工智能的安全管理需要贯穿产品的全生命周期，包括模型训练、服务上线、内容生成、内容传播各阶段。

● 在模型训练阶段，奠定了模型的能力基础，也决定了模型自身的安全性；这个阶段会涉及到数据和模型，不会和用户发生关联。相应的风险治理工作包括：训练数据的筛选和过滤、模型安全评测、模型对齐与内生安全增强、算法机制机理审核。

● 在算法服务上线阶段，服务提供者需要选择安全有效的模型作为基座构建完整的算法服务。在这个阶段并不涉及模型的训练、使用的数据，但是会决定对模型的核验、对模型的使用方式、调用的工具集等。

● 在内容生成阶段，大模型生成的内容是用户和模型交互的结果。用户的输入，以及模型对用户之前输入的反馈，都影响到模型当前的生成。用户使用生成式人工智能服务的目的、是否主观上给出恶意输出和诱导，很大程度上决定了模型输出内容的安全性。

● 在内容传播阶段，内容的传播方式和途径、范围是风险的决定性因素之一。在传播环节出现的风险，需要建立相应的风险治理技术手段和工作机制。

在整个产品的全生命周期中，其中的模型安全和内容安全是两个最关键的点。模型安全关乎技术底层的坚固与防御能力，是支撑系统运行的根基；而内容安全则侧重于对外交互的信息质量与合法性，是保障用户体验和社会影响的表层防护。两者相辅相成，共同构建AI产品全生命周期的安全体系。

模型安全：通过自动发现大模型有害的行为（red teaming）和安全增强（Safety Enhancement）来不断增强模型安全。

内容安全：采用知识计算的风险防控模式（采用人机协同的方式定义计算框架），主要涉及到数据层、知识层、算子层三个层面的能力。

● 数据层汇聚了涉及内容风险的原始数据，以及针对不同风险领域精炼加工的结构化数据；

● 知识层包含预训练模型和知识图谱，预训练模型用于实现对通用数据的归纳，知识图谱实现对风控专业知识的组织与沉淀，解决知识碎片化、数据获取难的问题；

● 算子层拆解出目标更明确的简单任务，构建端到端的神经算子，实现风险复杂判定逻辑简化解耦。

大模型的合规性关乎遵守相关法律、法规和内部政策，确保大模型的应用不违反任何法律规定，并保护消费者的利益。

数据隐私与保护，语言大模型的主要功能是模拟人类的思维活动方式生成人类可以理解和使用的内容，模型的训练对语料库这一类知识性内容有强烈的需求，但不依赖和使用用户行为数据。

透明度和可解释性，金融等行业的监管机构要求理解AI模型的决策过程，尤其在关系到重大决定如贷款审批或保险索赔时。因此提高模型的透明度和可解释性是一个重要的合规要求。

偏见和公平，消除这些偏见并确保模型对所有人群公平是模型合规性的重要部分。

持续监管和审计，合规性不是一次性的任务，而是需要持续监管和审计。金融机构等需要确保使用的大模型在整个生命周期内都符合监管要求，并能适应法规的变化。

大模型的合规性是一个多层面的、涉及多个利益相关者的挑战，需要综合技术、法律和道德考虑来处理。金融机构在使用大模型时需要密切关注相关法律法规的发展，并且可能需要专门的法律和技术专家团队来确保模型遵循所有适用的合规要求。

要素5：准确性与严肃性

大模型的“准确性”与“严肃性”是两个评估模型性能和适用性的关键维度，特别是在涉及专业场景和重要决策时尤为重要。

准确性是衡量大模型输出结果与预期目标或实际情况相符的程度。模型在处理给定任务时，例如回答问题、分类文档、翻译文本或者识别图像时，其输出与真实答案或标准标签的匹配程度。严肃性在大模型的语境下，更多指模型生成内容的专业性、可靠性、责任性和道德规范性。在金融这个高度专业化和监管严格的领域，大模型产出的信息必须是经过严格筛选、无误导性且遵循行业规范的。严肃性还包括模型不得滥用或传播不实、不恰当或有害的信息。

为了保证大模型的准确性和严肃性，不仅要在技术层面提升模型的泛化能力和知识完备性，还要在训练数据、模型设计、后处理步骤等方面进行严格控制，并结合领域专家知识、实时监控和用户反馈进行持续优化和修正。同时，对于可能出现的伦理和社会影响问题，也要有相应的政策和机制来预防和应对。

下面是某证券公司的实施案例：

1、构建知识库：基于咨询信息、专业内容、投教百科研报、投研框架、指标信息等，构建基础投研知识库。并将以往历史问答、专家经验以投研框架的方式进行回流，实现持续性的知识生产和知识库运营。

2、知识加工：将各种知识，经过以下的步骤进行处理，文本分段（chunking）、类目标签、实体抽取、质量分、向量表示、item的时效性等，形成相应的向量。

3、知识检索：用户的query进来，经过Query改写、向量召回和相关性模型打分等几个步骤，把得分高的知识送到大模型。

4、观点打分：对与大模型生成观点，由专家进行打分。作为RLHF的训练样本，从而不断优化模型。

要素6：开放性与兼容性

金融级AI原生开放性的核心，在于确保安全合规的基础之上，借助先进的技术架构与广泛的生态合作力量，驱动金融服务向智能化方向转型升级，加快创新步伐，满足日益增长的市场需求。而大模型的开源实践，则成为了实现这一开放性愿景最为直接且高效的战略路径。

开源对于创新活力、产业生态、行业发展、模型优化都具有重大意义。开源模型可以降低技术门槛，使得更多的研究者和开发者能够访问最先进的AI工具，受到启发，提升创新活力。开源大模型通过社区的方式，吸引开发者和研究人员共同改进模型，以及在模型的基础上构建各种工具，推动模型的深度应用，打造产业生态。促进行业发展，一方面，企业间开放共享可以减少重复开发相同功能的模型所浪费的资源，使得企业能够集中精力在差异性的研究上；另一方面，开源允许任何人在代码级别检查模型的行为和性能，增强了大模型的代码透明度。最后，开源社区的使用者往往具有较高的技术水平，开源模型可以让企业获得来自社区的宝贵反馈，有助于改进模型的性能和功能。

通过开源模型+商业版模型组合方式的积极实践，得益于开源社区的生态支持和开发者反馈，使得模型可以在性能及能力上不断优化和增强，另外商业版模型提供了持续的技术支持与咨询服务，以及企业级的安全与隐私保护，所以金融企业在商业化大模型应用时，往往采购商业版本的基础模型。

大模型相较于传统深度学习模型，在规模上实现了显著的扩容，随之而来的是对计算资源的大幅增长需求。在各种GPU资源出现时，推理平台能兼容各种芯片，成为了亟待解决的基本问题。与此同时，开源领域的创新势头迅猛，不仅涌现出Llama、Qwen、Mistral/Mixtral、ChatGLM、Falcon等诸多新型模型，还在模型优化方面不断突破，例如发展出有损与无损的Attention算法、多种量化技术革新、投机采样及LookAhead等新颖采样策略，要能适应算法的更新发展。推理层面上，主流的推理框架如vLLM、HuggingFace TGI (Text Generation Inference)、FasterTransformer以及DeepSpeed，引领了推理特性的新变革，对推理提出了新的要求。

针对上述挑战，一个综合模型、系统、集群与应用层面的协同优化、兼容异构GPU、各种大模型、推理框架的平台显得尤为重要，旨在实现卓越的性能与成本效益比。

模型层面：MQA（Multi Query Attention）和GQA（Group-Query Attention）是许多大模型推理优化的核心探索方向，以及模型的MOE（Mixture-of-Experts）架构。

系统层面：聚焦于高性能计算算子的开发，优化模型并行执行、显存管理与执行框架，同时强化请求调度能力，确保系统运行的高效与流畅。

集群层面：通过智能的请求调度机制，最大化集群处理能力，有效整合异构资源，提升资源利用率至最优状态。

应用层面：深入分析LLM的工作负载特性，将prompt缓存等针对性优化措施融入系统设计，进一步增强应用的响应速度与用户体验。

构建金融级AI原生的蓝图

AI原生，特别是大模型的发展对资源管理与调度、训练、推理提出了全方位的新要求。首先，在资源管理与调度层面，由于大模型训练所需的计算资源量庞大且计算密集，要求系统具备高效能计算资源的精细化管理和动态调度能力，以适应大规模训练任务和异构硬件环境。这包括合理分配和调整计算资源、优化存储策略以降低存储成本和提高数据访问效率、支持异构计算、实现弹性伸缩以应对任务需求变化，以及关注能源效率以实现绿色计算。

其次，在模型训练环节，大模型训练需要强大的大规模分布式训练能力，妥善处理数据并行、模型并行、流水线并行等策略下的通信开销与数据同步问题，确保训练的稳定性和收敛速度。同时，混合精度训练、自适应学习率调整技术的应用有助于降低计算和内存开销，提高训练效率。对于超大规模模型，模型并行化与规模化的要求使得模型架构设计、通信优化、梯度聚合等方面面临更高挑战。

最后，在推理阶段，大模型应用对实时性、低延迟响应有严格要求，推理系统需配备高效的推理引擎，通过模型优化、硬件加速等手段减少推理时间。推理服务化与部署灵活性是另一重要需求，要求模型易于部署到多种环境并支持服务化接口，同时具备模型版本管理、灰度发布等运维功能。

金融级AI原生的平台架构

金融级AI原生的平台架构分为：智算设施、智算平台、模型服务和应用服务等4个领域。

智算设施（IaaS）：提供大模型所需的底层计算资源和基础架构的服务层，这些资源包括但不限于服务器、存储、网络以及相关的数据中心设施。对于运行大模型来说，IaaS层提供了弹性伸缩性、灵活、高可靠性和安全性的基础设施解决方案，可以大幅简化模型开发和部署的过程，加快创新速度。

智算平台（PaaS）：提供资源调度与任务管理、训练框架、推理框架以及数据服务。资源调度与任务管理通过拓扑感知调度、多级配额资源模型、多种队列策略、配额间资源共享等一系列核心能力，让物理算力集群利用率逼近理论上限。模型训练包括训练快照、训练时自动容错和作业的重启、训练加速等功能。推理框架提供了模型兼容、推理加速、推理对抗和推理监控等一系列功能。数据服务提供了向量数据库、图数据库和云原生数据库等数据服务。

模型服务（MaaS）：一站式大模型生产平台，提供从大模型开发、训练到应用的全套解决方案。

全链路的模型训练及评估工具：全链路模型服务覆盖数据管理、模型训练、评估和部署等关键环节。数据管理整合了离线和在线数据集，确保训练数据的质量和完备性。模型训练允许用户选择各类开源大模型、多模态模型，并通过透明化工具监控模型状态。模型评估提供多种资源，包括单模型和多模型对比，以对标行业标准。并提供一键化的模型部署功能。

集成丰富多样的应用工具：强调了开箱即用的特性，包括预置检索增强、流程编排、Prompt模板应用、插件中心支持接入企业系统、

基于大模型快速构建业务应用agent：智能体中心，并为企业和开发者提供智能体API的调用。其中，智能体应用包含支持RAG、分析、创作等链路。同时，为保持开放性，整合并优化了开源框架如LlamaIndex，提供封装的原子级服务和SDK。插件中心预设了多样插件，并支持企业和开发者自定义插件，以提升大模型的调用效率。

应用服务（SaaS）：在应用层上，考虑到金融领域的多方位需求，将应用划分为两大类别以实现广泛适用性与行业特异性。一类是通用应用场景，跨越整个金融行业，涵盖诸如智能客服来提升服务体验、智能营销以增强市场触达，以及工作助手以提高日常办公效率。另一类则专注于金融细分市场的独特需求，例如银行业专注于信贷报告自动化生成与严谨的合规性审查；证券业则侧重投资研究与顾问服务的智能化；而在保险业，致力于通过“保险数字生产力”提升业务效能，具体体现为智能核保流程的优化以及代理人培训系统的智能化。

智能客服：大模型凭借其强大的自然语言理解和生成能力，可以作为智能客服系统的核心组件，提供24/7全天候在线服务。用于客户的咨询、外呼和客户交互过程中，识别客户意图，进行更好的、贴心的服务。

智能营销：大模型能够根据不同的客户群体特征和营销目标，自动生成具有吸引力的营销文案、广告创意、邮件推送、营销视频等个性化内容。

工作助手：大模型可以集成到日常工作中，提供咨询服务、编程辅助服务、数据分析、内部公共助手、以及用于法律法规方面的审核工作，在减轻员工负担的同时，也可以提升工作效率。比如，知识助手、开发助手、用数助手、会议助手和审查助手。

信贷报告生成：大模型能够自动读取和整合来自多个来源的数据，包括财务报表、征信记录、市场数据等，进行快速而全面的信息分析。这不仅限于数值数据，也包括文本信息，如征信报告、企业年报、行业报告等，从而形成一个综合的信用视图。

合规审核：大模型可以被训练来识别和分析各类交易、合同、报告中的合规风险点。通过模式识别和自然语言处理技术，模型能够迅速扫描文档，比对监管要求，自动标记潜在的不合规内容。

投研投顾：在投资研究领域，大模型能够分析海量的经济数据、新闻报道、社交媒体情绪等信息，辅助投资者识别市场趋势，为投资策略提供数据支持。在投顾领域，大模型能根据个人投资者的风险偏好、资产状况和投资目标，提供定制化的投资建议，优化资产配置，提升投资组合的表现。

保险数字生产力：通过分析保险申请中的文本描述、图片，大模型能基于保险规则，自动判断核保申请，辅助保险员加速申请审核流程，提升客户满意度。保险公司利用大模型创建“数字员工”，来模拟不同的角色，帮助代理人快速上岗，提升工作效率。

金融级AI原生应用实践

1、应用场景与技术架构选型

知识密集型数字化应用

金融行业因其高度的专业性和对精确度的严格要求，成为一个知识密集型的领域。它涵盖了广泛的子领域，包括银行业务、投资、保险、资产管理等，每个领域都有其独特的术语、规则和业务流程。在银行行业，理财产品经理需要在充分理解监管合规政策的前提下，设计有市场竞争力的产品；在证券行业，投研人员需要阅读大量的研报和资讯，做出对市场的判断，给客户提供有价值的投资建议；在保险行业，大量复杂的核保/核赔规则，业务员需要熟记于心并在展业时能高效查阅。

而大语言模型作为一个参数化的知识容器，其最突出的能力就是构建世界模型、理解人类知识，并以自然语言的方式进行交互。大模型通过学习广泛的语料，能够积累和反映不同领域的知识，包括金融行业特有的概念、术语和逻辑关系。这使得大模型能够在上述金融行业各类知识密集型场景中，提供自然语言理解和生成、知识检索与问答、信息总结摘要等能力。

以保险行业为例，核保是一个非常重要的业务流程，保司有大量的业务员在外面做拓客，为C端用户设计保险方案。在这个过程中，还有一类角色叫核保员，在投保阶段帮助业务员判断是否能出保单，并给出建议方案。这里面涉及到大量的核保规则业务知识，我们希望能让大模型学会理解这些并运用在业务流程当中，提高核保员工作效率。

典型的用大模型来重构核保的业务流程，如上图示意：

原始核保规则：核保规则源于保险公司内部的核保政策，有集团级别的、每个省市分公司也有自己特定的规则，需结合起来用，这是核保决策的依据。这类知识的特点是，内容多、逻辑复杂、还有很多行业术语，一般核保员上岗后学习6个月，才能开展核保业务。

大模型核保知识构建：核保政策的格式和来源非常多样，有pdf、word，甚至是某分公司发的一封全员邮件。这些知识需要被构建成一种层次化的知识体系，便于更新、维护，以及被大模型理解与应用。在业务流程中，大模型需要从与业务员的对话中提取出核保要素，例如：年龄、地域、工种。当要素不完备时，以反问等方式让业务员提供，直到收集完整下一步推理决策所需信息。

大模型推理决策：基于上一步构建的知识，大模型进行不同的逻辑处理。简单分有三种：a）准入性判断，一些关键要素若不符合，可直接拒保；b）条件性推理，依据各种核保规则，逐条检查客户提供的要素是否满足；c）推荐投保方案，若有不符合的要素，大模型给业务员调整的建议，改变核保要素，直至承保。

在上述业务流程重构过程中，面临最大的两个技术挑战是：核保规则量多质差、推理逻辑复杂。因此，在方案上采用金融知识增强+Multi-Agents框架来解决，如下图所示：

金融知识增强：原始核保政策来源非常多，上千页的Word、复杂单元格结构的Excel、甚至是一封核保政策调整的邮件。面对此类多源异构数据，需要先做格式和内容的治理，形成一种分类、分级、分块的立体化通用知识表示，便于长期维护更新，以及被下游大模型Agent理解与使用。在过程中，还需要引入金融领域专有知识做增强，例如：对行业和工种的分级分类、专对保单版面的内容识别算法。

Multi-Agents分治：在试验过程中我们发现，大模型的能力也是有上限的，面对的知识太多或规则太复杂，也会有不稳定输出的情况。因此在通用知识表示之上，按任务类型把整个核保过程拆解到不同角色的Agent上完成，并由中控协调Agent统一协调和路由。最终面向业务员，大模型扮演“核保员”，以多轮会话的方式提提供推理决策和承保方案推荐。

全链路数字化应用

大模型在金融业务的全流程中扮演了重要角色，其支撑作用体现金融行业的不同业务场景。如客户服务与关怀方面，大模型能够提供24小时不间断的客户服务，包括咨询解答、产品介绍、客户关怀、投诉处理等，提升用户体验。风险管理与信贷评估方面，大模型帮助金融机构进行信用报告生成、欺诈检测和风险评估，提高贷款审批的准确性和效率，减少人为错误和潜在的信用风险。精准营销与客户洞察方面，创造多样化、创新且风格连贯的跨媒体营销内容变得轻松自如，这包括社交媒体帖文、广告标语、宣传海报、创意视频剧本等，确保每项内容都能精准对接目标受众。通过对客户数据的深度分析，大模型能够构建精准的用户画像，帮助金融机构设计个性化营销策略，提升营销活动的转化率和客户满意度。投资咨询与资产管理方面，大模型能够分析市场数据、新闻资讯和经济指标，生成投资建议和资产配置方案，辅助投资者做出决策。对于机构投资者，它还能提供复杂的财务模型分析和投资策略优化。自动搜集、整理并分析大量研究报告、公司公告和宏观经济数据，为分析师和投资者生成深度研究报告，提高研究质量和速度。运营优化与自动化方面，在后台运营中，大模型可以自动化处理交易结算、合规审查、文档管理等工作，减少人工操作，提升运营效率并降低成本。

风控作为金融的基石，正遭遇多元化的挑战，这些挑战随技术演进、市场波动及欺诈策略的迭代而日新月异。以下是当前尤为突出的几个难题：

1. 业务冷启动没经验，上线周期长：新业务上线，缺少相关的冷启动经验和数据。上线周期长，容易错过商机。

2. 风险变化快，风险决策响应慢：数据分析周期慢，业务人员给技术人员提需求经常需要等排期。策略/模型构建和迭代周期慢，无法跟上快速变化的风险

3. 模型的敏捷性与深度构建：金融市场瞬息万变，欺诈手段层出不穷，要求风控模型不仅要具备高度的适应力和灵活性，还需迅速掌握新兴风险模式，同时维持对既有风险的严密监控。这一挑战促使模型复杂度与更新速度的需求不断攀升。

通过大模型的风控多agent体系，可以很好缩短风险决策周期，提升风控人效，响应快速变化的风险。

智能策略助手集成了专家的风控策略知识库，可以帮助业务实现快速冷启动。通过自然语言的形式，可以轻松进行策略分析、上线测试、部署和生成报告，及时响应快速变化的风险环境。

智能数据助手通过内嵌的报表知识以及NL2SQL能力，使得用户无需复杂的编程过程，只需通过自然语言的交互就能快速构建所需的报表，进行指标查找和数据诊断。

智能建模助手提供建模功能、深度变量分析报告和一键部署功能，能够大大提升工作效率和模型的准确性。

多模态数字化应用

随着大模型技术的高速发展，尤其OpenAI发布“Sora”后，加速从自然语言向多模态大模型的演进。多模态大模型不仅能够进行图像、视频的要素识别和场景提取，还可以根据提取的信息创作出更多原创图片和视频；同时多模态在语音上支持人机交互语言接口，不需要转文字，就可以在语境中识别复杂和抽象概念，加速智能客服拟人化服务和定制化服务效果。多模态大模型已经开始在各种业务领域进行探索，例如：智能催收、智能客服、智能推荐和智能运营等领域，随着多模态大模型与业务创新场景的持续性融合，展现其更高的用户粘性和商业价值，必将开启了企业构建多模态数字化应用的新时代。

智能提醒：企业通过多模态大模型，将外呼语音通话进行识别和数据抽取，构建用户意图和客服话术的知识库，同时通过语音特征分析，识别用户的个性化特征，并与用户特征知识库进行比对和更新。在实时和离线语音交互过程中，通过规则质检和风控，确保人工或机器人的回复符合领域规范，如果存在舆情风险，会提交人工复审，再进行知识库信息更新。如果符合规范，将进入新一轮的智能语音交互，通过大模型判断历史交流的用户意图，结合用户特征，进行个性化语音话术播报（例如：方言定制化），直至达到本通外呼目的为止。

智能客服：企业可以通过多模态大模型，将语音客服、私域咨询和售后交流的文字、图片和视频信息进行识别和数据抽取，例如：将用户提交的保单、病例等进行识别和数字化，存储到专属客服知识库和用户特征知识库，通过智能质检和风控，确保提交和回复数据的准确性和安全性。同时根据客户意图识别和个性化生成，满足用需要的回复或报告，再根据用户个性化特征生成专属文字或语音和视频回复，最后根据用户评价和人工抽检，收纳知识语料。

智能推荐：根据企业业务场景和市场规划目标，通过多模态大模型快速生成文案，在公域或私域传播，比如广告语、微博文章、微信公众号文章和抖音视频等，同时与多模态图片或视频AI工具相结合，自动生成宣传海报、宣传视频等视觉内容，提升营销素材的生成效率。通过自然语言交互或私域数据运营，为客户提供个性化的产品推荐和购买建议。根据用户特征数据分析客户的需求、偏好、风险承受能力等信息，快速准确地推荐适合客户的产品，提高保险销售效率和客户满意度。

智能运营：在企业和商户私域运营中，通过多模态数字化应用方案能够解决全链路高效运营。在商户入驻时，通过多模态场景和内容识别能力，完成摊位门头照自动化审核，同时识别商户和销售商品及价格；在商户运营中，通过多模态识别和生成能力，进行菜单初始化和商品效果图生成，降低门槛和成本；在日常运营中，通过多模态营销文案、图片和视频的生成能力，根据时节定制化营销文案和营销海报，以及宣传视频等，增加商户的收益和订单成交量。

多模态数字化应用基于企业外呼、客服、推荐、运营等多模态业务场景，与多模态技术的丰富和灵活的AI服务进行结合，快速实现业务效果。通常调用这类多模型API可以分为三步骤：准备和优化输入提示（Prompt）、使用API进行模型调用、处理和展示结果。

Prompt优化：明确通过多模态大模型实现什么样的任务，基于任务需求构建有效的提示信息。对于文本任务，这可能意味着撰写清晰、具体的指令或问题；对于图像相关任务，则可能包括选择适当的图像作为输入。通过实验和反复测试，找到最能引导模型输出期望结果的Prompt表达方式。调整文本提示的措辞或添加关键信息，改变图像输入的尺寸和质量。

Assistant-API调用：

选择API：确定适合你任务的API服务。不同的多模态大模型可能通过不同的API提供服务，选择合适的API是关键。

准备请求：遵循所选API的文档准备请求。这通常涉及设置合适的HTTP请求头、选择正确的API端点、准备必要的认证信息以及构建请求体。

发送请求：将准备好的请求发送给API服务。这可以通过编程方式使用HTTP客户端库或使用命令行工具完成。

处理响应：对API返回的结果进行处理。这可能包括解析JSON格式的响应内容、错误处理以及转换模型输出以便进一步使用。

结果召回展示：分析模型返回的数据，对结果进行质量评估。根据需要，可能还要进行后处理，比如图像的裁剪或调整大小，文本的清理等。将处理过的结果以用户友好的方式展示出来。根据应用场景，这可能包括在网页上显示生成的文本或图像、在应用程序内部展示音频播放控件等。

2、AI原生应用实施路径

大模型技术仍在飞速发展，国内外大模型厂商的产品快速推陈出新，在商业化大模型和开源大模型社区，每个月、每周、甚至每天都有新的模型和框架出现。同时，算力资源短期内将持续紧张，大规模应用的铺开，直接导致对模型推理资源的需求持续上涨，而金融机构不仅要解决资源的供给问题，还需要持续提升算力的使用效率，支撑企业大模型场景的全面落地。

金融机构一直是IT技术的先行者，在数字化转型和技术创新方面不断寻求突破。如何能跟上大模型技术的快速发展，不掉队，客观理解新技术，快速识别合适场景，验证大模型的技术与业务价值，成为了企业面临的首要问题。“百舸争流，奋楫者先”，我们提出一条可行的路径，在解决算力资源短缺的同时，又能保障金融机构用上最新的大模型技术，为业务与客户带去价值。

“云上试航”：快速完成大模型可行性与价值验证

大语言模型横空出世，带来的不仅仅是单点技术的创新，更是全套技术栈的革新。GPU服务器、大模型全周期管理平台、推理加速框架、RAG知识增强、Multi-Agent智能体，这些新的事物在不停地刷新技术从业者的认知。以上种种技术，要在客户IDC完整搭建一套，难度极高成本极大，尤其是在大模型的价值尚未被完全验证与挖掘的前提下。

这个阶段，金融云成为了企业的最佳选择。算力层面，云厂商资源储备充足，为客户提供了多样化的算力选择，且弹性按需付费；模型层面，主流云厂商不仅提供商业化大模型，还提供业界优秀的开源大模型服务，客户可按需自由选择，以MaaS API的方式调用；平台工具层面，更是为客户提供了极大的选择空间，从大模型全周期管理平台到智能体应用，从检索引擎到向量数据库，以上这些，企业都可以灵活组合使用，快速验证新技术的价值，避免前期无谓的投入和时间浪费。

“小步快跑”：大模型应用试点的选择与落地

过去一年，大模型在金融机构的应用，也经历了快速的发展。最初期的尝鲜者们，都从RAG知识问答场景开始，通过构建企业级知识库，引入大模型技术，充分感受其在语言理解与生成上的能力。随着大模型自身变得更加成熟，以及从业者对大模型的技术掌控力增强，大模型的应用已经从最初的“问答机器人”，开始渗透到金融行业的核心业务流程当中，并开始扮演Copilot（辅助驾驶）的角色，提升员工工作效率，提升客户服务效果。

在银行行业智能客服领域，大模型被用于识别客户意图和情绪，为客服人员提供话术辅助与推荐；在证券行业投研投顾领域，大模型被用于读取海量的研报、资讯，以自然语言的方式提供观点问答和内容摘要等服务；在保险行业核保领域，大模型被用于理解复杂的核保政策，针对客户提交的材料做合规性审核与保险计划生成。这些被验证过的场景，都适合处于大模型建设初期的金融机构作参考，选择2-3个相对有容错性、投入产出比高的作为试点。

在这个阶段，可暂不考虑太多平台化的事情，宜采用“以用带建”的思路，选定场景后，引入一个经过验证的商业化大模型，提供持续稳定的服务和安全合规方面的保障。工程上可以在大模型应用层面，选择轻量化的RAG、Agent产品，配合商业化大模型，对外提供MaaS API的调用以及Workflow编排能力，快速支撑业务场景的落地。

“平台筑基”：建设LLMOps技术栈，实现中台化管理

走过试点阶段后，企业内大模型应用将会全面铺开，这时就不再适合从某几个应用出发单独建设了，技术团队需要在平台层面做整体规划，基于业界领先的LLMOps理念，围绕大模型的构建与应用流程，构建大模型全周期管理平台，实现基础能力的中台化管理与服务，支撑大模型在多业务场景的快速落地。

具体来讲，大模型全周期管理平台主要包含两个部分。模型中心，主要承载模型层面相关工作，语料管理、模型微调、推理加速、模型评测等；应用中心，在模型之上，提供RAG知识库、Multi-Agent框架、Prompt工程、Workflow编排等能力，支撑业务快速基于大模型的能力，构建起应用链路。

企业在小步快跑阶段会使用一些主流开源框架做快速落地，例如：LlamaIndex、OpenAI的Assistants API。到了平台化阶段，不仅要考虑低代码大模型开发范式的支持，同时要考虑全代码开发范式，面向技术人员提供高效的开发与集成框架，并兼容主流开源框架，实现原有应用的平滑迁移到平台上。

“云端融合”：大模型混合云架构，充分利用云上资源

随着大模型应用全面铺开，场景从服务内部为主，转向直面外部C端客户，对大模型推理资源的需求会呈指数级增加。从当前大模型技术发展趋势和落地案例来看，未来推理服务会成为大模型资源需求的绝对主力。

正如前文例子，部署一个72B大模型推理实例，需要3张A100（80G）的资源。当业务上需要50并发时，需要的GPU卡的数量在200张左右A100（80G）。无论从供给资源还是采购成本来讲，这都是一笔不小的成本。在这个阶段，算力资源会再度成为制约企业全面拥抱AI大模型的瓶颈。通过构建混合云架构，在安全合规的前提下，把本地算力作为固定资源池，同时把云上充足的弹性资源使用起来，成为金融机构在大模型时代的最佳选择。

结语

正在本文截稿之时，OpenAI在春季新品发布会上搬出了新一代旗舰生成模型GPT-4o，一系列新的能力让我们无比坚信，AI大模型技术势必会颠覆和重塑未来产品的形态。而当大模型在金融行业落地，重塑金融企业应用时，我们必须考虑金融行业独特性的要求。在与众多金融客户进行大模型应用联合共创之后，我们对金融客户面临的主要挑战进行了剖析，定义了金融级AI原生的蓝图和六大要素，并挑选了知识密集型、全链路数字化、多模态数字化等三类具备较大业务价值的场景，阐述其技术架构的选择和落地路径，旨为金融企业的数智化创新提速。