

当前,,企业普遍认同智能化是构建其核心竞争力的重要支柱。。。AI技术未来将深刻融入企业业务的方方面面,,为营销、、、研发、、、生产、、、服务等环节都带来革命性的效率提升和用户体验优化,,,,以及商业模式上的创新。。。。那些能够将智能化融入企业基因,,,,拥抱智能化的企业,,,将在未来的竞争中抢得先机,,,引领行业发展。。。
企业AI建设工作开展的前提
智能化转型不能成为一句空谈,,,,必须切实转化为行动,,,通过高层共识、、愿景定义、、战略对齐,,三个方面的动作,,,实现将AI纳入到企业的智能化转型战略。。。。
第一,,高层领导要达成共识,,,,明确AI的战略意义,,,是智能化成功的基础。。只有建立了这种共识,,,才能帮助团队理解AI将如何支持企业的业务增长、、运营优化和业务创新,,,,从而在资源分配和项目推进中获得支持。。。通过在高层战略会议中讨论,,应明确把AI建设纳入到企业战略级项目中,,,并且给予更高的优先级。。
第二,,企业一把手的推进至关重要,,,,一把手要牵头,,,,各个业务负责人参与,,设定长期目标和关键业务领域的AI应用,,这样才能有助于为企业的AI战略提供更加清晰的方向。。
第三,,,AI落地绝非一个部门所能独立完成的,,,,它需要多个部门协同推进,,要确保AI建设与企业整体战略保持一致,,同时需要设定相关绩效指标并跟踪进展。。
企业AI建设的路线图
这张图展示了企业AI建设的整体路线图,,,通过8个关键步骤,,,,帮助企业实现AI项目的全面落地与持续运营。。。。

确定目标
明确的目标是项目成功的基础。。。。设定目标有助于指导后续的所有工作,,并确保团队在同一方向上努力。。目标应与企业的战略紧密相连,,确保AI的建设为实现整体战略目标服务。。。企业在建设AI时,,经营目标、、运营目标和部署目标相互依存,,,形成了一个完整的目标体系。。。经营目标提供了方向,,,运营目标确保了效率,,,,部署目标实现了技术落地。。。企业应当在制定和实施AI建设计划时,,,充分考虑这三者之间的关系,,,以实现技术与业务的深度融合,,,从而推动企业的持续发展和竞争力提升。。
企业在部署大模型时需要清晰地识别其适用场景与局限,,,,不能一刀切,,,,而应制定合理和差异化的目标。。。。过高的期望目标,,,可能会导致整个过程受挫。。。。因此,,,,了解何时适合采用AI、、、、何时应避免使用AI,,,以及针对特定场景选择何种AI技术至关重要。。。。在此,,我们主要聚焦大语言模型的建设。。。。
大语言模型,,主要是做语言理解和生成的,,,但是对于一些传统AI已经展现出出色表现的场景,,,大模型其实并不具备明显的优势。。例如,,,在一些应用CV/OCR等技术的场景,,,已经有非常成熟的技术和产品,,是没有必要应用生成式AI去重构的。。。同样,,在一些高度定制化的场景中,,生成式AI也并不适用,,,,如下述高度定制化服务场景所示。。。。
在中间这几类,,,,都是生成式AI的典型应用领域,,,例如,,,,内容生产、、个性化服务、、写代码等,,在很多场合效果已经非常好,,,,可以替代大量人力工作。。而在一些场合,,,,如流程自动化、、、数据分析方面,,可以对原有系统提供更好的补充和辅助作用。。

评估现状
在明确了目标之后,,,我们需要了解企业自身所处的阶段,,发现薄弱环节,,并为下一步的建设方向提供指导。。我们主要从4个方面来评估企业的现状。。。。
首先是战略与场景,,要确保已经在企业内部达成了目标的对齐,,,,这个也是我们一开始所强调,,,,需要重视的;在场景上,,,,企业需要优先选择符合战略目标,,并且具备可行性的场景进行实施。。
第二,,要评估的是企业的数据就绪度。。。AI项目的成功,,一定是数据驱动的。。。。高质量的数据是AI模型项目的基础,,,,这对于传统AI还是生成式AI都是一样。。。但是生成式AI更重要的一点就是,,,,数据的规模和多样性。。。我们所熟知的GPT系列的模型能力强,,一方面原因是算法创新,,像自注意力、、强化学习等,,更重要的一点是数据质量高,,,场景覆盖广。。另外,,企业想要长久保持AI模型的高质量服务,,,,还需要不断采集数据、、、、反馈数据,,,对模型进行迭代更新。。。。
第三,,AI项目的落地实施,,离不开团队,,,,需要具备理解业务并转化为项目的核心架构,,以及一些工程化的角色,,如数据标注、、、清洗、、、模型训练和调参、、、、工程优化等角色。。。
第四,,资源就绪度,,指的是AI算力,,,包括计算存储、、、网络等,,,,以及为了实施项目所需要的一些基础框架、、、、开发工具等,,,目的是提供对AI全生命周期的支撑。。。

选择场景
接下来我们要面对的是如何选择企业的AI应用场景,,我们所面临的几乎所有的企业应用场景,,归根结底都是围绕降本增效、、、、提升体验和模式创新三个方面来展开的,,这也是企业智能化转型的终极目标。。。
首先需要从战略匹配度,,,,看是否符合这三个方面的目标,,,其次在技术支撑方面,,,,重点考虑是否是生成式AI的应用场景,,,,以及我们通过哪些技术路径来支持场景落地。。。另外就是数据和AI基础设施。。。数据层面,,,,需要具备精标注数据、、反馈数据,,,以及垂类语料(无标注数据)条件;算力方面提供AI计算支撑;基础大模型方面,,这个是企业应用AI的最基础条件,,,企业需要考虑大模型的开源/闭源路线。。目前开源生态比较强大,,,进步也很快,,,是一种更高性价比的选择。。。。
初步评估可行性
选定了场景之后,,,,我们需要对某个特定场景有个初步可行性判断,,,这个判断需要结合业务、、技术和工程角色,,,,共同参与评估。。。
业务如何判断呢????业务方就是实际的使用部门,,,比如业务方是合同审核部门,,场景是审核合同里边的关键内容是否缺失(乙方名称、、、付款条件、、、、付款方式等)。。。那么输入就是一段合同文本,,,,输出就是几个关键字段和它的值;目标就是提取这些信息,,,,并且内容没有丢失。。。只有这些还不够,,,,业务部门可以尝试直接调用一些大模型(在确保数据安全前提下),,,看看效果怎么样,,这是没有任何技术和工程参与优化的结果。。。这个工作业务团队的是完全可以胜任的,,如果让技术部门来判断,,可能会存在业务知识的缺少,,,,无法准确判断业务场景的可行性。。。。
从技术部门角度,,,,重点是关注基础模型本身的能力,,也就是大模型在预训练阶段已经基本定型的,,主要包括它在预训练阶段用的知识、、采用了哪些语言、、、有没有用一些带有逻辑推理的语料。。这些我们做了判断之后,,,也可能没有找到一些能够激发它本身知识的好方法,,这里就需要用一些专业性强的问题去测试,,看看他能不能突破这个上限。。
第三,,,就是工程角度,,门槛最低的就是Prompt(提示词)优化,,这是一个非常实用并且简单的工程优化方法,,我们还可以结合few shot(示例),,以及思维链等方式,,,,来激发大模型本身的能力。。。如果是企业内部限定的文档,,,要去用RAG(检索增强)生成这种方式。。。如果是因为大模型对指令的遵循能力差等问题,,则需要考虑用SFT(supervised fine tuning)微调。。如果尝试了以上方式都不行,,,需要再看下,,,我们要解决的是不是术语专业领域的问题,,那可能需要准备大量的专业领域语料,,,,去做二次预训练。。。这种方式不推荐,,,它所消耗的资源,,对团队的要求都是极高的。。。。他们的具体差别对比如下:

准备所需资源
在确定初步可行之后,,,即可开始准备大模型落地所需要的资源。。。。主要从4个方面准备:与建设场景相匹配的数据、、、算力、、、开发工具和团队。。
1.准备数据
根据选择场景的不同,,,,需要准备的数据也会有很大不同:
-
RAG场景下,,主要的数据准备工作包括:
文档预处理(如文档格式转换等)、、、文档解析(PDF识别,,版式识别)、、OCR(图像转文字)、、、文档切分(切分为小的片段)、、、数据增强(提取QA、、、、生成摘要)。。。。
-
大模型微调场景,,,,主要的数据准备工作包括:
精标注QA数据(问答对形式)、、准备指令数据(如人设遵循、、、、输出格式要求等)。。。需要确保数据准确性(例如做过滤低质量,,,去掉重复数据等)、、、数据多样性(要能够覆盖各种真实应用场景)、、数据一致性(数据不冲突)、、、数据增强(生成QA、、、、摘要)等。。。
-
二次预训练场景,,主要的数据准备工作包括:
专业领域的语料(如金融、、医疗、、法律专业术语,,,在这些领域使用语境等)。。。需要确保数据多样性(如覆盖场景种类要足够多)、、数据规模要足够大(一般要达到数十亿级token以上)、、一定的配比数据(增加通用领域数据一起做二次预训练,,如1:1配置)、、数据处理(去除重复数据、、、、去除低质量数据、、、去除隐私数据、、去除不合规数据等)。。。
2.准备算力
在企业的大模型建设中,,,,算力的多少决定了训练速度、、、、效率和模型表现,,,,是推动模型快速高效落地的关键资源。。那么企业要准备多大的算力才能满足实际应用需求呢??这里有一些经验,,可以用于快速进行算力数量估算(此处仅考虑GPU算力)。。。。
对于训练场景,,全参微调所需的总显存一般为模型参数量(以B-十亿为单位)的20倍,,例如70亿(7B)参数大模型,,至少需要140G显存,,,,按照单卡80G显存,,,则对应的GPU卡至少需要2张。。。。而130亿(13B)参数大模型,,,至少需要260G显存,,,按照单卡80G显存,,,则对应的GPU卡至少需要4张。。
另外,,企业也要在算力投入和训练时间上进行权衡,,,训练时间可参照如下公式进行估算:

以Qwen2-72B为例,,,在24张80GB显存的A100上,,在3B tokens的数据上训练72B参数量的Qwen2。。80GB显存A100的峰值性能为312 TFLOPS,,,,设GPU利用率为0.45,,,则所需要的训练时间为5.9天。。
而在推理场景,,总显存计算公式为:

其中n_layer为解码器/注意力层数,,,n_heads为每个注意力层的注意力头数,,d_head为注意力层的隐藏维度,,,p_a为精度,,,,batch_size为批处理大小,,,,max_length为模型最大序列长度,,,KV Cache为模型推理过程中的KV缓存。。。。
以常见的参数量模型为例,,,,计算推理所需要的算力资源。。。
以 Yi1.5-34B 为例,,,,n_layer(解码器/注意力层数)为60,,n_heads(每层注意力头数)为56,,,d_head(注意力层隐藏维度)为128,,,,p_a(精度)为2,,batch_size(批处理大小)为1,,,max_length(模型最大序列长度)为4096。。。。
模型参数量需要的显存为68GB(34*2=68GB),,,,另外需要预留模型推理过程中的KV缓存,,约为7GB(2*1*4096*60*56*128*2)*1024-3=7GB)。。。总共需要的显存至少需要75GB。。。
3.准备工具
这里分为三个方面:
首先是基础大模型的选择,,,,这个往往决定了企业应用效果的基线。。。。例如目前效果比较好的开源大模型 Qwen系、、、Llama系,,由于开源大模型的能力越来越强,,性价比更高,,,这些都可以作为企业的首要选择。。除此之外,,还需要考虑模型与任务的匹配度、、参数规模和预训练数据量、、、算力资源、、语言支持等方面。。。。

其次,,,,企业是为了解决特定场景下的应用目标问题,,,,则需要AI应用开发,,,,例如开发一个RAG应用、、、Agent智能体应用等。。首先要评估的还是这个应用开发工具对场景效果的支撑。。。开发工具必须能够针对企业的具体业务场景(如流程自动化、、、知识检索、、、智能推荐等)提供符合业务预期效果的模型输出,,,保证大模型在实际应用中的可落地性;要能够支撑企业用户从概念到快速构建应用、、、应用效果提升的操作自闭环,,让企业能够自主进行效果评估、、、自助优化,,,从而可以不过度依赖大量昂贵的外部人力调优服务;工具的使用门槛应低,,,既能够让专业的AI工程师快速上手,,也允许业务人员参与配置和使用。。理想的工具应该有良好的用户界面、、、、代码示例、、、API文档等支持,,,,以减少开发复杂度和时间。。。

第三,,在模型微调和部署工具选择上,,基于长远考虑,,,,关注对资源的利用率和整体的性价比,,,其次是工具的完整性、、、、兼容性、、、、易用性、、、可靠性、、、、以及安全性。。例如,,,在性价比方面,,,在相同的基础大模型条件下,,平台对于算力资源消耗和模型服务性能,,能否做到更好的提升;在用户使用时,,,学习门槛是否足够低,,,,操作是否足够简便,,过程是否自动化等。。。。

4.搭建团队
大模型项目团队与传统应用系统团队在技能、、角色和需求上有显著的差异。。。。
大模型项目更依赖于数据驱动的效果调优、、模型微调和二次预训练等技术,,,而传统系统更关注业务流程的实现与系统的长期稳定性。。。。企业在推动大模型项目落地时,,,应根据首先落地的场景,,来做差异化的团队配置。。。例如,,,,企业初期只选择了内部流程自动化场景,,,只需要做prompt优化和系统对接就可以,,所以在AI团队上重点配置的就是提示词优化工程师、、、工程开发工程师;而在RAG应用场景,,就需要文档数据预处理、、、、检索优化等工程师。。。。
分阶段实施
推荐企业分阶段实施,,避免一开始目标过大过难,,,从而造成建设过程受挫。。
阶段一:场景为王&运营提效
场景为王,,,,指的是选择最简单、、、最容易做出效果的场景去建设。。。这个也是符合绝大多数企业的现状,,,比如,,,,优先选择企业内部的知识问答、、、、流程自动化、、代码辅助编写等。。。。投入小、、见效快。。。在这个阶段做出了成果,,,就能进一步扩大,,小步快跑。。。
例如,,,将传统表单流程改造为自然语言交互的的智能化流程,,主要利用Prompt优化技术。。。

也可以选择基于RAG的企业知识问答机器人,,,,整合企业内部文档,,,,提高知识检索的效率和检索效果。。

这两类场景,,,,都能够快速进行落地,,并且进行效果调优之后上线,,,,迅速在企业内部推广使用。。在上线后,,,需要同步进行运营提效工作,,,持续收集场景反馈数据,,,对落地场景效果持续优化,,真正在初始落地阶段产生明显价值。。
阶段二:场景扩展
基于第一阶段的成功,,,企业要深入到核心业务场景去,,,,解决一些复杂的场景问题,,发挥AI的价值。。从辅助性角色,,变成核心角色,,,,例如企业的销售机器人、、、、个性化服务机器人、、、、运维机器人等。。。这个阶段的特点就是复杂度会更高,,往往不是单靠大模型能完成的,,,,往往需要借助小模型、、、智能体等来协作完成。。。

阶段三:持续优化
为什么要做这个事情呢??因为不管是什么样的AI模型,,,,只要部署了以后,,,,它的固有知识就相对不会变化。。。而业务场景不是一成不变的,,,,如果不持续优化模型,,,它的效果一定会持续衰减。。。另外,,,企业落地的场景越来越多,,,并发量越来越大,,,它所消耗的资源也成倍增加,,,,如果我们不对它的底层资源进行优化,,,那对企业来说将是一笔非常大的成本支出。。。。
综上,,在效果方面,,,,我们通过不断采集、、反馈、、、优化,,,,形成数据闭环,,,,来持续对场景做提效。。。构建数据反馈闭环是确保企业大模型适应业务变化的基础,,优化后的模型重新部署到业务场景中,,,,继续收集新的数据,,,形成持续反馈的闭环。。。。这不仅让模型适应业务的变化,,,,还能不断提高其在核心场景中的应用效果。。。

根据实际的不同,,,可能需要选择进行SFT或者二次预训练的方式,,,,提升模型的能力。。二者的区别在于,,,,SFT微调更注重任务和场景的定制化表现,,而二次预训练更适用于提高模型在特定领域的专业能力。。。

在资源利用方面,,,,企业可以选择通过模型压缩、、国产算力替代等方式,,实现资源的优化配置。。。。

阶段四:赋能核心业务
这是AI落地的终极目标,,,AI大量融入到关键业务链条中,,,深入到企业核心业务,,,比如制造企业的研产供销服等环节。。未来,,企业的AI建设不断深入,,将不再是覆盖单一领域,,,而是会覆盖到企业的全部链条,,例如以上这些。。。在每一个环节,,都可以发挥AI的作用。。。有了前三个阶段的经验积累,,,,在这个阶段一定会走得更稳、、、、更深入。。例如,,,在研发板块,,,,可以充分利用大模型的理解以及调用外部工具、、生成代码的能力,,,,辅助进行产品工艺设计和参数选择;在生产板块,,,,可以通过语音自然语言交互,,,,对机器人进行操作;在销售板块,,,大模型结合数字人,,能够为用户提供更好的体验和服务响应;在设备运维方面,,,能够及时给出设备故障的维修方案;在运营方面,,,,通过大模型提供个性化的数据分析和运营报告。。。。

评估
企业对大模型项目建设评估不仅仅是对一次项目执行结果的评估,,,,更是对阶段性工作的评估,,包括但不仅限于项目业务价值、、、、用户体验、、、、成本效益、、模型性能与合规性、、、安全性等多个维度的综合评估。。。通过建立持续的监控与反馈机制,,,,优化运营成本,,,,分析模型的扩展潜力,,,并结合未来发展战略,,企业能够在评估阶段进一步确保大模型项目的成功和长期价值。。

持续运营
只有坚持长期在数据和场景方面的运营深耕,,,,才有助于构建企业的持续竞争优势。。在持续运营,,,重点关注数据飞轮持续化和场景运营精细化。。。。
数据飞轮持续化:
- 整合多源数据(销售、、、、客服、、、供应链……),,,,统一数据质量标准,,,,设置专门的数据治理团队;
- 设置模型效果评估标准(基于标准测试集和基于业务反馈结果);
- 收集线上/线下反馈数据;
- 关键指标监控(性能指标、、、、业务指标,,,,如转化率、、复购率);
- 明确实施微调优化的准入标准;
- 通过持续的数据积累、、、、数据反馈闭环,,,推动模型的不断优化和迭代。。。。
场景运营精细化:
- 一把手牵头,,发动各个业务部门梳理业务场景,,,细化到最小粒度场景;
- 对全量场景做价值度评估,,排优先级;
- 建立业务部门和AI团队的场景对接机制,,,,明确场景提出-评估-立项/关闭-建设-评估-运营的整个闭环;
- 建立效果评估机制,,,对用户反馈做闭环跟踪;
- 挖掘新场景,,,,鼓励内部做业务场景与AI结合的创新。。

以上就是一个完整的企业落地AI的路径方法论,,,不同AI能力基础的企业可以选择不同的建设起点开始启动。。。。
下期预告:在企业实施AI落地的整个过程中,,有哪些误区需要提前了解,,,,从而避免“掉坑”呢??我们在下一期详细说一说,,企业在AI建设过程汇总的八大误区。。。。
- 友情链接:
友情链接:



