RPA与大语言模型融合有哪些难点？看看厂商怎么说

图片来源@视觉中国

文 | 王吉伟

(资料图片仅供参考)

RPA厂商对于大语言模型（LLM，Large Language Model）的应用，比大家想象的还要早一些。

毕竟，2019年兴起的这一波RPA热，背后都是因为AI技术。没有AI技术与RPA的融合，也就没有现在的RPA。

为了全力拓展RPA的能力边界和适用场景，厂商们一边围绕AI+RPA积极构建与训练NLP、OCR、CV等相关小模型，另一边也对大模型保持了足够的关注。

谷歌于2018年发布了BERT，不久后，有些RPA厂商就引入并探索BERT与RPA的融合应用。

ChatGPT的上线与爆发，彻底引燃了RPA超自动化领域对于LLM的热情，全球厂商都在探索RPA与GPT的集成应用。

从UiPath、Automation Anywhere、Blueprism到国内的来也科技、弘玑Cyclone、金智维、影刀RPA等厂商，目前全球数十家RPA厂商都已引入LLM。超自动化集合下所涉及的低代码、流程挖掘等技术相关厂商，亦引入了LLM。

同时还有一些主打生成式AI的RPA初创项目，已经拥有多个客户，并顺利拿到了融资。

在国内，厂商们除了引入GPT，还会考虑一众国产大语言模型，文心一言、通义千问等都是厂商们的重点研究的对象。因为在国内市场做基于LLM的RPA产品，必然要研究与国产大语言模型的融合应用。

而随着更多开源模型的发布，ChatGLM、LLaMA等越来越多的开源模型也成了厂商们的座上客，这也是面向私有化部署客户需求的必经之路。

除了引入LLM，国内还有多家RPA厂商推出了自研的领域大模型，通过自有模型充分释放大模型潜力并加以控制，以满足政务、能源等领域的央企、国企等大客户所需。

受大环境、数据安全等因素影响，相对于国外厂商重点融合GPT与开源模型，国内厂商在LLM的引入与应用方面更加多元化。

国内RPA在LLM方面动作频频，具体产品及解决方案也是层出不穷。然而从ChatGPT上线到现在的8个月时间里，各厂商在RPA\超自动化与LLM融合的进度到底如何？LLM与RPA超自动化融合的难点在哪里？LLM的落地情况怎么样？

为了弄清楚这些问题，王吉伟频道与来也科技CTO胡一川进行了交谈，并通过调查问卷与金智维、影刀RPA、艺赛旗、弘玑Cyclone、容智信息、实在智能、云扩科技、云钠科技等几家厂商做了交流。

本文，就跟大家聊聊这些。

厂商在LLM方面的动作

由于当代RPA基于AI重新构建，在产品发展的进程中，厂商们都在持续关注AI技术的各项进展。因此RPA厂商在LLM方面的研究与投入方面，比我们想象的还要早一些。

从调查情况来看，已经推出IDP、Chatbot等产品的厂商，已在2022年OpenAI发布ChatGPT之前甚至更早的时间节点引入了LLM。

比如来也科技，在谷歌发布BERT不久后，便在其IDP 和Chatbot产品中引入了此模型，后来也是第一批与微软OpenAI服务达成合作的。

再如容智信息，2022年就开始就在AiLab产品中引入了大语言模型，目前已经引入ChatGLM, baichuan, InternLM等多个大语言模型。

云钠科技也是如此，从去年10月开始已在自身的产品矩阵与技术架构中引入大语言模型，包括NLP（自然语言处理）技术、多模态技术等。

在ChatGPT上线后几个月里，RPA是对GPT关注最高的领域之一，并且大部分厂商都在第一时间通过集成API等方式引入了GPT。

王吉伟频道曾在5月份发布的《多家厂商引入ChatGPT，集成与融合生成式AI成为RPA技术新趋势》一文中，介绍过都有哪些国产厂商引入了生成式AI。时隔2个月，现在这些厂商都已经将产品及技术架构与LLM做了更深的融合。

其中有些厂商已经确定了大语言模型战略：比如来也科技正在全面拥抱大模型；容智信息对于LLM的态度更为激进，正在All in 大语言模型。

下面，简单说说各厂商已经推出的产品及发布的战略。

弘玑Cyclone发布了多个RPA与GPT结合的应用demo，同时该厂商将RPA与GPT的结合应用定义为GPT×RPA。7月7日，弘玑在人工智能大会上首次提出“AIGA”产品概念。

来也科技在Laiye Lead年度产品发布会上，发布了由大语言模型驱动的企业级数字化劳动力平台。

金智维发布了以RPA为基础融合AI技术与GPT模型的AI助手发布，该产品支持智能AI对话、实时交流，接收命令自动执行流程。

达观数据发布了达观助手Windows系统Office-word版本，并在2023WAIC期间宣布对外公测垂直专用国产大语言模型“曹植”。

艺赛旗在2023年春季产品发布会推出融合GPT的全新超自动化产品iS-RPA，并于5月29日正式发布iS-RPA 2023.1.0。

实在智能超自动化平台在五月中旬全新升级，该平台三大AIGC产品包括具备AIGC能力的“超进化”数字员工、能和文档自动对话的智能产品Chat-IDP”以及一站式的智能自动化统一门户系统“实在智能门户”。6月底，实在智能自研垂直领域大语言模型TARS（塔斯）正式开启内测。

九科企业级超级自动化平台在3月份完成与ChatGPT的集成，6月份RPA产品bit-Worker任务助手功能上线。

壹沓科技在其主办的AI无界·智链全球”高端论坛，正式发布基于LLM的大供应链物流超自动化平台-运小沓。这是一款基于大供应链上下游（生产制造、物流配送、新零售）企业推出的平台，可以助力企业实现业务超自动化。

中关村科金推出了自有领域大模型，并发布了两类知识助手类的应用：一类是面向企业内部员工的知识助手；另一类是帮助企业员工赋能客户的服务助手。

云钠科技将AIGC技术集成在「松耦合的魔像RPA系列产品」与「场景化的行业作业台系列产品」中，打造端到端自然语言驱动流程自动生成的新产品「魔i」，发布了「AIGC落地业务」服务解决方案。

还有一些厂商在LLM方面没有过多官宣，王吉伟频道通过调查问卷才了解了其情况，比如影刀和容智信息。

影刀RPA在4月份已经接入微软Azure和百度文心一言，做了二次工程化的深度定制，让大模型有了落地通道，自研了思维链、知识库等功能，推出影刀copilot解决方案。

容智信息已引入多款LLM，推出私有化部署的垂直领域的大模型产品——闻道大模型。并发布了三款基于大模型的产品，包括容智闻道专家知识库产品平台、容智AGI超级自动平台和iBot助手。

云扩科技已引入Azure Open AI，推出针对个人文档处理的相关产品和解决方案。

除此之外，拥有RPA业务并已推出LLM的云厂商及AI厂商，也已将RPA\超自动化产品与LLM进行了融合。比如华为也早已将其大语言模型能力开放给了旗下超自动化产品WeAutomate，科大讯飞也在发布星火认知大语言模型之际推出了生成式RPA。

当然，这里只盘点了目前市面上的大部分RPA厂商所推出了融合LLM的新产品，还有更多厂商也都在跟进LLM。

看到了这里可能有人会问，这么多厂商都推出了基于LLM的产品，难道LLM融合型产品这么容易搞吗？

事实上，两者融合还真不是一个容易活儿，下一小节我们就会讲到。

技术融合不是一句话

王吉伟频道在之前的文章跟大家探讨过引入LLM的几种方式，分别是直接调用API、私有化部署+模型微调以及面向特有技术或者业务模式的原生模型。

从调查与调查来看，不同厂商因为自身优势、产品特性及技术特点的不同，在引入LLM上也有一些差异化做法。

已经推出领域大模型的厂商，引入LLM的方式会更加多元。

比如金智维正在通过两种方式引入LLM：第一种方式是使用LLM替代NLP/OCR等基础AI能力，辅助RPA完成智能识别、检测等自动化流程；第二种方式是使用LLM完成RPA的构建过程，即开发人员通过对话形式完成业务开发流程。

云钠科技则通过直接调用LLM、整合LLM以及将LLM作为核心引擎串联整个流程等方式，引入大语言模型。

没有推出自有模型的厂商在与LLM的融合上则比较直接，一般是直接调用引入对话功能和微调模型。比如艺赛旗正在进行模型的微调，除了纯文本大模型外，还将微调多模态大模型，使其具备理解UI界面的能力，根据用户指令直接执行自动化操作。

客户们的差异化与个性化需求，意味着RPA厂商也需在大模型方面提供更多的服务，这也为其产品与技术融合带来了一定的挑战。

在实在智能看来，目前大语言模型的整体发展尤其是在国内的发展主要面临三个方面的共性问题：一是中文训练语料和基准评测集的欠缺；二是大模型生成结果的可控性和可解释性问题；三是大模型落地过程中的推理成本问题。

同时，多元化的大语言模型引入方式，也为RPA与LLM的融合带来了更多的难点和挑战。

从多家厂商的反馈来看，这些难点和挑战主要包括以下几个方面：

1、成本问题。一方面，训练行业领域模型及行业小模型，需要大量的计算资源、大规模的数据训练和专业的算法工程师进行参数调优和模型验证，这些都会产生较高成本。另一方面，自研LLM依赖ChatGLM/LLaMA等开源LLM项目底座，从零开始训LLM成本过高。

2、数据问题。目前的大模型通用能力还不够懂业务，难以理解内部工作逻辑和机制，需要更加特定和细致的数据集。同时开源项目的自然语言处理和交互式对话效果较差，导致垂直领域训练效果严重依赖数据质量。大模型需要海量的数据训练，行业数据不足也会导致大模型应用效果大打折扣。

3、安全问题。LLM应用方式多样，进化速度快，用户在使用大模型无法得到完整的管控，包括成本、用法和数据安全方面，使用过程中难免会涉及的核心数据和个人信息等敏感数据泄露问题。这些技术可能会被恶意利用，比如信息泄露、诈骗等。

4、集成不同模型的技术问题。为了满足客户的差异化需求，RPA会与国内外的各种大语言模型进行融合。而当前国内外大语言模型的较大差距，也使得技术集成等方面会有较大的技术差距，增加技术融合难度。

5、大语言模型能力不足问题。大语言模型本身存在一本正经胡说八道、基础逻辑能力缺失、多模块组合困境等固有缺陷，使得AI技术本身面临着不确定性、安全性、可靠性和道德性等问题。

对于以上五点，这里简单说说成本问题。大语言模型之所以耗费资源，主要是因为模型的参数规模，其背后核心则是模型的训练和推理所需要的硬件资源消耗大小问题和模型在特定领域的准确性问题。

因此，在弘玑Cyclone看来，如何在小参数规模、消耗硬件资源不断降低的情况下还能保障模型在特定领域的准确性，将是业内下一步技术攻关的核心方向。

为了克服以上五大挑战，厂商们八仙过海各显神通，基于自身优势摸索各种模式和方法给予各项能力补齐。

比如金智维与自研LLM的厂商合作，通过购入参数量更高的LLM自研或者以共创模式共同开发，解决LLM模型效果和算力问题。

艺赛旗则通过与企业和高校合作，针对性地微调模型，保证数据安全，并自行搜集数据以应对数据不足和缺乏标准与规范等挑战。

容智信息则通过构建自己领域模型及相关技术生态，来实现LLM与RPA的高效融合。

云扩科技通过建立完善的内外部合规检测+大模型专属风险应对，及时跟进新的大模型能力、风险、法规和应用方式，并加大研究和开发安全控制办法比如建立合规审查机制等。

云钠科技依托行业积累的高质量数据进行集调优训练，并能够通过接入第三方工具极大提升AIGC模型的可靠性及基础能力。

除了这些措施，为了更好的融合LLM并使其发挥更佳性能，还有一些RPA厂商推出了自有的领域大模型。从调查来看，目前至少已经有6家厂商推出了专有领域模型。

简单来讲，在LLM的构建方面，目前的主流方式分为两种：一是大模型底座+小样本数据；二是底座大模型和领域小模型协同。

两种方式各有优劣势，目前而言推出领域模型更加吸睛。研发自有领域模型，一方面可以让LLM更加稳定、高效的释放潜能，另一方面可以通过双重模型为客户提供更好的服务。

事实上，是否推出领域模型主要还是因厂商重点拓展的领域以及所服务客户群体而异，大模型+领域模型可以更好的赋能某些领域的客户通过业务流程自动化更好的实现增效降本。

所以推出领域模型并不意味在LLM方面略胜一筹，更多的是面向所服务群体以及行业解决方案上的考量，毕竟多一个模型也就意味着更多的成本。

正是因此，没有相对固且稳定的专有领域客户群体，厂商们一般不会贸然推出领域模型。

大语言模型对RPA的影响

毋庸置疑，引入具备生成能力、语义理解能力和逻辑推理能力的LLM，为RPA\超自动化带来了有何举足轻重的影响。

通过调查，厂商们的反馈可以总结为以下几个方面：

1、实现技术升级，RPA更加智能。LLM去RPA带来了经验判断和推理的能力，使得RPA在自动化业务流程的实现上，从单纯的规则驱动升级到具备一定的判断和决策能力。LLM犹如大脑，RPA相当于四肢，它比以往的AI+RPA更加智能。

2、优化人机交互，改变应用模式。LLM的语义理解能力和逻辑推理能力，能够让用户通过自然语言和多轮对话驱动RPA，增加了人机交互理解能力，交互模式更加自然和友好，进而提升用户使用体验。

3、降低使用门槛，实现人人可用。LLM引入使得用户能够通过自然语言的方式驱动RPA场景落地，缩短开发链路。由此降低RPA使用门槛，实现让不懂编程的人熟练应用RPA。

4、扩展能力边界，拓宽应用场景。LLM的引入，使得RPA机器人由逻辑性和规则性的重复能力模型逐渐过渡到逻辑推理、抽象总结、意图识别等自主复合能力模型，使得其应用场景也将大幅拓宽，超越传统的结构化任务，应用于更多非结构化数据处理任务中，并能够适应更多的场景。

在金智维看来，RPA解决自动化流程和数据处理问题，大语言模型解决自然语言处理和对话式交互问题，RPA引入LLM可提高数字化转型的效率和质量。

在弘玑Cyclone看来，只有基于大模型才有可能达到人机的完美融合从而形成大型企业所有业务域的充分自动化，大模型的核心能力可以实现企业内部所有业务对象的语义化连接，并进一步实现跨各类业务对象的自动化。

云钠科技则认为，大语言模型+RPA，正在从根本上改变人们的工作方式，让技术更容易获得，进一步加速生产力工具的变革。

当前RPA厂商都在将产品和LLM进行融合，导致产品易用性拉平，更具有通用性。LLM+RPA可以让厂商们的产品整体拥有更强大的自然语言处理能力、更高级的自动化能力和更好的用户体验。

实在智能认为，LLM技术与RPA深度结合，扩展数字员工的“AI生成能力”，可以自动执行任务，识别和理解用户的语言输入，从而更好地满足用户的需求运用场景。减小RPA的使用者在开发RPA流程时的成本，提高产品使用体验。

用影刀RPA的观点来说，大模型时代颠覆了交互方式，把所有的SaaS产品都拉到了统一起跑线。

同时LLM也大大降低了RPA使用门槛，使得人人都可用RPA。这种情况下，衡量RPA产品能力的标准，更多的是其与大模型融合后产品确定性和综合性能的提升。

王吉伟频道认为，虽然LLM使得革RPA\超自动化的产品形态、商业模式及市场生态等产生了巨大变化，但在为RPA进行一番统一的赋能使其能力整体提升能力后，厂商们的核心竞争力仍旧在于之前的各种行业积累。

目前来看，厂商们的核心竞争力仍然体现为原有的资源积累、技术沉淀与创新、行业经验、生态合作、客户资源及人才优势等方面。这一波LLM技术趋势下，在某些领域业务做得较深以及在技术上具备先发优势的厂商，将会在业务和资本双重市场获得更多机会。

当然，LLM也会带来寡头效应的可能。比如艺赛旗就认为，随着RPA厂商将产品和LLM融合，核心竞争力将从单纯的工具开发转向数据和模型训练全流程。这将导致数据占优势的公司竞争力增强，产生强者愈强的局面。

因此，艺赛旗的竞争优势在于其拥有与高校和世界500强大公司的合作，能够获得更多高质量的数据和知识，保持其行业领先地位。

寡头效应是行业发展的必然，每个行业都会存在二八原则。

但总体而言，LLM还是为更多厂商带来了弯道超车的机会。凭借LLM技术，更多厂商们可以在更短时间用更低的成本和资源打造更好的RPA与超自动化产品，由此能够获得更多客户的青睐。

毕竟，LLM+RPA\超自动化所带来更智能的表现、更易用的操作和更显著的成效，正在To B市场获得更多客户的认可。

RPA&LLM的落地情况

《2023年中国RPA行业研究报告》数据显示，2022年RPA需求方对产品的整体认可度有所上升：高度认可上升到13.1%，认可上升到31.9%，一般认可上升到39%。

影响RPA认可度的主要原因，在于一半以上的客户认为产品体验差。影响产品体验的主要因素则包括运行环境不匹配、实际业务数据与测试不一致以及所依赖的第三方系统变更造成的RPA无法识别和运行等。

事实上，融合更多技术的超自动化就是为了解决这个问题，帮助用户实现更稳定的端到端自动化的。只是因为成本、实施等因素，目前超自动化解决方案更多的面向大型企业，中小企业尚未系统化引入这项技术。

现在有了LLM的助力，大语言模型能够拔高原有相关场景深度，增强与用户的直接交互。

在国内，目前LLM与RPA的融合应用主要分为两部分：一是语言开发功能中流程自动生成与执行，二是业务场景升级和延伸中的自动文本生成、聊天机器人及智能文档处理。

因此，文档处理、机器人对话以及流程创建也成了与LLM结合最快、落地最多的场景。

不管是自研LLM还是调用LLM，融合LLM的RPA\超自动化产品体验正在大幅提升，使得很多组织对于融合LLM的RPA产品都在跃跃欲试。大部分企业都对LLM保持足够的关注，有些激进的厂商已经在使用这类产品。

从王吉伟频道的调研来看，目前客户对于融合LLM的RPA产品的态度，跟客户属性有一定的关系。

比如央企、国企或者比较重视数据安全及用户隐私的企业，不能使用LLM云服务，更偏向于私有化部署。同时现阶段LLM本地化部署需要较高的资源配置，投入成本比较大，目前大多处于观望状态。

而电商等领域的中小商家，都在积极拥抱LLM，并在积极开发适合自身业务的应用。

为了解决客户对于数据泄露和资源需求过大的顾虑，RPA厂商也在通过「数据保密性、安全性和LLM量化部署（金智维）」「限定应用场景来实现减少计算量和保证生成内容的可靠性（艺赛旗）」「专注使用层面安全、管控和应用方式（云扩科技）」「多方案解决大模型不确定性问题（云钠科技）」等方式方法和管控模式，保障更多客户能够安全、放心、高效地应用LLM。

目前，各家厂商都已经有具体落地的融合LLM的产品和解决方案。

金智维用于智能问答和数据处理领域智能客服LLM方案，电信智能客服及企业规章助手已经在某些企业落地。

容智信息融合LLM的智能客户、城市运营中心等解决方案，已在多个政府项目中完成交付，大模型产品也已在城运12345等项目中实际应用。

实在智能已经将AIGC组件融合进RPA设计器，实现自动生成文案等功能，深受电商客户的喜爱，其结合金融垂直领域的大模型已在某金融机构上线运用。

艺赛旗基于LLM的RPA项目“RPA学堂”，正在助力客户高效运营。

很多消费零售的客户，也已在用影刀RPA的大模型能力。

企业数字化转型发展到今天，经过一系列的理论探索和实践验证，通过基于RPA\超自动化的业务流程自动化驱动的「自上而下与自下而上共同推进」的成效更快的数字化转型解决方案，已经被已被广大组织所接受，同时“自动化优先”也正在成为更多企业的主流管理思维。

RPA已成为企业运营不可或缺的系统连接与管理软件，超自动化也已成为保障端到端自动化的解决方案。

LLM的到来对于RPA\超自动化如虎添翼，随着RPA厂商们推出更加安全有效的LLM解决方案，可以预见更多企业必然会引入融合LLM的RPA\超自动解决方案。

后记：LLM带来的大市场

对于企业商业化引入大语言模型，来也科技CTO胡一川提到了两种思路：

一种思路是客户买了大模型但不知该从哪里应用，RPA厂商可以建议先用在数字化劳动力平台（来也科技的超自动化产品）上，这样厂商就可以为其提供基于大模型的超自动化部署服务；

第二种思路是客户已经引入了数字化劳动力平台解决方案，厂商可以询问其是否想用私有化部署LLM，需要的话就能顺理成章的通过RPA厂商引入LLM。

某种程度上，RPA厂商成了大模型厂商在自动化领域的咨询实施合作伙伴了。

事实上，对于广大企业而言，通过某些业务场景来引入LLM是较为稳妥方式，可以有效避免先引入LLM再去发现和搭建各种应用的资源与技术浪费，要知道企业自身在大模型调优、模型训练等方面需要投入的成本还是蛮大的。

同时，企业还可以基于所引入的LLM做更多的业务。以自动化业务场景需求下引入融合LLM的RPA为例，要引入这个融合解决方案需要同步引入大语言模型，企业在LLM之上部署完RPA之后，还可以在此模型之上部署低代码、流程挖掘等更多产品与解决方案。在技术能够实现的情况下，未来企业的所有管理系统都可以部署在这个LLM之上。

因为有些客户的全业务部署需求，一些RPA厂商目前已经提供从RPA到LLM私有部署的一站式解决方案。比如云钠科技推出了包括客户需求、落地方案、训练集成以及运维优化在内的AIGC落地业务，其他厂商也已有了类似的一站式LLM落地解决方案。

与此同时，厂商们也正在集成更多的LLM并最终会成为一个模型工厂，以满足用户对于国内外大语言模型的不同需求。

目前一些厂商已经集成了GPT、文心一言等LLM，还有些厂商比如金智维集成了ChatGLM、LLaMA等更多的开源LLM。来也科技的战略规划是在今年下半年集成所有的基于公有云的大语言模型，明年上半年会集成更多的开源模型。

RPA厂商既为用户提供超自动化服务，也提供大语言模型的私有化部署服务，带来的必然是市场规模的倍数级增长。

这个倍数会多大？在来也科技看来，自动化能解决的场景流程变得更加多元化，广义RPA市场可能是原来的10倍，甚至于100倍，大家在把蛋糕做大的同时也将重构流程。

在王吉伟频道看来，LLM所带来的整体市场规模扩大，意味着RPA也将从激烈竞争的市场状态，进入一个短暂的“都有肉吃，皆有汤喝”的阶段。

这对处于“三困”境地（拓客困境、赢利困境、投资困境）的RPA行业，委实是莫大的红利。

而随着LLM彻底的全方位重构RPA\超自动化，新的市场格局也将被在技术、产品、生态、市场皆有话语权的头部先行者所改写。

最终谁能成为先行者，就要看谁能抓住这次机遇厚积薄发了。

关键词：