AI Agent 状态

我们调查了超过 1300 名专业人士——从工程师和产品经理到商业领袖和高管——以揭示 AI Agent 的状态。深入数据,了解当今 AI Agent 的使用情况(或未使用情况)。

导言

在 2024 年,AI Agent 不再是小众兴趣。各行各业的公司都越来越认真地将 Agent 融入到他们的工作流程中——从自动化日常任务,到协助数据分析或编写代码。

但幕后真正发生了什么?AI Agent 是否实现了它们的潜力,还是仅仅是另一个流行语?谁一直在部署它们,又是什么阻止了其他人全速投入?

我们调查了超过 1300 名专业人士,以了解 2024 年 AI Agent 的状态。让我们深入了解以下数据。

洞察

First, what even is an agent?

首先,Agent 到底是什么?

在 LangChain,我们将 Agent 定义为一个使用 LLM 来决定应用程序控制流程的系统。就像自动驾驶汽车的自主级别一样,Agent 能力也存在谱系

Agent 的采纳就像掷硬币——但几乎每个人都有计划

Agent 竞赛正在升温。在过去一年中,许多 Agent 框架获得了巨大的普及——无论是使用 ReAct 来结合 LLM 推理和行动、多 Agent 编排器,还是更可控的框架,如 LangGraph

关于 Agent 的所有讨论并非都是 Twitter 炒作。大约 51% 的受访者今天正在生产环境中使用 Agent。当我们按公司规模查看数据时,中型公司(100-2000 名员工)在将 Agent 投入生产方面最为积极(占 63%)。

令人鼓舞的是,78% 的公司有积极计划很快将 Agent 投入生产环境。虽然很明显,对 AI Agent 的需求很强劲,但实际的生产部署仍然是许多公司的障碍。

您的公司目前是否在生产环境中部署了
Agent?
您目前是否正在开发 Agent 并计划将其投入生产环境?

我们还继续看到公司从简单的基于聊天的实现转向更高级的框架,这些框架强调多 Agent 协作和更自主的能力。(详见下文“新兴主题”部分。)

虽然科技行业通常以早期采用者而闻名,但对 Agent 的兴趣正在所有行业中获得吸引力。90% 在非科技公司工作的受访者已经或计划将 Agent 投入生产环境(几乎与科技公司相当,为 89%)。

领先的 Agent 用例

人们使用 Agent 做什么?Agent 正在处理日常任务,同时也为知识工作开启了新的可能性。

Agent 的主要用例包括 执行研究和摘要(58%),其次是简化任务以提高 个人生产力或辅助(53.5%)。

这些都表明人们渴望有人(或某物)替他们处理耗时的任务。用户可以依靠 AI Agent 从大量信息中提炼关键见解,而不是筛选无尽的数据进行文献综述或研究分析。同样,AI Agent 通过协助日常任务(如日程安排和组织)来提高个人生产力,从而让用户专注于重要的事情。

效率提升不仅限于个人。客户服务(45.8%)是 Agent 用例的另一个主要领域,它可以帮助公司处理咨询、排除故障并加快跨团队的客户响应时间。

您认为,Agent 今天最适合执行哪些任务?

安全胜于后悔:需要跟踪和人工监督来控制 Agent

能力越大,责任越大——或者至少需要为您的 Agent 提供一些刹车和控制措施。跟踪和可观察性工具位居必备控制措施列表的首位,帮助开发人员了解 Agent 的行为和性能。大多数公司还在采用防护栏,以防止 Agent 偏离方向。

您为 Agent 部署了哪些类型的控制措施?

在测试 LLM 应用程序时,离线评估(39.8%)比在线评估(32.5%)更常被提及为一种策略。这可能表明监控实时性能的难度。在书面回复中,许多公司还安排人工专家手动检查或评估响应,以增加一层预防措施。

尽管人们对 Agent 抱有很大的期望,但在我们允许 Agent 走多远的问题上,大多数人采取了更为保守的方法。极少有受访者允许他们的 Agent 自由地读取、写入和删除。相反,大多数团队要么允许 只读工具权限,要么 要求人工批准才能执行更重要的操作,例如写入或删除。

您的 Agent 拥有哪些类型的工具权限?
What kind of tool permissions does your agent have?

不同规模的公司在 Agent 控制方面也对优先事项的权重有所不同。毫不奇怪,大型企业(2000 多名员工)更加谨慎,严重依赖“只读”权限以避免不必要的风险。他们还倾向于将防护栏与 离线评估 相结合,以便在客户看到任何响应之前,在预生产环境中发现回归。

按公司规模划分的工具权限

与此同时,小型公司和初创公司(少于 100 名员工)更关注跟踪,以了解其 Agent 应用程序中发生的情况(而不是其他控制措施)。从我们的对话来看,小型公司倾向于专注于交付并通过查看数据来了解结果;而企业则在各个方面都采取了更多的控制措施。

按公司规模划分的 Agent 控制措施
Agent controls by company size

虽然非科技公司和科技公司受访者的 Agent 采纳率相似,但在生产环境中使用 Agent 控制措施的受访者中,科技公司更有可能使用多种控制方法。51% 的科技受访者目前正在使用 2 种或更多种控制方法,而其他行业的受访者仅为 39%。这表明科技公司在构建可靠的 Agent 方面可能走得更远,因为高质量的体验需要控制措施。

用于控制或防护栏的方法数量
Number of methods used for controls of guardrails

将 Agent 投入生产环境的障碍和挑战

保持 LLM 应用程序性能的高质量——无论是响应是否准确,还是是否符合正确的风格——并非易事。

性能质量是受访者最关心的问题——比成本和安全等其他因素重要两倍以上。

Agent 使用 LLM 来控制工作流程的内在不可预测性引入了更多的出错空间,这使得团队难以确保他们的 Agent 始终如一地提供准确、符合上下文的响应。

您将更多 Agent 投入生产环境的最大限制是什么?
What is your biggest limitation of putting more agents in production?

特别是对于小型公司而言,性能质量远远超过其他考虑因素,45.8% 的公司将其列为首要关注的问题,而成本(下一个最大的关注问题)仅占 22.4%。这种差距凸显了可靠、高质量的性能对于组织将 Agent 从开发转移到生产环境有多么重要。

虽然质量仍然是企业最关心的问题,但安全问题对于这些必须遵守法规并更敏感地处理客户数据的大型公司来说也很普遍。

按公司规模划分的 Agent 部署障碍

挑战并未止步于质量。从书面回复来看,许多人对 构建和测试 Agent 的最佳实践 感到不确定。特别是,两个主要障碍脱颖而出:知识和时间。

知识:团队通常难以掌握使用 Agent 所需的技术诀窍,包括针对特定用例实施 Agent。许多员工仍在学习入门知识,需要 提升技能以有效地利用 AI Agent

时间:构建和部署所需的时间投入非常大,尤其是在尝试确保 Agent 可靠运行时——这可能需要调试、评估、微调等。

Agent 成功案例:Cursor 抢尽风头

最热门的 AI Agent 应用程序

Cursor 在我们的调查中荣登最受关注的 Agent 应用程序榜首,紧随其后的是 PerplexityReplit 等重量级应用程序。

Cursor 是一款 AI 驱动的代码编辑器,可帮助开发人员通过智能自动完成和上下文辅助来编写、调试和解析代码。Replit 还通过设置环境、配置并让您在几分钟内构建和部署功能齐全的应用程序来加速软件开发生命周期。Perplexity 是一款 AI 驱动的答案引擎,可以回答复杂的查询,并在其响应中提供网络搜索和链接来源。

这些应用程序正在突破 Agent 可以做的事情的界限,表明 AI Agent 不再是理论上的——它们正在解决当今生产环境中的实际问题。

AI Agent 采纳的新兴主题

从我们的书面回复中,我们看到了组织在将 AI Agent 引入其工作流程时面临的一些不断变化的期望和挑战。

人们对 AI Agent 的这些能力表示钦佩

管理多步骤任务
Agent 具有更深入的推理和上下文管理能力,使他们能够处理更复杂的任务。
自动化重复性任务
AI Agent 继续被视为自动化管理任务的关键,这些任务可以释放用户的时间,让他们从事更具创造性的问题解决。
任务路由和协作
更好的任务路由确保正确的 Agent 在正确的时间处理正确的问题——尤其是在多 Agent 系统中。许多人想知道如何有效地编排任务并在 Agent 网络中进行协作。
类人推理
与传统的 LLM 不同,AI Agent 可以追溯他们的决策,包括时间旅行、审查和根据新信息修改过去的决策。

但对于构建 Agent 的团队来说,也存在一些挑战。这包括

理解 Agent 行为的障碍。几位工程师在书面回复中谈到了他们向公司其他利益相关者解释 AI Agent 的能力和行为的困难。有时,对步骤进行一些额外的可视化可以解释 Agent 响应中发生的事情。有时,LLM 仍然是一个黑匣子。可解释性的额外负担留给了工程团队。

尽管存在挑战,但在以下领域仍然存在明显的兴奋和活力

对开源 AI Agent 的兴奋
人们对开源 AI Agent 表现出明显的兴趣,许多人认为集体智慧可以加速 Agent 的创新。
对更强大的模型的期待
许多人都在等待 AI Agent 的下一次飞跃,以便由更大、更强大的模型提供支持——以便 Agent 能够以更高的效率和自主性来处理更复杂的任务

结论

集成 AI Agent 的竞赛正在进行中,因为公司已经开始重塑工作流程,并利用 LLM 在改进决策制定和提高人类生产力方面发挥主导作用来设计他们的未来。

但是,虽然兴奋度很高,但公司也意识到他们必须谨慎行事,播下正确的控制措施的种子,以驾驭新的用例和应用程序。团队渴望但谨慎,正在试验框架,以努力保持其 Agent 响应的高质量和无幻觉。

展望未来,能够破解可靠、可控 Agent 代码的公司将在下一波 AI 创新中抢占先机——并开始为智能自动化的未来设定标准。

方法论

前 5 大行业

  • 技术(占受访者的 60%)
  • 金融服务(占受访者的 11%)
  • 医疗保健(占受访者的 6%)
  • 教育(占受访者的 5%)
  • 消费品(4%)

公司规模

  • 少于 100 人(占受访者的 51%)
  • 100-2000 人(占受访者的 22%)
  • 2000-10,000 人(占受访者的 11%)
  • 10,000 人以上(占受访者的 16%)