
构建一个 AI 导游,帮助用户浏览 Ramp 的金融运营平台
Ramp 导览
最好的导游不仅仅是指路——他们还能预见您的需求,解释复杂的地标,并使旅程的每一步都易于理解。Ramp 的 AI 驱动助手——恰如其分地被称为“导游”——是一位经验丰富的夏尔巴人,帮助用户浏览 Ramp 的金融运营平台。
这种基于代理的解决方案引导用户完成各种任务,从费用审批到在 Ramp Web 应用程序中动态调整信用额度。凭借关于 Ramp 平台的知识,“导游”通过向用户展示他们应该如何完成最重要的任务来提高用户生产力。
提升用户愉悦度和平台可访问性
Ramp 的产品为用户自动化了很多流程,从账单支付到信用卡访问,再到费用管理等等。像任何具有多层功能的软件一样,用户需要成为使用和管理该工具的专家。存在一个入门曲线,而 Ramp 希望减少用户自助满足需求所需的时间。
Ramp 希望在 Ramp 产品中提供更快、更即时的帮助,而无需致电客户支持,同时最大限度地提高用户愉悦度。Ramp 没有追求完全自动化(这可能风险更高,用户体验不佳),而是设计了一个代理,允许用户在代理执行任务时查看和暂停操作。
通过人机协作导航和教育用户
Ramp 的“导游”用户体验在用户看到 AI 代理逐步执行操作时,既能教育用户了解平台功能,又能建立用户信任。“导游”控制用户的光标,以执行人类在 Ramp 中会执行的操作(例如,单击按钮、导航下拉菜单或填写表单)。
当 AI 导航界面时,它会逐步解释其操作。每个相关元素旁边都会弹出一个小横幅,为每次点击或输入提供上下文和理由。
“导游”代理的独特之处在于其强烈强调人机协作。用户可以查看所有代理操作,并在任何时候中断或控制代理,而不是仅仅在后台运行它。Ramp 设计师还实现了一个弹簧光标,使用户保持参与感,感觉像是积极的参与者,因为“导游”代理代表他们执行操作。
在设计“导游”的用户体验时,Ramp 团队小心翼翼地满足用户需求,而不会越界。
“我们避免将用户置于他们实际上不需要‘导游’的流程中。” - Rahul Sengottuvelu,Ramp 应用 AI 负责人
在这方面,用户无需手动激活“导游”的功能——相反,Ramp 团队开发了一个分类器,可以智能地识别相关查询,并在适当时自动将它们路由到“导游”功能。
迭代式操作执行
Ramp 工程团队的独特见解之一是,用户与 Ramp Web 应用程序的每次交互都可以分为滚动、单击按钮或文本填充步骤。因此,为了为用户自动化任务,“导游”代理需要按正确的顺序生成这些交互步骤。
Ramp 团队将代理设计为以 Web 应用程序会话的当前状态作为输入,并建议下一个最佳操作。“导游”执行的每个操作都会更新应用程序的状态,因此代理一次只生成一个操作——滚动、单击或文本填充。然后将生成的已更改会话馈送以生成导览中的下一个操作。这种迭代式操作执行方法比从头到尾设计整个导览更有效,后者通常需要多次滚动、单击和文本填充才能满足用户的请求。
为了生成下一个最佳操作,团队最初构建了一个多步骤代理,该代理进行了两次独立的 LLM 调用。第一步是规划——即,给定代理可以与之交互的一系列选项,制定与这些对象交互的计划。第二步是接地步骤,执行对象交互
然而,使用两个独立的 LLM 调用虽然非常准确,但导致用户体验太慢。Ramp 转而使用合并的、单次调用的提示,将规划和操作生成合并为一个步骤。
优化模型输入以获得高精度输出
在设计模型输入时,Ramp 团队使用了他们自己的组件库,并结合了图像和文本数据。他们开发了一个注释脚本,该脚本将使用可见标签标记交互式 HTML 元素,类似于 Vimium 浏览器扩展提供的功能。他们还整合了来自 DOM 的可访问性标签,这些标签提供了基于语言的清晰界面组件描述,以传递到模型中。
为了确保模型可以生成可操作的步骤,而不仅仅是 UI 的描述,团队专注于通过数据预处理来改进输入。他们简化了 DOM 以删除不相关的对象,从而创建了更清晰、更高效的输入,可以更好地指导模型的操作。
Ramp “导游”背后的工程师 Alex Shevchenko 表示
“提高代理准确性的最有效方法是约束决策空间。LLM 仍然难以在许多相似选项中选择最佳选项。”
除了简化输入外,Ramp 团队还尝试了提示优化以提高输出准确性。他们没有让模型从冗长的可交互元素列表中选择,而是发现在提示中使用字母(A 到 Z)标记固定集合,使模型清楚地了解哪些选项可供处理。这显着提高了输出准确性。
在这个过程中,Ramp 最大的障碍是保持提示尽可能简洁,因为较长的提示会导致延迟增加。虽然他们尝试使用上下文填充将额外的上下文与用户屏幕截图拼凑在一起,但他们发现更有效的方法是专注于充分丰富的交互,而不会使提示过载。
保持代理平稳运行的护栏
Ramp 主要依靠手动测试来了解哪些操作效果良好,哪些操作效果不佳。一旦他们确定了代理的失败或成功模式,他们就添加了护栏。该团队硬编码了限制,以防止代理与棘手的页面进行交互——包括那些包含复杂工作流程的页面,例如大型画布界面或包含大量元素的表格。
这种方法使 Ramp 能够通过限制高失败区域的风险并将代理专注于它可以顺利处理的任务来提高可靠性。
增加严谨性得到了回报
真正使 Ramp 脱颖而出的是其卓越的用户体验设计。凭借无缝集成、视觉上引人入胜的界面和逐步指导,Ramp 不仅解决了问题,还使用户能够随着时间的推移掌握平台。
展望未来,Ramp 计划将其扩展为更广泛的“Ramp Copilot”——平台内所有用户查询和操作的单一入口点。这突显了他们致力于通过 AI 简化复杂的金融工作流程,同时将用户置于其旅程的最前沿。
从最前沿的公司发现更多突破性的 AI 代理故事。
准备好更快地交付可靠的 GenAI 应用程序了吗?
LangChain、LangSmith 和 LangGraph 是将您从原型推向生产的关键参考架构组成部分。