通过人工智能驱动的邮件搜索助手,瞬间浏览您的收件箱和日历

介绍 (Introduction)

使用 Ask AI 随意提问

超人 (Superhuman) 的 Ask AI 产品让用户宣称:“我离不开它了!”

对于每天花费大量时间在电子邮件和日历上的忙碌人士来说,在收件箱中搜索 45,873 封电子邮件,却发现自己无法回忆起正确的关键词或笨拙地使用 Gmail 标签,是一种非常普遍的挫败感。Superhuman 致力于通过其人工智能驱动的搜索助手 Ask AI 来解决这一挑战。Ask AI 旨在改变用户浏览收件箱和日历的方式,即使对于最复杂的查询(例如“我上次和那个 A 轮初创公司的创始人共进午餐是什么时候?”),也能提供即时、感知上下文的答案。

问题 (Problem)

谁、什么、何时、何地以及为何使用电子邮件关键词搜索?

超人 (Superhuman) 注意到用户在一个领域花费了大量时间——电子邮件和日历搜索。用户每周最多花费 35 分钟试图回忆起确切的短语和发件人姓名,使用传统电子邮件客户端中的关键词搜索。

该团队意识到语义搜索体验可以提高工作效率,并帮助用户减少搜索时间。

在 Ask AI 发布后的几个月里,超人 (Superhuman) 已经看到用户每周搜索时间减少了 5 分钟,节省了 14% 的时间。
认知架构 (Cognitive architecture)

将查询转化为富有洞察力的回应

在最初设计 Ask AI 架构时,超人 (Superhuman) 团队使用了执行检索增强生成 (RAG) 的单提示 LLM。目标是使用户能够查询他们的收件箱和日历,并检索相关的任务、事件或消息。

上面的图表显示了他们的第一个版本,该版本使用 JSON 模式生成检索参数,这些参数通过混合搜索和启发式重排序传递,然后 LLM 生成答案。

然而,单提示设计存在一些缺点。首先,LLM 并不总是可靠地遵循特定任务的指令。他们还发现 LLM 难以准确地推理日期(例如,识别即将到来的截止日期)。他们的系统也只擅长处理某些搜索类型——例如查找航班或总结公司更新——但不擅长处理其他搜索类型,例如日历可用性或复杂的多步骤搜索

这些限制促使超人 (Superhuman) 团队转型为更复杂的认知架构。他们新的代理架构(如下图所示)可以理解用户意图并提供更准确的响应。它的工作原理如下

1. 查询分类和参数生成

当用户提交查询时,Ask AI 代理会并行发生两个过程:

  • 工具分类: 系统根据用户意图对查询进行分类,以确定要激活哪些工具或数据源。分类器识别查询是否需要:一些文本
    • 1) 仅电子邮件搜索
    • 2) 电子邮件 + 日历事件搜索
    • 3) 检查可用性
    • 4) 安排事件
    • 5) 无需工具的直接 LLM 响应。
  • 元数据提取: 同时,系统提取相关的工具参数,例如时间过滤器、发件人姓名或相关附件。这些将用于检索,以缩小搜索范围,提高准确性。

此工具分类确保仅调用相关工具,从而提高响应质量。它也将在响应生成步骤中使用(以指定要使用的提示)。

2. 特定于任务的工具使用

一旦查询被分类,将调用适当的工具。如果任务需要搜索,则将其传递到搜索工具(使用混合语义 + 关键词搜索),并使用重排序算法来优先考虑最相关的信息。

3. 响应生成:

根据步骤 1 中的分类,系统将选择不同的提示和偏好。提示将包含特定于上下文的指令和特定于查询的示例,以及编码的用户偏好。LLM 在具有明确指令和编码用户偏好的系统提示的指导下,将综合信息以生成量身定制的响应。

Ask AI 代理在后处理期间使用特定于任务的指南,而不是依赖一个庞大的、包罗万象的提示。这使得代理能够在各种任务中保持一致的质量。

通过过渡到这种并行、多进程架构,超人 (Superhuman) 创建了一个更可靠的代理,并且也达到了这些 RAG 期望
  • 亚 2 秒响应,以保持流畅的用户体验
  • 通过后处理层和简短的后续操作减少幻觉
Prompt 工程 (Prompt engineering)

双重浸泡 (Double dipping)

为了确保响应质量的一致性,超人 (Superhuman) 实施了一些不同的提示工程策略。首先,他们通过添加聊天机器人规则来定义系统行为、特定于任务的指南和语义少样本示例来指导 LLM,从而构建了他们的提示。这种规则的嵌套有助于 LLM 可靠地遵循指令。

超人 (Superhuman) 团队采用的最有趣的技术是“双重浸泡”指令。通过在初始系统提示和最终用户消息中重复关键指令,他们确保严格遵循基本指南。这种指令的双重强化有助于保持清晰度和一致性,从而产生更可靠的输出。

评估 (Evaluation)

通过反馈验证结果

在开始测试 Ask AI 的性能时,超人 (Superhuman) 首先针对问题和答案的静态数据集进行了测试。他们根据此测试集查看了检索准确率,并比较了提示更改如何影响准确率。

该团队还采用了“发布和学习”的方法,系统地向更多用户推出 Ask AI。首先,他们从内部团队利益相关者那里收集了赞/踩反馈。然后,他们使用相同的方法向全公司推出了该功能。

一旦他们收到足够积极的反馈,Ask AI 就被推出给专门的 AI 测试组,然后是他们的社区拥护者,最终是测试等待名单。这种策略使超人 (Superhuman) 团队能够识别最紧迫的用户需求,并相应地优先考虑改进——从而实现了为期四个月的测试过程,最终实现了 GA 发布。

用户体验 (UX)

双重力量:集成 Ask AI 以实现电子邮件搜索的灵活性

Ask AI 以两种关键方式集成到超人 (Superhuman) 的电子邮件应用程序界面中

1. 在搜索栏内,用户可以在传统搜索和 Ask AI 之间切换。

2. 作为类似聊天的界面,用户可以在其中询问后续问题并查看对话历史记录。

该团队就仅在搜索中、仅作为代理还是两者都集成 Ask AI 进行了大量讨论。最终,通过用户反馈和测试,他们发现用户在这两种选择中都看到了价值——因此他们保留了这两个界面。

借助 Ask AI,用户还可以灵活地在语义搜索或常规搜索之间进行选择,从而更好地控制他们的搜索体验。为了避免不正确的答案,Ask AI 还会在提供最终答案之前向用户验证不确定的结果。因此,超人 (Superhuman) 团队仔细关注响应速度,力求在保持准确性的同时尽可能快地提供答案

结论 (Conclusion)

更智能的搜索,更快乐的用户

超人 (Superhuman) 的 Ask AI 代表了一种通过 AI 改造电子邮件搜索的深思熟虑的方法。通过专注于用户需求、快速迭代以及采用巧妙的提示技术(如双重浸泡指令),他们创建了一个可以缩短搜索时间并改善整体电子邮件体验的工具。

随着 AI 的不断进步,像 Ask AI 这样的工具为更强大的助手铺平了道路,这些助手可以无缝地融入我们的日常工作流程中。

还有更多...
从最前沿的公司发现更多突破性 AI 代理故事。
突破性代理应用程序 (Breakout Agentic Apps)
返回主页
阅读下一个故事

Perplexity

准备好更快地交付可靠的 GenAI 应用程序了吗?

LangChain、LangSmith 和 LangGraph 是参考架构的关键部分,可帮助您从原型到生产。