使用 LangSmith 评估强化您的应用程序

不要仅仅依靠“感觉”发布您的应用程序。通过在整个开发生命周期中进行测试,衡量您的 LLM 应用程序的
性能。

通过捕获新的风格和准确性指标、识别回归和错误并快速修复它们,不断改进您的 LLM 系统。

尽早测试,经常测试

LangSmith 有助于测试应用程序代码
预发布以及在生产中运行时。

离线评估

在参考 LangSmith 数据集上测试您的应用程序。使用人类评审和自动评估的组合来评分您的结果。

与 CI 集成

了解在您的提示、模型或检索策略发生变化之前,这些变化将如何影响您的应用程序。在 CI 中捕获回归,并防止它们影响用户。

在线评估

持续监控实时应用程序的定性特征,以发现问题或漂移。
001

数据集构建

强大的测试框架始于构建参考数据集,这通常是一项繁琐的任务。LangSmith 通过允许您将调试和生产跟踪保存到数据集来简化此过程。

数据集是示例或有问题的输入和输出的集合,应分别复制或更正。

转到文档
002

回归测试

当 LLM 应用程序中有如此多的移动部件时,很难将回归归因于特定的模型、提示或其他系统更改。LangSmith 允许您根据定义的评估标准跟踪应用程序的不同版本的性能。

转到文档
003

人工注释

虽然 LangSmith 拥有许多自动评估选项,但有时您需要人工干预。LangSmith 通过支持反馈配置和跟踪队列来显著加快人工标注员的工作流程,用户可以通过为应用程序响应添加评分来轻松处理这些队列。

004

在线评估

对于任何实时应用程序,测试都需要持续进行。LangSmith 不仅帮助您监控延迟、错误和成本,还监控定性指标,以确保您的应用程序能够有效地响应并满足公司期望。

不要盲目行动。轻松进行性能基准测试。

评估为开发人员提供了一个框架,让他们在成本、延迟和质量之间做出权衡决策。

转到文档

有兴趣成为 LangChain 大使吗?

首先举办一个聚会、建立一个数字社区或创建教育内容,并在我们的社区 Slack 上与我们分享!