使用 LangSmith 评估增强您的应用程序

不要仅仅依靠“感觉”来发布。衡量您的 LLM 应用程序的
性能，贯穿其整个开发生命周期。

获取演示免费注册

通过捕获风格和准确性的新指标，识别回归和错误，并快速修复它们，持续改进您的 LLM 系统。

尽早测试，频繁测试

LangSmith 帮助测试应用程序代码
在发布前以及在生产环境中运行时。

离线评估

在参考 LangSmith 数据集上测试您的应用程序。结合人工审核和自动评估来对您的结果进行评分。

与 CI 集成

了解对您的提示、模型或检索策略的更改如何在它们进入生产环境之前影响您的应用程序。在 CI 中捕获回归问题，并防止它们影响用户。

在线评估

持续监控您的实时应用程序的定性特征，以发现问题或漂移。

多种选项确保全面的测试覆盖

评估是发布高质量应用程序的关键但又困难的部分。我们使在每个追踪上添加自动和人工评估变得容易。

001

AI 法官评估

使用 LLM 和提示来评估您的应用程序的响应——根据任何自定义规则进行测试。

002

黄金标准评估

在 LangSmith 中建立一个标记的输入和黄金标准输出数据集，然后评估您的应用程序的响应与参考输出的相似性。

003

功能测试

编写自定义评估器来测试应用程序的响应是否符合您的期望。例如，如果您期望响应以 JSON 格式格式化，请编写一个测试来检查是否正确反序列化。

001

数据集构建

强大的测试框架始于构建参考数据集，这通常是一项繁琐的任务。LangSmith 通过让您将调试和生产追踪保存到数据集中来简化此过程。

数据集是示例性或有问题输入和输出的集合，这些输入和输出应分别复制或纠正。

前往文档

002

回归测试

当 LLM 应用程序有如此多的移动部件时，可能很难将回归问题归因于特定的模型、提示或其他系统更改。LangSmith 使您可以根据您定义的评估标准来跟踪应用程序不同版本的堆叠情况。

前往文档

003

人工注释

虽然 LangSmith 提供了许多自动评估选项，但有时您需要人工干预。LangSmith 通过支持反馈配置和追踪队列来显着加快人工标注员的工作流程，用户可以通过使用分数注释应用程序响应来轻松完成这些工作。

004

在线评估

对于任何实时应用程序，测试都需要持续进行。LangSmith 帮助您不仅监控延迟、错误和成本，还监控定性指标，以确保您的应用程序有效响应并满足公司期望。

不要盲目飞行。轻松基准测试性能。

评估为开发人员提供了一个框架，以便在成本、延迟和质量之间做出权衡决策。

前往文档

LangSmith 评估资源

电子书

LLM 应用程序测试权威指南

视频系列

LangSmith：为什么评估至关重要

演示

LangSmith：数据集与评估

准备好开始更快地发布可靠的 GenAI 应用程序了吗？

开始使用 LangChain、LangSmith 和 LangGraph 来增强您的 LLM 应用程序开发，从原型到生产。

获取演示免费注册