数据集构建
强大的测试框架始于构建参考数据集,这通常是一项繁琐的任务。LangSmith 通过让您将调试和生产追踪保存到数据集中来简化此过程。
数据集是示例性或有问题输入和输出的集合,这些输入和输出应分别复制或纠正。
不要仅仅依靠“感觉”来发布。衡量您的 LLM 应用程序的
性能,贯穿其整个开发生命周期。
LangSmith 帮助测试应用程序代码
在发布前以及在生产环境中运行时。
强大的测试框架始于构建参考数据集,这通常是一项繁琐的任务。LangSmith 通过让您将调试和生产追踪保存到数据集中来简化此过程。
数据集是示例性或有问题输入和输出的集合,这些输入和输出应分别复制或纠正。
当 LLM 应用程序有如此多的移动部件时,可能很难将回归问题归因于特定的模型、提示或其他系统更改。LangSmith 使您可以根据您定义的评估标准来跟踪应用程序不同版本的堆叠情况。
虽然 LangSmith 提供了许多自动评估选项,但有时您需要人工干预。LangSmith 通过支持反馈配置和追踪队列来显着加快人工标注员的工作流程,用户可以通过使用分数注释应用程序响应来轻松完成这些工作。
对于任何实时应用程序,测试都需要持续进行。LangSmith 帮助您不仅监控延迟、错误和成本,还监控定性指标,以确保您的应用程序有效响应并满足公司期望。
开始使用 LangChain、LangSmith 和 LangGraph 来增强您的 LLM 应用程序开发,从原型到生产。