您能期待什么?
测试指南电子书
构建和测试大型语言模型应用的工程团队面临着独特的挑战。大型语言模型的非确定性本质使得难以审查自然语言响应的风格和准确性,需要使用新的成功指标进行稳健的测试。
本指南将帮助您为测试流程增添严谨性,以便您能够更快地迭代,而不会冒出现尴尬或有害的回归风险。
跨产品生命周期的测试技巧
构建数据集和定义测试指标的方法
评估 RAG 和代理的模板,以及可视化示例
软件工程师架构师
“LangSmith 使得策划和维护高信号大型语言模型测试套件比以往任何时候都更容易。使用 LangSmith,我们在生产系统上看到了 43% 的性能提升,增强了高管对投资数百万美元用于新机会的信心。”
数据科学、人工智能和机器学习工程副总裁
“LangSmith 在加速我们的人工智能应用和增强我们识别和解决影响应用程序可靠性的问题的能力方面发挥了重要作用。使用 LangSmith,我们还可以创建自定义反馈循环,将人工智能应用程序的准确性提高 40%,并将部署时间缩短 50%。”
机器学习平台工程主管
“在 LangSmith 之前,我们没有一个系统化的方式来提高大型语言模型应用程序的质量。通过将 LangSmith 集成到我们的应用程序框架中,我们现在拥有一个连贯的方法来对 200 多个应用程序的提示和模型进行基准测试。这支持我们在 Grab 的数据驱动文化,并使我们能够持续改进我们基于大型语言模型的解决方案。”