Prompt 手册——gpt-best-practices

对于需要大量独立指令集来处理不同情况的任务，首先对查询类型进行分类并使用该分类来确定需要哪些指令可能是有益的。
对于需要很长对话的对话应用，总结或过滤之前的对话。另一种解决方案是动态选择与当前查询最相关的对话的先前部分。
要总结一个很长的文档，比如一本书，我们可以使用一系列查询来总结文档的每个部分。节摘要可以被连接和总结生成摘要的摘要。这个过程可以递归地进行，直到总结了整个文档。

如果要求将 17 乘以 28，你可能不会立即知道，但随着时间的推移仍然可以计算出来。同样，GPT 在试图立即回答而不是花时间找出答案时会犯更多的推理错误。在回答之前询问一系列推理可以帮助 GPT 更可靠地推理出正确答案。有时，当我们明确指示模型在得出结论之前根据第一原则进行推理时，我们会得到更好的结果。

内心独白的想法是指示模型将本应对用户隐藏的输出部分放入结构化格式中，以便于解析它们。然后在将输出呈现给用户之前，对输出进行解析并仅使部分输出可见。
通常可以通过使用后续查询提示模型来查找它在先前传递中遗漏的任何摘录来获得更好的性能。

通过为 GPT 提供其他工具的输出来弥补它们的弱点。如果一项任务可以通过工具而不是 GPT 更可靠或更有效地完成，请卸载它以充分利用两者。

如果作为输入的一部分提供，模型可以利用外部信息源。这可以帮助模型生成更明智和最新的响应。嵌入可用于实现高效的知识检索，以便在运行时将相关信息动态添加到模型输入中。
不能依赖 GPT 自行准确地执行算术或长计算。在需要的情况下，可以指示模型编写和运行代码，而不是进行自己的计算。

如果可以衡量，提高绩效会更容易。在某些情况下，对提示的修改会在一些孤立的示例上获得更好的性能，但会导致在更具代表性的示例集上的整体性能变差。因此，为确保更改对性能产生积极影响，可能有必要定义一个综合测试套件（也称为“评估”）。

参考黄金标准答案评估模型输出：假设已知问题的正确答案应该参考一组特定的已知事实。然后我们可以使用模型查询来计算答案中包含了多少所需事实。

手机扫一扫

移动阅读更方便

你可能感兴趣的文章