斯坦福大学和麻省理工学院的研究人员推出了搜索流

一种机器学习框架，使语言模型能够在没有任何外部支持的情况下通过搜索语言来学习解决问题

来自斯坦福大学、麻省理工学院和 Harvey Mudd 的研究人员设计了一种方法，通过将搜索过程表示为序列化字符串“搜索流”(SoS)，来教授语言模型如何搜索和回溯。他们提出了一种统一的搜索语言，并通过倒计时游戏进行了演示。在搜索流上预训练基于 Transformer 的语言模型将准确率提高了 25%，而通过策略改进方法进一步微调则解决了 36% 以前未解决的问题。这表明语言模型可以学习通过搜索解决问题、自我改进并自主发现新策略。

最近的研究将语言模型集成到搜索和规划系统中，利用它们来生成和评估潜在的动作或状态。这些方法利用 BFS 或 DFS 等符号搜索算法来制定探索策略。然而，LM 主要用于推理，需要提高推理能力。相反，上下文演示使用语言说明搜索过程，使 LM 能够相应地进行树搜索。然而，这些方法受到演示程序的限制。过程监督涉及训练外部验证者模型，为 LM 训练提供详细的反馈，其性能优于结果监督，但需要大量标记数据。

## 以下是论文摘要：

想象一下，只看到问题的正确解决方案，却看不到错误或从中恢复。您可能会了解到，问题必须一次性解决，而不是通过探索和错误。大多数用于训练语言模型 (LM) 的数据仅反映决策过程的结果，而不反映决策过程本身。 LM 永远不会犯错误。他们永远不会学会寻找、计划或回溯。复杂的决策和推理需要搜索。在本文中，我们探讨了训练 LM 对搜索过程的影响，包括错误，然后让它们自我改进。

基于 Transformer 的自回归模型已被证明难以应对规划（Valmeekam 等人，2024 年；Pallagani 等人，2023 年；Momennejad 等人，2024 年）。最近的工作通过确定两个主要问题突显了自回归模型的这一弱点（LeCun，2023；Bachmann & Nagarajan，2024）：

1）错误滚雪球，单个错误可能会复合并导致后续步骤中的性能越来越差（Ross等人，2011；Arora 等人，2022），以及

2）“前瞻性任务”中的困难，其中模型必须提前几步预测其行为的后果（信用分配，Cf. Sutton 和 Barto，2018）。

这两个问题都可以归因于搜索和回溯能力有限。虽然最近的努力将语言模型与符号搜索算法相结合（Ahn 等人，2022 年；Yao 等人，2024 年）来缓解其中一些问题，但它们是有限的——仅在推理过程中补充语言模型——它们留下了一个悬而未决的问题语言模型是否能够有效地自行进行搜索。学习搜索最重要的结果可能是在训练过程中（Silver et al., 2018）。如果语言模型能够在训练过程中学会搜索，那么它们也许能够通过自我改进发现更灵活的搜索策略。这可能会导致模型能够更好地应对错误复合和前瞻任务带来的挑战。

结果表明，基于 Transformer 的语言模型在展示如何从错误中恢复并通过不同选项进行搜索时，可以学习通过搜索来解决问题。更重要的是，我们的结果表明这些模型可以自我改进以自主使用不同的搜索策略，解决以前未解决的问题。最后，我们看到一些证据表明，它们在经过训练以优化准确性时发现了新的搜索策略。

这些操作中的每一个都可以是隐式的，影响轨迹如何展开，或者作为搜索轨迹 𝒯 的一部分在语言中明确表示。当操作是隐式的时，模型更有可能内化它们的抽象表示，这些抽象表示可以通过训练来改进。显式操作将变成 LM 做出的显式推理动作。我们选择在轨迹中明确表示当前状态、目标状态、回溯操作、目标检查和探索选择。我们选择隐含启发式函数、状态值和修剪策略。

@Stanford @MIT_CSAIL

论文： https://arxiv.org/abs/2404.03683

GitHub： https://github.com/kanishkg/stream-of-search

快速阅读： https://marktechpost.com/2024/04/10/researchers-at-stanford-and-mit-introduced-the-stream-of-search-sos-a-machine-learning-framework-that-enables-language-models-to-learn-to-solve-problems-by-searching-in-language-without-any-externa/

如果想详细了解，可以点开视频下方的链接。

谢谢观看本视频。要是喜欢，请订阅、点赞。谢谢

视频：https://youtu.be/R5DI77hfepY