斯坦福大学：大模型“卷”错方向了？上下文窗口越长，模型越笨！-开放智能

大数据文摘出品

在语言模型中，上下文窗口对于理解和生成与特定上下文相关的文本至关重要。

一般而言较大的上下文窗口可以提供更丰富的语义信息、消除歧义。

由于硬件和算法的最新进步，大模型的上下文窗口的长度也越来越“卷”。

其中的卷王当属Anthropic 公司，其五月份就将 Claude 的上下文窗口从 9k token扩展到了 100k。

最近更新的Claude 2 更是让其100K的上下文能力“常驻”模型。

图片[2]-斯坦福大学：大模型“卷”错方向了？上下文窗口越长，模型越笨！-开放智能

有大模型“风向标”之称ChatGPT也在三月份将GPT-4模型最大上下文窗口达扩至32K；六月份将GPT-3.5-Turbo增加了16k的上下文长度（此前是4k）。

图片[3]-斯坦福大学：大模型“卷”错方向了？上下文窗口越长，模型越笨！-开放智能

而斯坦福大学联合加州伯克利大学以及Samaya的研究员，在一篇题为“中途迷失：语言模型的长·上下文利用之道”中提出：在多文档问题回答和键值检索，这两种都需要从输入的上下文中识别相关信息的任务中，大语言模型会随着输入上下文的长度增加，性能会显著下降。

具体而言，作者指出当相关信息出现在输入上下文的开头或结尾时，性能通常最好，但当模型需要在长篇上下文的中间获取相关信息时，性能明显降低。

换句话说：当带有答案的文字，被放在文章的中间时候，大语言模型可能无法准确识别、理解该答案。

因此，大模型目前越来越卷的上下文窗口长度，可能并不能增加模型的理解能力。

图片[4]-斯坦福大学：大模型“卷”错方向了？上下文窗口越长，模型越笨！-开放智能

值得一提的是，知名科技媒体网站VentureBeat也报道了这篇论文，并咨询了一些专家，表示，向量数据库可能是破局的关键。

Vector databases like Pinecone help developers increase LLM memory by searching for relevant information to pull into the context window.

这一说法也得到了上述论文的关键作者“Nelson Liu”的认可，他表示：如果将整个 PDF 放到语言模型上下文窗口中，然后询问有关该文档的问题，那么使用向量数据库搜索通常会更有效。

同时Nelson Liu也提到这篇论文并不是在说将整篇文档塞进大模型的上下文窗口，就一定表现不好。其实，结果取决于文档所包含的具体内容，大模型在区分“关系密切的内容”时，表现不佳。当各部分内容不相关（相互独立）的时候，大模型非常擅长“准确定位”。

编者注：向量数据库的核心思想是将文本转换成向量，然后将向量存储在数据库中，当用户输入问题时，将问题转换成向量，然后在数据库中搜索最相似的向量和上下文，最后将文本返回给用户。

论文细节

论文对开源和非开源的模型都进行了测验，前者包括MPT-30B-Instruct，LongChat-13B（16K）；后者包括OpenAI的GPT-3.5-Turbo和Anthropic的Claude。

首先进行了多文档问题回答的实验。该任务的目标是让模型对文档进行推理，找到并使用相关信息来回答给定的问题。

在实验中，对输入上下文的大小以及输入上下文中的相关信息位置进行了有控制的调整。

图片[5]-斯坦福大学：大模型“卷”错方向了？上下文窗口越长，模型越笨！-开放智能

如上图所示，当改变相关信息在文档中的位置时，模型性能呈现独特的U形趋势，即当相关信息出现在输入上下文的开头或结尾时，性能通常最好；当模型需要在长篇上下文的中间获取相关信息时，性能明显最低。

甚至，在相关信息被放在输入上下文的中间位置时，GPT-3.5-Turbo在多文档问题回答任务上的表现不如别提供文档。

此外，一些号称专门处理长文本的大模型，在这方面表现也不好。

那么，语言模型有多大程度上能从输入上下文中检索信息呢？论文作者指定了一个合成的键值检索任务来探索该问题。

在这个任务中，模型需要处理一组JSON格式的键值对，并必须返回与特定键相关联的值。类似于多文档问题回答任务，键值检索任务在操作过程中，也对输入上下文的大小以及输入上下文中的相关信息位置进行了有控制的调整。

结果显示：仍然是U形性能曲线。

多文档问答

多文档问答任务在很大程度上类似于商业搜索和问答应用（例如，Bing Chat）所采用的检索增强生成模式。

在这些实验中，模型的输入是一个需要回答的问题，以及k篇文档（例如，来自维基百科的段落），其中一篇文档包含了问题的答案，而剩下的k-1篇“干扰”文档则没有。

图片[6]-斯坦福大学：大模型“卷”错方向了？上下文窗口越长，模型越笨！-开放智能

如上图所示，要执行多文档问答任务，模型需要在输入的上下文中获取包含答案的文档，并用它来回答问题。

具体测验中，作者利用NaturalQuestions基准测试的数据，创建了这一任务的实例。其中，使用的查询来自于NaturalQuestions-Open，并从维基百科抽取段落（即不超过100个Token的文本块）作为输入上下文中的文档。

对于所有这些查询，需要找到一份包含答案的文档，并找到k – 1份没有答案的文档作为干扰项。前者作者采用NaturalQuestions注释中含有答案的维基百科段落；后者采用了Contriever检索系统找出那些最与问题相关，但并未包含任何NaturalQuestions标注答案的k – 1个维基百科片段。

最后，将准确度作为主要的评价标准，以此来判断预测输出中是否出现了正确的答案。