GPT 系列模型[Brown et al., 2020, OpenAI, 2023]、LLama 系列模型[Touvron et al., 2023]、Gemini[Google, 2023] 等大型语言模型,在多个评估基准上展现了卓越的语言掌握和知识理解能力,甚至超越了多项人类评估基准[Wang et al., 2019, Hendrycks et al., 2020, Srivastava et al., 2022]。
然而,大型语言模型也存在许多不足。
例如,它们可能产生不准确的信息[Zhang et al., 2023b],并在处理特定领域或高度专业化的查询时表现出知识缺失[Kandpal et al., 2023]。当所需信息超出模型训练数据范围或需要最新数据时,大型语言模型可能无法提供准确答案。这一限制在将生成式人工智能部署到真实世界生产环境中尤其成为挑战,因为仅依赖于黑盒式的大型语言模型可能不够。
“检索增强生成”(Retrieval-Augmented Generation, RAG)一词最早由 [Lewis et al., 2020] 提出。它结合了一个预训练的检索器和一个预训练的序列到序列模型(生成器),通过端到端微调来以更可解释和模块化的方式捕获知识。在大型模型出现之前,RAG 主要专注于直接优化端到端模型。例如,在检索方面使用基于向量的密集通道检索(Dense Passage Retrieval, DPR)[Karpukhin et al., 2020],以及在生成方面训练较小的模型是常见的做法。
由于总体参数较少,检索器和生成器通常会进行同步的端到端训练或微调[Izacard et al., 2022]。
随着像 ChatGPT 这样的大语言模型的出现,生成式语言模型在各种语言任务中展现出卓越的性能,得到了越来越多的关注和应用[Bai et al., 2022, OpenAI, 2023, Touvron et al., 2023, Google, 2023]。
然而,大语言模型 (LLMs) 仍面临诸如幻觉式错误 [Yao et al., 2023, Bang et al., 2023]、知识更新以及数据相关问题的挑战。
这些问题影响了大语言模型的可靠性,在一些严肃的任务场景中,尤其是在需要广泛知识的知识密集型任务,例如开放领域问题回答 [Chen and Yih, 2020, Reddy et al., 2019, Kwiatkowski et al., 2019] 和常识推理 [Clark et al., 2019, Bisk et al., 2020],它们表现出了挑战。