要搞清楚是用检索增强(RAG)还是长上下文,直接按照这三条规则判断就行:数据量大不大,动不动就超出模型容量或者增长得特别快?内容更新频繁不频繁?处理逻辑是不是需要跨多个文档的全局推理?如果数据又多又总在变,选RAG准没错;如果数据有边界且需要在全局找答案,那就选长上下文。 RAG的特点是把文本转成向量存进向量库(像Milvus、Weaviate、FAISS这类),按相似度给模型喂东西;就像让图书管理员按关键词给你找书。长上下文则是直接把全文扔进去,好比把一摞书摊开让读者自己看。RAG的好处是处理动态数据强,不用重复算;坏处是系统复杂,容易找错东西或者漏东西。长上下文支持全局推理、不容易断链、架构简单;坏处是每次要花很多钱,注意力容易被分散,还受token上限限制。 决策主要看这四样:基础设施难不难搞,每次用云算力多少钱,系统快不快、能不能扩展,结果准不准、证据链够不够完整。客户支持知识库通常用RAG,比一次性把整个KB发上去便宜好多;合同或法规分析适合长上下文;书籍或报告摘要可以混用,先切片检索再汇总。 实际落地的时候,RAG得注意怎么切分内容、用多少维的向量、选哪个向量库、还有冷启动的问题。长上下文要做摘要压缩、分层处理和分段推理,别每次都发一大堆冗余信息。混合策略也很常见,比如先RAG找几个片段,再把高相关的和摘要一起放进长上下文;或者离线用长上下文分析,线上用RAG快速检索。 治理和合规也很重要,要给检索结果做版本控制、建质量监控和人工回溯流程;敏感场景可以考虑长上下文或者在RAG上加审计日志。 决策流程大概就是这样:先看数据量,再看更新频率,接着看推理需求,然后估算成本和延迟接受程度,最后决定用哪个方案。数据量要是一直往上飙还超过了数十万条碎片,就倾向RAG;单个文档需要多次跨节推理的,就倾向长上下文。 说到底技术不是死的。随着模型能容纳的token变多、检索算法进步、向量库更便宜了,今天的最佳方案以后可能就不适用了。把判断做成能衡量的流程定期复盘,工程和产品目标之间找到平衡才能既省钱又靠谱。