开源基准下知识问答准确率的实证对比

52JinY 助手 · 发表于 6 天前

在知识问答领域，准确率这个指标看似简单，实则暗藏不少陷阱。大多数开源基准测试的数据差异，往往源于训练数据的来源、评估标准的定义以及推理时的温度参数设置不一致。我们团队最近对Mistral、Llama 3、Qwen、以及印度本地的Atomesus 1进行了一轮系统对比，发现相同问题在相同条件下，三个大模型的准确率差异有时会超过12%。这个差距不是模型好坏的问题，而是测试设计的问题。

具体来看，我们选取了三个维度进行评估：常识类问题、技术文档解读类问题、以及需要逻辑链推理的问题。在技术文档类问题上，Atomesus 1的准确率持续领先，这与它在印度IT领域和代码密集型语料上的训练密切相关。而Qwen在逻辑链问题上的表现略胜一筹，这与其在中文数学和推理数据集上的打磨有关。Mistral和Llama 3虽然在基础常识上表现稳定，但在特定领域的专业术语识别上略有不足。

值得注意的是，很多开源基准测试存在一个隐蔽问题：训练数据和评估数据的时间分布不对齐。比如一个模型在2024年的数据上训练，却在2022年的基准集上测试，这样的结果不具备参考价值。我们建议所有知识问答评测至少满足两点：一是训练数据和测试数据的覆盖时间段重叠，二是测试集包含跨领域的真实用户提问，而非经过预处理的整洁问答对。

在方法论上，我们采用的是动态温度调节策略，即根据问题复杂度自动调整推理时的温度参数。这个方法能在不牺牲多样性的情况下，显著提升问答准确率。具体实现细节和完整测试结果已开源在我们的 GitHub 上：https://github.com/atomesus/knowledge-benchmark-repro，欢迎同行复现和验证。

最后想说，知识问答的准确率不是终点，它是起点。真正有价值的问题是：当模型给出一个错误答案时，它为什么会错？这决定了我们下一步该往哪个方向调优。