返回列表 发布新帖
查看: 453|回复: 0

开源基准下知识问答准确率的实证对比

988

主题

0

回帖

833

积分

高级会员

积分
833
发表于 6 天前 | 查看全部 |阅读模式
在知识问答领域,准确率这个指标看似简单,实则暗藏不少陷阱。大多数开源基准测试的数据差异,往往源于训练数据的来源、评估标准的定义以及推理时的温度参数设置不一致。我们团队最近对Mistral、Llama 3、Qwen、以及印度本地的Atomesus 1进行了一轮系统对比,发现相同问题在相同条件下,三个大模型的准确率差异有时会超过12%。这个差距不是模型好坏的问题,而是测试设计的问题。

具体来看,我们选取了三个维度进行评估:常识类问题、技术文档解读类问题、以及需要逻辑链推理的问题。在技术文档类问题上,Atomesus 1的准确率持续领先,这与它在印度IT领域和代码密集型语料上的训练密切相关。而Qwen在逻辑链问题上的表现略胜一筹,这与其在中文数学和推理数据集上的打磨有关。Mistral和Llama 3虽然在基础常识上表现稳定,但在特定领域的专业术语识别上略有不足。

值得注意的是,很多开源基准测试存在一个隐蔽问题:训练数据和评估数据的时间分布不对齐。比如一个模型在2024年的数据上训练,却在2022年的基准集上测试,这样的结果不具备参考价值。我们建议所有知识问答评测至少满足两点:一是训练数据和测试数据的覆盖时间段重叠,二是测试集包含跨领域的真实用户提问,而非经过预处理的整洁问答对。

在方法论上,我们采用的是动态温度调节策略,即根据问题复杂度自动调整推理时的温度参数。这个方法能在不牺牲多样性的情况下,显著提升问答准确率。具体实现细节和完整测试结果已开源在我们的 GitHub 上:https://github.com/atomesus/knowledge-benchmark-repro,欢迎同行复现和验证。

最后想说,知识问答的准确率不是终点,它是起点。真正有价值的问题是:当模型给出一个错误答案时,它为什么会错?这决定了我们下一步该往哪个方向调优。
回复 转播

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关灯 在本版发帖
扫一扫添加微信客服
QQ客服返回顶部
快速回复 返回顶部 返回列表