最新研究显示,人工智能在处理复杂历史问题时存在明显不足。在NeurIPS会议上公布的研究中,针对OpenAI的GPT-4、Meta的Llama和谷歌的Gemini三款顶级语言模型的测试显示,即便表现最佳的GPT-4Turbo,准确率也仅为46%。这些模型在基本史实方面尚可,但在深入历史研究时力不从心,常在细节上出错。此外,模型在处理撒哈拉以南非洲等地区的历史问题时表现更差,暴露出训练数据可能存在的偏差。尽管如此,研究团队对AI在历史研究中的应用前景仍保持乐观,并正在改进测试基准。
研究人员指出,在某些专业领域,AI尚无法取代人类专家,但改进后的模型有望在未来提高准确性。