OpenAI发布事故报告,指出正在调查GPT-4o和4o-mini模型性能下降问题,并承诺尽快发布最新进展。科研人员推出LONGPROC基准测试工具,专门评估模型处理长上下文复杂信息的能力。
实验结果显示,包括GPT-4o在内的顶尖模型在复杂长文本生成任务中仍有待改进。尽管各模型宣称的上下文窗口大小超过32K tokens,但实际测试中,开源模型在2K tokens任务中便显疲态,GPT-4o等闭源模型在8K tokens任务中性能也明显下滑。实验进一步揭示了大型语言模型在生成连贯冗长内容方面的提升空间,预示着未来研究方向。