研究人员首次对比了大型语言模型(LLMs)与人类在问题生成任务中的表现,从问题长度、类型、上下文覆盖范围及可回答性等六大维度进行了详细分析。研究发现,LLMs倾向于生成需要较长描述性答案的问题,且对上下文的关注更加均衡,与人类偏好有所不同。该成果通过引入自动化评估方法,扩展了现有的统计问题质量标准,为评估下游应用提供了经验。
实验采用两个大型语言模型GPT-4o和LLaMA-3.1-70b-Instruct,在大量维基百科上下文上生成问题并评估。结果显示,LLMs与人类在问题类型和长度上存在差异,且LLMs生成的问题在上下文分布上更为均衡。此外,LLMs生成的答案通常较长,但在保持评分的情况下可以压缩至更短版本。