AI测试相关文章列表 - 编程部落

无一大模型及格！北大 / 通研院提出超难基准 LooGLE，专门评估长文本理解生成

在长文本理解能力这块，竟然没有一个大模型及格！北大联合北京通用人工智能研究院提出了一个新基准数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。该数据集既能够评估 LL … Continue reading 无一大模型及格！北大 / 通研院提出超难基准 LooGLE，专门评估长文本理解生成