大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

让大模型直接操纵格斗游戏《街霸》里的角色,捉对 PK,谁更能打? GitHub 上一种你没有见过的船新 Benchmark 火了。 与 llmsys 大模型竞技场中,两个大模型分别输出答案,再由人类评 … Continue reading 大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了