大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

让大模型直接操纵格斗游戏《街霸》里的角色,捉对 PK,谁更能打? GitHub 上一种你没有见过的船新 Benchmark 火了。 与 llmsys 大模型竞技场中,两个大模型分别输出答案,再由人类评 … Continue reading 大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

感谢网友 你好啊_兔子 的线索投递! 5 月 9 日消息,今日,中文通用大模型综合性评测基准 SuperCLUE 正式发布。该基准测试主要关注以下问题:中文大模型在不同任务上的表现如何?与国际代表性模 … Continue reading 中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一

无解了!微软将推出基于GPT-4的Office 365服务 实用性拉满

GPT-4更强大了,微软也是正在利用它干更多的事情,让人工智能更智能,这才是科技巨头们应该干的事吧。 根据OpenAI的说法,GPT-4在一些考虑中已经超越了90%的人类,最近大家看看它可以干什么的内 … Continue reading 无解了!微软将推出基于GPT-4的Office 365服务 实用性拉满