2 月 23 日消息,Hugging Face 近日开源了一款名为“Cosmopedia”的 AI 训练数据集,号称是目前世界上最大的合成数据集。 注意到,该数据集内容均由 Mix … Continue reading 收录 250 亿个 Token,Hugging Face 开源“世界最大”AI 训练合成数据集 Cosmopedia
标签: 数据集
蚂蚁集团开源首个医疗专科推理数据集,覆盖 97.6% 泌尿就医人群
12 月 28 日消息,蚂蚁集团今日宣布开源首个医疗专科推理数据集。该数据集由训练、验证、测试三部分组成,包含 2132 个问答对,每个问答对由医生根据临床经验编写的问题、专家提供的回答以及用于帮助推 … Continue reading 蚂蚁集团开源首个医疗专科推理数据集,覆盖 97.6% 泌尿就医人群
微软公开发布首个 SimuLand 数据集,以促进安全研究
8 月 7 日消息 一个月前,微软宣布了开源 SimuLand 计划,允许安全研究人员部署实验室环境、重现攻击模式和技术,然后测试 Microsoft 365 Defender、Azure … Continue reading 微软公开发布首个 SimuLand 数据集,以促进安全研究