Marktechpost发布“AI2025Dev”:为AI模型、基准和生态系统信号设计的结构化智能层
马克特普斯特发布其2025年分析平台 AI2025Dev,旨在将本年度的人工智能活动转换为可查询的数据集,涵盖模型发布、开放性、培训规模、基准性能和生态系统参与者等信息。马克特普斯特是一家位于加州的AI新闻平台,关注机器学习、深度学习和数据科学研究。
本发布的新内容
AI2025Dev 的2025年发布在两个层面进行了扩展:
- 发布分析,重点关注的模型和框架发布、许可立场、供应商活动以及特征级别分段。
- 生态系统指数,包括精选的“前100名”集合,将这些模型与相关论文、人员以及背后的资本联系起来。本发布包括以下专门的板块:
- 前100篇重要研究论文
- 前100名AI研究人员
- 前100家AI初创公司
- 前100名AI创始人
- 前100名AI投资者
- 投资视角,将投资者和公司联系起来
这些指数旨在成为可导航和可筛选的,而不是静态的编辑列表,因此团队能够在诸如公司、模型类型、基准得分和发布时间等艺术品之间追踪关系。
2025年AI发布:根据市场地图数据集收集的年度指标
AI2025Dev 的“2025年AI发布”概述由一个结构化的市场地图数据集支撑,该数据集涵盖了 100个跟踪发布 和 39家活跃公司。该数据集将每个条目标准化为一个一致的架构:名称、公司、类型、许可、标杆和发布日期。
本发布的关键聚合指标包括:
- 总计发布:100
- 开放份额:69%,计算为开源(44条)和开放权重(25条)发布的总和,另有31条专有发布
- 标杆模型:63,使前端级启动与衍生或窄范围发布区分开来
- 活跃公司:39,反映了在相对固定的供应商中进行的主要发布集中
市场地图中模型类别涵盖的范围明确标出,便于进行分面查询和比较分析。分布包括LLM(58)、代理模型(11)、视觉模型(8)、工具(7)、多模态(6)、框架(4)、代码模型(2)、音频模型(2),以及嵌入模型(1)和代理(1)。
2025年关键发现:作为可测量的数据集片段捕捉的分类层转变
发布包中包含了一个【2025年关键发现】层,该层将年度级别的转变作为数据集的可测量片断,而不是评论。平台强调了三个重复出现的技术主题:
- 开放权重采用,捕捉到在开源或开放权重条款下有权重可用的发布份额的上升,以及下游影响,即更多的团队可以 benchmarks,微调并部署,而不受供应商锁定推理的影响。
- 代理和工具使用系统,跟踪围绕工具使用、编排和任务执行的模型和系统的增长,而不仅仅是纯聊天互动。
- 效率和压缩,反映了2025年的一个模式,即在模型优化技术(如蒸馏)日益针对更小的足迹,同时保持竞争性的基准行为。
2025年LLM训练数据规模:与时间线对齐的令牌规模
一个专门的视觉追踪2025年LLM训练数据规模,跨越从1.4T到36T个令牌,并将令牌预算与发布时间表对齐。通过在单视图中编码令牌规模和日期,平台使得比较供应商如何随时间分配训练预算以及极端规模如何与观察到的基准结果相关联成为可能。
性能基准:基准规范化评分和检查
分析部分 包括一个性能基准视图和一个由标准评估轴(包括MMLU、HumanEval和GSM8K)衍生出的智能指数。目标是不要替代特定任务的评估,而要提供一个一致的基准,以便在公共报告格式和完整性不同时比较供应商发布。
该平台公开:
- 排名性能摘要,以便快速浏览
- 针对每个基准的列,以检测权衡(例如,编写优化模型,使其偏离以推理为中心的性能)
- 导出控制,以支持后续分析工作流程
模型排行榜和模型比较:操作评估工作流程
为了减少模型选择中的摩擦,AI2025Dev 包括:
- 一个模型排行榜,用于汇总更广泛2025年模型集合的分数和元数据
- 一个模型比较视图,允许跨基准和属性进行并排评估,带有搜索和筛选功能,可以按供应商、类型和开放性构建快捷名单
这些工作流程旨在为工程团队能够在做出整合、推理支出或微调管道的承诺之前,在结构化的比较表面上进行操作评估。
前100名指数:论文、研究人员、初创公司和投资者
除了模型跟踪之外,发布扩展 到生态系统映射。该平台增加了可导航的“前100名”模块:
- 研究论文,为塑造2025年系统的核心技术工作提供一个切入点
- AI研究人员,作为一个无排名的、证据支持指数,包含会议锚定的背景
- AI初创公司和创始人,使产品方向与发布系统联系起来
- AI投资者和资金,使分析围绕模型和工具类别周围的资金流动成为可能
可用性
更新的平台现在在 AI2025Dev 上提供,访问该平台不需要任何注册或登录。发布旨在支持快速扫描和分析师级工作流程,具有规范的架构、类型化类别和可导出的视图,旨在用于定量比较而不是叙事浏览。
MarkTechPost发布‘AI2025Dev’:AI模型、基准和生态系统信号的结构化智能层 一文首先发表于MarkTechPost。
