随着大语言模型(LLMs)在各类推理应用上效果的持续提升,特别是数学基准测试(benchmark)上频繁刷榜,关于它们“是否真正理解数学”的讨论也日益增多。 针对这一问题,中国科学技术大学认知智能全国重点实验室的研究团队近日提出了一项全新研究成果——CogMath:一个从人类认知视角出发,系统分析大模型数学能力的评估框架。 CogMath 基于人类认知理论...
苹果在Hugging Face发布了一个开源大模型:DiffuCoder-7B-cpGRPO。 这个模型是用来写代码的,但和其他的大模型不同之处在于,它不是传统LLM的自回归模式,而是用了diffusion模式。 一般来说,AI绘画才会使用Diffusion,比如著名的stable diffusion,LLM非常罕见。 我曾经尝试过一个Diffusion模式...
“ 网络协议的本质是一种有固定格式的规则约束。” 最近在研究MCP协议,由于之前深入了解过网络协议这一块,比如说TCP/IP,HTTP等,所以对MCP协议就比较好奇,于是就深入了解了一下。 刚开始了解MCP协议的时候就很奇怪一件事情,不管是TCP/IP协议,还是HTTP协议,都会有一个固定的报文格式;但在MCP的官方文档中并没有看到这个报文格式。只是简单...
从 0.927 的惊人相似度,到国产大模型信任困局的集体焦虑。 7月的国产大模型圈,不太平。 一份发布于 GitHub 的技术报告,将刚刚开源的华为 盘古 Pro MoE 72B 模型推上了风口浪尖。而这场风波的导火索,是一个看似冰冷、实则爆炸的数字:0.927。 这是一份名为《LLM-Fingerprint》的研究报告得出的“模型相似度”。报告指出,华...
在这个被文档淹没的数字化时代,PDF、扫描件、图文混排图片……几乎每天都在挑战我们的信息处理能力。 如何高效地提取信息、结构化利用,并与AI平台打通,实现自动问答与知识管理闭环?这是每一个内容生产者、开发者、甚至企业团队都无法回避的难题。 作为一名长期关注全球开源项目和AI实用工具的技术人,最近我亲自实测了一款国产黑科技产品:Doc2X。 Doc2X 是一...
今天是2025年7月8日,星期二,北京,晴 昨天看了看文档版式分析的事情,解决的是业务标签的问题。 今天来看文档方面的数据侧,看看数据合成,尤其是7个可用的OCR合成数据工具以及文档版式及表格数据合成工具,这些都会在实际的工作中用到,很实用。 一、7个可用的OCR合成数据工具 1、text_renderer 生成用于训练深度学习 OCR 模型(例如CRNN)...
作者_|董道力 邮箱|_dongdaoli@pingwest.com LiblibAI 近日推出了“星流Agent”,一款一站式创意设计智能体,已同步上线移动端和网页端。 简而言之,用户只需用语言描述需求,星流Agent 就能进行分析,生成所需的图片、视频或设计方案。若对生成的图片、视频或方案不满意,同样只需提出修改要求,它便会进行调整。 在官方宣传中,星...
明敏 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 大模型数学能力骤降,“罪魁祸首”是猫猫? 只需在问题后加一句:有趣的事实是,猫一生绝大多数时间都在睡觉。 大模型本来能做对的数学题,答错概率立刻翻3倍。 而且这一波就是冲着推理模型来的,包括DeepSeek-R1、OpenAI o1通通中招。 即便没有生成错误回答,也会让答案变得更长,效率降低...
欢迎阅览由李榜主发起的:AI产品榜。 第 11 期 AI产品榜·应用榜(APP)(2025 年 06 月)由 AI产品榜、36kr、硅星人、沃垠AI、小熊跑的快 联名发布。 1 AI产品榜 2025 年 06 月榜 本文里包含 9 个 AI 榜单,更多 AI产品榜单直接访问官网 AI产品榜 aicpb.com。 \ AI产品榜·应用榜(APP) ...
视点 发自 凹非寺 量子位|公众号 QbitAI Agent 产品正发布得火热,但要说到真正懂企业、懂决策的 Agent 还不算常有。 其背后,还有大量企业积累的业务数据,在等待被高效利用起来。数据 Agent 会成为一个好解法吗? 为此,我们邀请到了 Agent 公司的代表数势科技联合创始人谭李,以及数据库公司的代表飞轮科技科技联合创始人肖康,聊了聊什么...