最近经常收到读者的留言 : 抱怨科研真是太难了,竞争压力大,导师不给指导、不开组会,一年见不到导师几次,对于论文初稿、毕业毫无建议! 其实他不是个例,大家也会有这样的烦恼: 前沿顶会、期刊论文、综述文献浩如烟海,不知道学习路径,无从下手? 没时间读、不敢读、不愿读、读得少、读不懂、读不下去、读不透彻一篇完整的论文? CVPR、ICCV、ECCV...
随着大语言模型(LLMs)在各类推理应用上效果的持续提升,特别是数学基准测试(benchmark)上频繁刷榜,关于它们“是否真正理解数学”的讨论也日益增多。 针对这一问题,中国科学技术大学认知智能全国重点实验室的研究团队近日提出了一项全新研究成果——CogMath:一个从人类认知视角出发,系统分析大模型数学能力的评估框架。 CogMath 基于人类认知理论...
苹果在Hugging Face发布了一个开源大模型:DiffuCoder-7B-cpGRPO。 这个模型是用来写代码的,但和其他的大模型不同之处在于,它不是传统LLM的自回归模式,而是用了diffusion模式。 一般来说,AI绘画才会使用Diffusion,比如著名的stable diffusion,LLM非常罕见。 我曾经尝试过一个Diffusion模式...
“ 网络协议的本质是一种有固定格式的规则约束。” 最近在研究MCP协议,由于之前深入了解过网络协议这一块,比如说TCP/IP,HTTP等,所以对MCP协议就比较好奇,于是就深入了解了一下。 刚开始了解MCP协议的时候就很奇怪一件事情,不管是TCP/IP协议,还是HTTP协议,都会有一个固定的报文格式;但在MCP的官方文档中并没有看到这个报文格式。只是简单...
从 0.927 的惊人相似度,到国产大模型信任困局的集体焦虑。 7月的国产大模型圈,不太平。 一份发布于 GitHub 的技术报告,将刚刚开源的华为 盘古 Pro MoE 72B 模型推上了风口浪尖。而这场风波的导火索,是一个看似冰冷、实则爆炸的数字:0.927。 这是一份名为《LLM-Fingerprint》的研究报告得出的“模型相似度”。报告指出,华...
在这个被文档淹没的数字化时代,PDF、扫描件、图文混排图片……几乎每天都在挑战我们的信息处理能力。 如何高效地提取信息、结构化利用,并与AI平台打通,实现自动问答与知识管理闭环?这是每一个内容生产者、开发者、甚至企业团队都无法回避的难题。 作为一名长期关注全球开源项目和AI实用工具的技术人,最近我亲自实测了一款国产黑科技产品:Doc2X。 Doc2X 是一...
今天是2025年7月8日,星期二,北京,晴 昨天看了看文档版式分析的事情,解决的是业务标签的问题。 今天来看文档方面的数据侧,看看数据合成,尤其是7个可用的OCR合成数据工具以及文档版式及表格数据合成工具,这些都会在实际的工作中用到,很实用。 一、7个可用的OCR合成数据工具 1、text_renderer 生成用于训练深度学习 OCR 模型(例如CRNN)...
传统通讯依赖互联网和服务器,存在隐私泄露和审查风险。 今天为大家推荐一款刚刚开源就爆火的通信工具,它彻底打破了传统通讯依赖互联网的方式,完全依赖蓝牙,通过附近设备组建自组织“蓝牙中继网”,实现点对点端到端加密聊天。 它就是:BitChat,一款基于Swift开发的去中心化聊天应用,运行于蓝牙网状网络,目前支持iOS/macOS系统。 采用X25519+AE...
DeepSeek-TNG-R1T2-Chimera 是由 TNG Technology 使用三种 DeepSeek 父模型组装出的“专家混合体”语言模型,在智能、响应速度和一致性上实现平衡,相比前代提升显著并修复了关键的 token 问题。 三亲模型融合:不同于前代只融合两个父模型,R1T2 通过“Assembly of Experts”方法,将 R1-0...
详细讲解了量化、LoRA 适配器、数据格式化等核心技术,且专注于在单个 GPU 上高效微调大语言模型的实践方法。主要内容: 完整的 LLM 微调流程:从模型加载到部署的全过程 量化技术详解:8-bit 和 4-bit 量化的原理与实践 LoRA 低秩适配器:高效微调大模型的核心技术 数据格式化指南:聊天模板、分词器配置等关键步骤 GPU 优化策略:在消费级...