金磊 发自 凹非寺 量子位 | 公众号 QbitAI 咱就是说啊,视觉基础模型这块儿,国产AI真就是上了个大分—— Glint-MVT,来自格灵深瞳的最新成果。 先来看下成绩——线性探测(LinearProbing): 简单来说,线性探测是一种测试预训练模型效果的小技巧,测的就是基本功扎不扎实。它的做法是: 把模型最后一部分换成简单的线性层,其他部分全部保...
允中 发自 凹非寺 量子位 | 公众号 QbitAI 2025年6月6-7日 中国,北京 这个初夏 四位图灵奖得主 与全球创新力量共赴智源大会 即刻报名,探寻AI时代的无尽边域 2006年,多伦多大学Geoffrey Hinton教授等人提出逐层预训练方法,突破了深层神经网络训练的技术瓶颈,为深度学习的复兴奠定了基础。 强化学习作为智能体与环境交互的学习范...
MMLongBench团队 投稿 量子位 | 公众号 QbitAI 多模态长文本理解有综合性的评判标准了! 来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联合提出了MMLongBench,旨在全面评估多模态模型的长文本理解能力。 随着多模态大模型的单次推理的文本窗口快速提升,长上下文视觉-语言模型(Long-Con...
灵宝CASBOT团队 投稿 量子位 | 公众号 QbitAI 在人与机器人愈发紧密协作的时代,如何让机器人“读懂”人类的意图、与人类默契配合,成为智能技术发展的关键一步。 近日,由中国科学院自动化研究所与灵宝CASBOT共同提出的关于“增强物理人机协作中的人类意图估计和人机角色分配”方法(DTRT: Enhancing Human Intent Estima...
Salesforce团队 投稿 量子位 | 公众号 QbitAI 推理大模型如何提升效率?Salesforce AI Research开源神器两连发—— Elastic Reasoning和Fractured Sampling。 Elastic Reasoning用“想多少、答多少”替代了“想到哪算哪”,让模型在预算范围内思考更合理,输出缩短30%,同时保持...
随着人工智能技术的飞速发展,文本转语音(TTS)技术在众多领域得到了广泛应用,从智能语音助手到有声读物,再到播客和视频配音等。 然而,现有的TTS模型往往存在一些局限性,例如依赖大量目标说话人的语音数据进行训练,或者缺乏高效的推理加速框架。 为了突破这些限制,MYZY AI团队推出了一款名为Muyan-TTS的开源文本转语音模型,专为播客场景设计,能够在无...
昨天刚预告完,今天它就华丽丽地来了! 是的,Claude 4。 并且是全面发布,不是预热、提前官宣(这里点名一位姓马的同志),直接在 claude.ai 和 API 后台双双上线。 重点是,免费用户也能用! 01|Claude 4 全面上线:旗舰 + 免费版一次放出! 和我昨天文章里预告的一致,Claude 4 系列共包括 2 个模型:Claude Op...
中国科学院人才交流开发中心简介 中国科学院人才交流开发中心,全民所有制事业法人单位。1992年,为贯彻落实中国科学院的人事制度改革,经中央机构编制委员会批准,成立了中国科学院人才交流开发中心(以下简称“中心”)。具备人社部许可证的人力资源中介服务机构,全国人才交流协会常务理事单位,中国科学院人力资源开发联合会常务副理事长单位,北京人力资源服务机构等级评定委...
在数字中国建设如火如荼的当下,“政务数字化转型”不再只是信息化办事的代名词,而是国家治理体系和治理能力现代化的重要支撑。政务系统的每一次技术进化,背后都是一次公共服务理念的升级,一次国家治理能力的跃迁。 今天,我们就以“电子政务—互联网+政务—AI+政务”这三大阶段为主线,系统梳理中国政务数字化转型的演进路径,揭示这场技术与制度深度融合的历史进程中,背后的...
今天是2025年5月23日,星期五,北京,阴。 先来看看文档智能相关进展,在及技术路线上,也有一些新的玩法。比如,Dolphin检测+解析双阶段多模态文档解析思路,效果实测并不理想,尤其是带图片的文档,公式解析和复杂表格解析一般、OCR幻觉比较严重。工作是方案上的借鉴意义,并没有从性能上更改当前试图通过小尺寸模型实现真正可用的ocr-free局面,还有很长的...