简介 MonkeyOCR采用结构-识别-关系(SRR)三元组范式,既简化了模块化方法的多工具流程,又避免了使用大型多模态模型处理整页文档的低效问题。 与基于流程的MinerU方法相比,我们在九种中英文文档上的平均性能提升了5.1%,其中公式识别提升15.0%,表格识别提升8.6%。 与端到端模型相比,我们的30亿参数模型在英文文档上的平均表现最佳,超越了G...
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注! 法国著名开源大模型平台Mistral AI发布了,一站式编程助手Mistral Code。 旨在解决企业开发人员在使用AI编码工具时遇到的合规性和安全障碍。这些障碍常常使得其他编码助手...
机器之心报道 机器之心编辑部 最近,Meta 大动作不断。 前些天有外媒曝出马克・扎克伯格正在组建一个名为「超级智能团队」的专家团队,以实现通用人工智能。随后开出 9 位数的薪酬为该团队吸纳人才。 就在刚刚,Meta 又有新的动作,推出基于视频训练的世界模型 V-JEPA 2(全称 Video Joint Embedding Predictive Archi...
让AI真正理解世界,Meta又迈出了关键一步。 编译 | 云鹏 编辑 | 漠影 智东西6月12日消息,刚刚,Meta发布了最新的开源世界模型V-JEPA 2,称其在物理世界中实现了最先进的视觉理解和预测,从而提高了AI agents的物理推理能力。 Meta副总裁、首席AI科学家杨立昆(Yann LeCun)亲自发布了该模型,他在官方视频中提到...
白交 发自 凹非寺 量子位 | 公众号 QbitAI 小扎亲手挖人,很疯狂。 最新爆料,谷歌DeepMind首席研究员Jack Rae已经确认转投。 另有消息称,Meta还招募了AI语音初创公司Sesame AI的ML主管 Johan Schalkwyk。 前一天刚被爆出,他想斥巨资150亿美元收购Scale AI,后者做数据标注已经做到了百亿美元估值。据...
NFD团队 投稿 量子位 | 公众号 QbitAI 在A100上用310M模型,实现每秒超30帧自回归视频生成,同时画面还保持高质量! 视频生成现在都快这个程度了? 最近,来自微软研究院的团队与北大联合发布新框架——Next-Frame Diffusion (NFD)。 通过实现帧内并行采样,帧间自回归的方式,NFD让视频生成在保持较高生成质量的同时,生成...
AutoSchemaKG团队 投稿 量子位 | 公众号 QbitAI 知识图谱(KGs)已经可以很好地将海量的复杂信息整理成结构化的、机器可读的知识,但目前的构建方法仍需要由领域专家预先创建模式,这限制了KGs的可扩展性、适应性和领域覆盖范围。 为此,香港科技大学KnowComp实验室联合香港华为理论部提出了AutoSchemaKG:一个无需预定义模式、用于...
作者_|王兆洋 邮箱|_wangzhaoyang@pingwest.com 01 火山引擎的名字里没有云。 这件事在以前是个需要解释的事情。2020年底,字节内部的关键决策会议上,正式决定让火山引擎对外提供服务、进入真实的市场,而在这个最初的会议上,字节希望这个技术平台不只是“又一个云计算厂商”。于是干脆从名字就不带云。 在火山引擎进入这个市场的时刻,云计...
前几天,全国 1335 万考生走出了高考考场,但真正的「战场」才刚刚开始。 当这千万的家庭一同涌入志愿填报这座「信息迷宫」,你会发现,这里的硝烟味,丝毫不亚于考场。 3000 多所大学,1600 多个专业,听着就让人头大。更别提年年「上新」的招生政策,什么「专业组平行志愿」、「院校投档线差」,复杂得堪比高数题。 信息差,在这里就是赤裸裸的成本。一步选错,可...
作者_|summer 邮箱|_huangxiaoyi@pingwest.com “做电商,要小心厂二代!” 这句玩笑话,却真实地道出了“厂二代”这个群体在电商行业的杀伤力——他们拥有着作为最源头的成本优势,更懂消费趋势和互联网,能捕捉风向快速反馈到生产端,把效率拉到极致,是如今电商环境下当之无愧的黑马。 张宇(化名),就是一个典型的厂二代。 2019年,2...