安爸-超级家庭
bg

AI进家庭

10个小模型并联跑赢GPT-4.1!无额外训练,方法仅4步

Avengers团队 投稿 量子位 | 公众号 QbitAI 近年来,语言模型技术迅速发展,然而代表性成果如Gemini 2.5Pro和GPT-4.1,逐渐被谷歌、OpenAI等科技巨头所垄断。 与此同时,开源社区的小规模模型正面临日益严峻的挑战—— 他们参数规模通常仅在7B左右,难以在多任务、多领域场景中与大型闭源模型相抗衡,尚未形成真正意义上的通用人工智...

阅读:8 评论:0

全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

MME-VideoOCR团队 投稿 量子位 | 公众号 QbitAI 多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。 然而,当应用场景从静态图像拓展至动态视频时,即便是当前最先进的模型也面临着严峻的挑战。 MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。 主...

阅读:9 评论:0

每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程

金磊 发自 凹非寺 量子位 | 公众号 QbitAI 现在,请大家一起数一下“1”、“2”。 OK,短短2秒钟时间,一个准万亿MoE大模型就已经吃透如何解一道高等数学大题了! 而且啊,这个大模型还是不用GPU来训练,全流程都是大写的“国产”的那种。 这,就是华为通过“昇腾+Pangu Ultra MoE”这套组合拳解锁的效果—— 不仅实现了国产算力与国产模...

阅读:8 评论:0

AI生图迎来大升级:图像编辑达到像素级!背后团队大多来自Stable Diffusion模型基础技术发明团队

编译|冬梅、核子可乐 Stable Diffusion 模型缔造者们建立的初创公司 Black Forest Labs(黑暗森林实验室,简称 BFL)刚刚发布了发布一款名为 FLUX.1 Kontext 的全新图像生成模型。此模型不仅能够生成和编辑照片,还允许用户添加文本及其他图像以实现内容修改。 该公司在 X 上发文称:“今天我们正式发布 FLUX.1...

阅读:6 评论:0

AI生图大洗牌!流匹配架构颠覆传统,一个模型同时接受文本和图像输入

梦晨 发自 凹非寺 量子位 | 公众号 QbitAI AI生图新突破!一个模型同时接受文本和图像输入。 新模型FLUX.1 Kontext使用流匹配架构(Flow Matching),不再是文本编码器和扩散模型各干各的,与此前技术都不同。 最来自之前很火的Black Forest Labs,官方表示这一次能做到真正的上下文生成和编辑。 在编辑能力上,有人在...

阅读:11 评论:0

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题

RISEBench团队 投稿 量子位 | 公众号 QbitAI GPT-4o-Image也只能完成28.9%的任务,图像编辑评测新基准来了! 360个全部由人类专家仔细思考并校对的高质量测试案例,暴露多模态模型在结合推理能力进行图像编辑时的短板。 最近,上海人工智能实验室联手上海交大、同济大学、武汉大学、普林斯顿大学的研究人员,针对图像编辑AI提出了三个问...

阅读:7 评论:0

函数向量对齐技术,让大模型持续学习不“失忆”丨ICLR 2025

FVG团队 投稿 量子位 | 公众号 QbitAI LLMs为什么总是灾难性遗忘?原来是功能激活在搞怪。 最近来自中国科学技术大学、香港城市大学和浙江大学的联合研究团队,通过对多个语言模型、任务序列和评估指标的系统分析,终于破解了LLMs的灾难性遗忘之谜—— 遗忘行为具有高度的模型依赖性,而导致遗忘发生的本质却是功能激活的变化。 对此,团队基于函数向量构建...

阅读:8 评论:0

让AI学着“看菜下碟”!港中大等新框架让推理长度减少90%,准确率反增17%

TON团队 投稿 量子位 | 公众号 QbitAI 人类在面对简单提问时常常不假思索直接回答,只有遇到复杂难题才会认真推理。 如果AI模型也能像人一样决定“要不要思考”,效率是否会大大提升? 近日,香港中文大学联合新加坡国立大学Show Lab的研究者提出了一种名为TON(Think Or Not)的新颖选择性推理框架,让视觉语言模型(VLM)可以自主判断是...

阅读:7 评论:0

WeClone:开源爆款!用微信聊天记录一键生成”数字替身”,支持语音克隆+多平台部署

在人工智能技术飞速发展的今天,AI数字分身逐渐成为研究和应用的热点。WeClone作为一个开源项目,为用户提供了从聊天记录创造数字分身的完整解决方案,满足了个性化智能助手的需求,同时也为AI技术的探索者提供了宝贵的实践机会。 一、项目概述 WeClone是一个开源的AI数字分身一站式解决方案,致力于通过用户的聊天记录对大语言模型(LLM)进行微调,生成具...

阅读:9 评论:0

低调升级,实力暴涨!新版 DeepSeek R1,成了 o3 和 Gemini 2.5 的最强平替

话接上文:测完新版 DeepSeek R1,我发现它越来越像 ChatGPT 了。 昨天刚吐槽完 DeepSeek 没有更新日志,结果今天官方就正式发布了“思考更深,推理更强”的 DeepSeek R1 升级说明。 同样是开源,同样是节假日前夕(端午节),DeepSeek,总能给我们惊喜。 升级后的新模型有了正式的名字:DeepSeek-R1-0528。 ...

阅读:9 评论:0