安爸-超级家庭
bg

AI进家庭

预训练还没终结!港中文清华等提出「三位一体」框架,持续自我进化

新智元报道 编辑:LRST 【新智元导读】港中文、清华等高校提出SICOG框架,通过预训练、推理优化和后训练协同,引入自生成数据闭环和结构化感知推理机制,实现模型自我进化,为大模型发展提供新思路。 当前(多模态)大模型正深陷「数据饥渴」困境:其性能高度依赖预训练阶段大量高质量(图文对齐)数据的支撑。 然而,现实世界中这类高价值数据资源正在迅速耗尽,...

阅读:9 评论:0

上手实测:阿里云百炼上线「全周期 MCP 服务」,AI工具一站式托管

长话短说: 今天,阿里云百炼正式上线了 MCP(Model Context Protocol)服务的完整平台能力,覆盖从服务注册、云托管,到 Agent 调用、流程组合的全生命周期。 https://bailian.console.aliyun.com/ 很不错!这事儿算是一个转变: 工具调用,不再是模型厂的「私有功能」,而是被抽象为一种通用能力,并具备...

阅读:9 评论:0

SignalFire 募资10亿美元,创始人 Chris Farmer 详解:如何用 AI 重塑风投行业格局?

十三年前,当 Chris Farmer 向风投圈抛出“用数据和 AI 重新定义投资”的想法时,大多数人只是将其视为异想天开。但如今,SignalFire 的逆势崛起不仅验证了这个愿景,也为整个行业树立了一个新的参照系。根据硅谷科技评论(SVTR)AI 创投库的数据,SignalFire 是少数真正将 AI 融入全链条投资流程的机构之一,从项目发现到投后支持...

阅读:11 评论:0

静态油画秒变动态视频!西安交大等提出「无需训练」的绘画动态化新范式

随着人工智能技术的飞速发展,图像到视频(I2V)生成已成为艺术与科技融合的前沿领域。然而,现有方法在将静态绘画转化为动态视频时,仍面临两大核心挑战: (1)不动:现有模型无法准确解读和执行文本提示中的运动指令,导致生成的视频缺乏动态效果或完全静止; (2)乱动:模型在尝试赋予静态绘画动态效果的过程中,可能会出现与原作品风格不符或破坏其完整性的现象。 针对上...

阅读:10 评论:0

剧本输入=成片输出!MoCha开启自动化多轮对话电影生成新时代

本文由加拿大滑铁卢大学魏聪、陈文虎教授团队与 Meta GenAI 共同完成。第一作者魏聪为加拿大滑铁卢大学计算机科学系二年级博士生,导师为陈文虎教授,陈文虎教授为通讯作者。 近年来,视频生成技术在动作真实性方面取得了显著进展,但在角色驱动的叙事生成这一关键任务上仍存在不足,限制了其在自动化影视制作与动画创作中的应用潜力。 现有方法多聚焦于 Talking...

阅读:8 评论:0

勇克FPGA难题!UCLA丛京生教授斩获2024年ACM计算突破奖

新智元报道 编辑:英智 定慧 【新智元导读】2024年ACM计算突破奖颁给了UCLA华人教授丛京生,以表彰他在FPGA芯片设计自动化和可定制计算领域的重大贡献。他突破了FPGA编程的瓶颈,开发出让普通工程师实现芯片设计的关键工具。 刚刚,丛京生(Jason Cong)院士荣获2024年ACM Charles P.「Chuck」Thacker计算突破...

阅读:7 评论:0

字节开源新生图模型:一个模型统一所有生图任务,多主体融合效果SOTA​

克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 利用字节团队魔改的FLUX模型,可以直接把多个参考主体放进一张图了。 字节团队以FLUX为基础模型,提出了新的生图模型UNO,统一了图像生成任务中不同输入条件的处理。 无论是单主体进行风格变换,还是不同物体的融合,UNO都能直接搞定。 字节团队认为,UNO主要解决的是参考驱动的图像生成中的两个主要挑...

阅读:10 评论:0

实测超火的 AI 浏览器 Dia,我看到了浏览器未来的 iPhone 时刻 附邀请码

30 年过去了,浏览器最大的变化可能是图标。 「互联网之父」蒂姆·伯纳斯-李 1990 年设计的基本交互模式——通过超链接(Hyperlink)实现网页之间的跳转,以及后面输入网址、等待加载、回到上一页等逻辑,在今天岿然不动。 都 2025 年了,我们还在用同样的姿势,对着屏幕傻傻地等待页面加载。 过去十年,我们见证过许多号称「要颠覆浏览器市场」的浏览器,A...

阅读:9 评论:0

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

一水 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,Kimi团队上新了! 开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking,多模态和推理双双拿捏。 按照Kimi官方的说法,其关键亮点如下: 都是基于MoE架构,总参数为16B,但推理时仅激活2.8B; 具备强大的多模态推理能力_(媲美参数大10倍的模型)_和Agent...

阅读:9 评论:0

社区供稿 | jina-reranker-m0 全新多模态多语言重排器

今天,我们正式发布jina-reranker-m0。这是一款多模态、多语言重排器 (reranker),其核心能力在于 对包 含丰富视觉元素的文档进行重排和精排,同时兼容跨语言场景。 当用户输入一个查询 (query) 以及一堆包含文本、图表、表格、信息图或复杂布局的文档时,模型会根据文档与查询的相关性,输出一个排序好的文档列表。模型支持超过 29 种语言...

阅读:8 评论:0