安爸-超级家庭
bg
avatar

安爸

静态油画秒变动态视频!西安交大等提出「无需训练」的绘画动态化新范式

随着人工智能技术的飞速发展,图像到视频(I2V)生成已成为艺术与科技融合的前沿领域。然而,现有方法在将静态绘画转化为动态视频时,仍面临两大核心挑战: (1)不动:现有模型无法准确解读和执行文本提示中的运动指令,导致生成的视频缺乏动态效果或完全静止; (2)乱动:模型在尝试赋予静态绘画动态效果的过程中,可能会出现与原作品风格不符或破坏其完整性的现象。 针对上...

阅读:13 评论:0

剧本输入=成片输出!MoCha开启自动化多轮对话电影生成新时代

本文由加拿大滑铁卢大学魏聪、陈文虎教授团队与 Meta GenAI 共同完成。第一作者魏聪为加拿大滑铁卢大学计算机科学系二年级博士生,导师为陈文虎教授,陈文虎教授为通讯作者。 近年来,视频生成技术在动作真实性方面取得了显著进展,但在角色驱动的叙事生成这一关键任务上仍存在不足,限制了其在自动化影视制作与动画创作中的应用潜力。 现有方法多聚焦于 Talking...

阅读:10 评论:0

勇克FPGA难题!UCLA丛京生教授斩获2024年ACM计算突破奖

新智元报道 编辑:英智 定慧 【新智元导读】2024年ACM计算突破奖颁给了UCLA华人教授丛京生,以表彰他在FPGA芯片设计自动化和可定制计算领域的重大贡献。他突破了FPGA编程的瓶颈,开发出让普通工程师实现芯片设计的关键工具。 刚刚,丛京生(Jason Cong)院士荣获2024年ACM Charles P.「Chuck」Thacker计算突破...

阅读:9 评论:0

字节开源新生图模型:一个模型统一所有生图任务,多主体融合效果SOTA​

克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 利用字节团队魔改的FLUX模型,可以直接把多个参考主体放进一张图了。 字节团队以FLUX为基础模型,提出了新的生图模型UNO,统一了图像生成任务中不同输入条件的处理。 无论是单主体进行风格变换,还是不同物体的融合,UNO都能直接搞定。 字节团队认为,UNO主要解决的是参考驱动的图像生成中的两个主要挑...

阅读:12 评论:0

实测超火的 AI 浏览器 Dia,我看到了浏览器未来的 iPhone 时刻 附邀请码

30 年过去了,浏览器最大的变化可能是图标。 「互联网之父」蒂姆·伯纳斯-李 1990 年设计的基本交互模式——通过超链接(Hyperlink)实现网页之间的跳转,以及后面输入网址、等待加载、回到上一页等逻辑,在今天岿然不动。 都 2025 年了,我们还在用同样的姿势,对着屏幕傻傻地等待页面加载。 过去十年,我们见证过许多号称「要颠覆浏览器市场」的浏览器,A...

阅读:12 评论:0

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

一水 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,Kimi团队上新了! 开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking,多模态和推理双双拿捏。 按照Kimi官方的说法,其关键亮点如下: 都是基于MoE架构,总参数为16B,但推理时仅激活2.8B; 具备强大的多模态推理能力_(媲美参数大10倍的模型)_和Agent...

阅读:12 评论:0

社区供稿 | jina-reranker-m0 全新多模态多语言重排器

今天,我们正式发布jina-reranker-m0。这是一款多模态、多语言重排器 (reranker),其核心能力在于 对包 含丰富视觉元素的文档进行重排和精排,同时兼容跨语言场景。 当用户输入一个查询 (query) 以及一堆包含文本、图表、表格、信息图或复杂布局的文档时,模型会根据文档与查询的相关性,输出一个排序好的文档列表。模型支持超过 29 种语言...

阅读:11 评论:0

4月10日周四 | Python热门项目

欢迎关注我,持续获取更多内容,感谢赞&在看\~ Python项目排行 | 6个 1. microsoft / markitdown 项目语言: Python Star总数: 47,017 Fork总数: 2,215 Star新增: 1,558 stars today 项目地址: https://github.com/microsoft/markit...

阅读:15 评论:0

2025AI开发新范式:Cherry Studio × MCP如何实现”思考即执行”?【附保姆教程】

在人工智能飞速发展的今天,AI 模型的应用场景不断拓展,但同时也面临着诸多挑战,例如如何让 AI 模型更好地与外部资源进行交互和协作。MCP(Model Context Protocol,模型上下文协议)作为一种新兴的接口协议,为解决这一问题提供了新的思路。而 Cherry Studio 作为一款功能强大的 AI 桌面客户端,其与 MCP 的融合更是为 A...

阅读:12 评论:0

48.4K+ Star!RAGFlow:一个基于深度文档理解的开源RAG引擎

欢迎关注我,持续获取更多内容,感谢赞&在看\~ RAGFlow 简介 RAGFlow[1] 是一个基于深度文档理解的开源 RAG(Retrieval-Augmented Generation,检索增强生成)引擎。 RAGFlow 结合了大型语言模型(LLM),为企业提供真实可靠的问题回答能力,并通过各种复杂格式的数据提供有根据的引用。RAGFlow ...

阅读:10 评论:0