鱼羊 一水 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,又一个中国血统智能体,让歪果仁大呼“疯狂”。 现在,制作一条这样的ins做饭视频,你猜需要几个步骤? 答案是,告诉Agent“帮我制作一条如何制作金桔开心果脆皮鳕鱼的视频”,然后就可以坐等结果了。 全程无需自己动手打开任何一个视频编辑软件,零帧起号不是梦(doge)。 这个智能体名叫Gens...
**关注我,记得标星不迷路哦~ 1: EasyControl_Ghibli EasyControl_Ghibli 模型是一款为用户提供免费且易于使用的工具,用于生成吉卜力风格图像的 AI 模型。它已在 Hugging Face 平台上线,用户无需任何会员费用或隐藏门槛,即可直接在网页上使用,无需下载或编程基础,真正实现了“0门槛创作”。 这个模型的主要...
项目简介 Dolphin 是由 Dataocean AI 和清华大学合作开发的多语言、多任务语音识别模型。它支持东亚、南亚、东南亚和中东的 40 种东方语言,同时支持 22 种汉语方言。该模型在超过 210,000 小时的数据上进行训练,包括 DataoceanAI 的专有数据集和开源数据集。该模型可以执行语音识别、语音活动检测(VAD)、分割和语言识别(L...
ChatGPT4o最火的功能,居然是吉卜力风格。 不过,该功能很快因为版权问题下线了。 对于开源AI绘画圈来说,吉卜力风格几乎是两年前玩剩下的。 这说明了门槛的重要性。 ChatGPT 4o这种几乎零门槛(当然了,国内还是需要梯子的)的工具,要远比有一定门槛的comfyUI更容易普及。 其实也给comfyUI提了个醒,是否可以做一个零门槛的封装包?同步常用...
在人工智能技术加速渗透各行各业的今天,AIGC开放社区正式推出系列直播课程《1小时AI公开课》,聚焦大模型、Agent、Prompt工程等前沿技术,旨在为企业管理者、技术团队及个人开发者提供系统化的AI转型指引。 首期课程将于4月11日晚8点开讲,聚焦“传统企业如何与AI结合”的核心议题。本次课程由AIGC开放社区专业讲师、AI与开源技术专家李扬担任主讲,通...
新智元报道 编辑:桃子 好困 【新智元导读】AI若能自主复现顶尖科研论文,未来科研将被掀翻天。OpenAI最新框架PaperBench正为此生,让AI智能体从头开始复现ICML 2024 20篇优秀论文,只有Claude 3.5 Sonnet拔得头筹,但仍无法超越ML博士水平。 AI智能体,能否复现顶会中重磅的AI研究? 今天,OpenAI团队发布...
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI承认Claude是最好的了(狗头)。 刚刚开源的新基准测试PaperBench,6款前沿大模型驱动智能体PK复现AI顶会论文,新版Claude-3.5-Sonnet显著超越o1/r1排名第一。 与去年10月OpenAI考验Agent机器学习代码工程能力MLE-Bnch相比,PaperBenc...
近年来,自动语音识别(ASR)技术已经进入了一个“百模大战”的时代,尤其是 Whisper 让许多人看到了高质量通用语音识别的可能性。 然而,Whisper 等主流模型在支持多语言的同时,也面临着一个痛点:它们的优化往往偏向英语或西方语言,对于东方语言,特别是复杂的汉语方言和少数民族语言,识别效果并不尽如人意。 最近,清华大学和海天瑞声联手开源的 Dolph...
今天凌晨1点,OpenAI开源了一个全新的AI Agent评测基准——PaperBench。 这个基准主要考核智能体的搜索、整合、执行等能力,需要对2024年国际机器学习大会上顶尖论文的复现,包括对论文内容的理解、代码编写以及实验执行等方面的能力。 根据OpenAI公布的测试数据显示,目前知名大模型打造的智能体,还无法战胜顶级机器学习专业博士。但在辅助学习、...
北京理工大学、上海人工智能实验室、清华大学和香港中文大学4大名校联合发布了Mini DALL·E 3,无需额外训练的情况下,可帮助多数主流大模型添加文成图多模态输出能力。 此外,Mini DALL·E 3可以支持图像生成、编辑、选择等多种深度交互方式,允许用户在对话中不断优化图像结果。同时对语言模型的固有能力影响很小,仍可保持问答、代码生成等能力。 Min...