前些天,GPT-4o的多模态生图上线之后,引发全球AI社区广泛的关注,吉卜力图画全网风靡。 GPT-4o 采用联合文本、图像、语音和视频进行训练,在一个大模型中同时支持了文本、图像、语音等多个模态,而且其高度可控,在特征保持,上下文理解等重要功能使图像生成进入到了一个新的高度。 在更具挑战性的3D AIGC领域,DreamTech近期推出Neural4D 2...
继 BrowserUse 和 ComputerUse 席卷 AI 自动化领域后,手机操作类项目终于迎来重磅选手:DroidRun! 开源 AI 手机操作神器,解锁 Android 自动化新时代! 目前 AI 驱动的自动化工具正从 PC 和浏览器走向移动端,DroidRun 是这一浪潮的最新成果。 这款工具让 AI Agent 能像人类一样操作 Androi...
支持各种类型的图像,一键移除背景,处理速度很快而且效果颇为不错,非常适合电商、广告等应用场景。目前,模型已开源,但不能商用。 参考文献: [1] 在线使用:https://huggingface.co/spaces/briaai/BRIA-RMBG-2.0 [2] 模型下载:https://huggingface.co/briaai/RMBG-2.0 ...
langchain的MCP:mcpdoc,通过解析llms.txt文件提取相关信息,解决信息过载/不完整/不准确的问题,帮AI助手理解复杂的框架文档。同时提供了一个更透明可控的访问机制,使开发者可以更好的控制和管理IDE/应用访问使用llms.txt文件信息。 1、支持自定义文档列表,可以指定想要的 llms.txt 文件,不是依赖默认文件 2、支持审计工具...
LLM360 推出了 MegaMath:全球目前最大的开源数学推理预训练数据集,共计 3710 亿(371B)tokens,覆盖网页、代码和高质量合成数据三大领域。 参考文献: [1] 报告标题:MegaMath: Pushing the Limits of Open Math Corpora [2] 技术报告:https://arxiv.org/abs...
可以让Web智能体(比如网页机器人)通过发现和磨练技能来自我改进的一个框架:SkillWeaver。这是一个以技能为中心的框架,它使智能体能通过自主合成可重用的API技能来自我提升。比如,给定一个新网站,它会自动发现技能,执行它们进行练习,并将练习经验转化为API,通过迭代探索,不断扩展API库,来增强智能体的能力。就是当AI助手成功完成一个任务后,它会总结...
这个视频播放器可以同时显示两个字幕,并且字幕来源自AI生成,能AI实时翻译,而且还有整理好的字幕侧边栏(甚至还贴心的增加了防剧透功能),最后为了明晃晃的”学外语”,还提供了单词翻译和搜索功能。 参考文献: [1] https://github.com/umlx5h/LLPlayer [2] https://llplayer.com/ (文:NLP工...
Building an OS:从零开始打造属于自己的操作系统。亮点: 从“Hello world”到实现文件系统,逐步深入; 涵盖C语言和汇编语言的实战应用; 28个视频教程,系统性学习操作系统的开发流程。 参考文献: [1] https://www.youtube.com/playlist?list=PLFjM7v6KGMpiH2G-kT781By...
VERT,一个开源文件格式转化工具。转化文档、图片、音视频。 参考文献: [1] https://github.com/VERT-sh/VERT [2] https://vert.sh/ (文:NLP工程化) VERT,一个开源文件格式转化工具。转化文档、图片、音视频最先出现在每时AI。
最近,由 Anthropic 推出的 Computer Use 利用基于多模态大模型的智能体操控电脑完成各种任务,让人们为之兴奋,也带动了学术界与工业界在 OS Agents 相关领域的研究与发展。 浙江大学联合 OPPO、零一万物等十个机构共同梳理了 OS Agents 的发展现状以及未来可能,并形成了一篇综述,旨在推动该领域的持续发展。如下是我们对论文...