安爸-超级家庭
bg
avatar

安爸

刚刚,OpenAI 最强推理模型 o3 发布!首次能用图片思考,奥特曼:天才水平 附实测细节

「o3 达到或接近天才的水平。」 就在刚刚,OpenAI o3/o4 mini 模型终于正式推出。直播用时接近 30 分钟,节奏快到飞起,信息量却满满当当。 o3 的发布历程本身也极具反转,今年 2 月,OpenAI 曾宣布搁置 o3 的独立发布计划,技术会打包塞进 GPT-5 里。到了 4 月初,深谙「饥饿营销」 的 Altman 却宣称计划有变: o3...

阅读:9 评论:0

多模态AI模型再添猛将!Liquid:字节最新开源的多模态LLM,视觉与语言统一生成!

在多模态大模型(MLLM)竞速赛中,很多模型要么偏理解(看图说话),要么偏生成(画图作诗),更别提两者统一的效率与表现了。 最近,一款由字节跳动、华中科技大学和香港大学等机构联合开源的强大模型:Liquid,以其无缝集成的视觉理解与生成能力惊艳亮相。 它不仅能读懂图片和文字,还能生成图像与文本,且无需外部视觉模型。 Liquid 是一个 7B 参数的多模态...

阅读:8 评论:0

line-bot-mcp-server:将AI Agent与LINE官方账号无缝连接的MCP服务器

line-bot-mcp-server:将AI Agent与LINE官方账号无缝连接的MCP服务器。亮点: 通过LINE Messaging API实现高效消息推送; 支持文本和高度自定义的Flex消息; 提供用户详细资料获取功能。 参考文献: [1] http://github.com/line/line-bot-mcp-server (文:...

阅读:10 评论:0

browser-use-mcp-server:它允许 AI Agent通过浏览器控制器来浏览网页

co-browser/browser-use-mcp-server:一个 MCP 服务器,它允许 AI Agent通过浏览器控制器来浏览网页,提升自动化效率。亮点: 支持SSE和stdio双协议传输; 实时VNC流媒体功能,可实时监控浏览器操作; 异步任务执行,提升操作灵活性。 参考文献: [1] http://github.com/co-brows...

阅读:8 评论:0

微软研究院发布了个原生 1-bit 的大语言模型:bitnet-b1.58-2B-4T

微软研究院整了个活,发布了个原生 1-bit 的大语言模型 —— bitnet-b1.58-2B-4T。有啥意义吗?有的,这个模型虽然将权重量化到超低精度(实际是1.58位,权重只有{-1, 0, +1}三个值),但它在性能上几乎能与其它2B参数规模的全精度模型相媲美。 与传统模型相比,这个1-bit模型带来了惊人的效率提升: 内存占用只有0.4GB(其他...

阅读:8 评论:0

字节开源了一个新型多模态生成模型 Liquid

字节开源了一个新型多模态生成模型 Liquid,核心创新在于将图像和文本统一编码到同一个离散的 token 空间中,并使用一个单一的大语言模型(LLM)同时处理视觉理解和生成任务。 核心发现是:虽然在小模型中多模态训练会影响语言能力,但随着模型规模的增大,这种性能下降会逐渐消失,甚至互相促进。 参考文献: [1] https://huggingface....

阅读:8 评论:0

MiniMax押注线性注意力让长文本训练速度基本不变

在Transformer几乎一统天下的今天,MiniMax-01选择了另一条路:放弃“主流”Transformer,押注更小众但计算更高效的线性注意力(linear attention),并将其规模推进到惊人的4560亿参数,搅动开源圈。 线性注意力是什么?一句话解释,它是一种能将原本计算量为 O(n²) 的attention结构压缩为 O(n) 的优化方法...

阅读:8 评论:0

一款强大的开源自动化浏览器智能体:Index

在做浏览器自动化脚本时,我们常常需要编写大量代码来处理复杂的网页交互,不仅耗时耗力,还难以调试和优化,要是出错更是难以精准定位问题所在。它能够在浏览器上自动执行复杂的网页任务,无需编写代码脚本,简单描述任务需求即可完成各种网页操作。主要功能 基于 Claude 3.7 Sonnet 提供强大的 AI 能力,后续将支持更多模型 提供 API 和可视化操作 U...

阅读:9 评论:0

Pixel Converter 是一个开源的简单快速图像格式转换器

Pixel Converter 是一个开源的简单快速图像格式转换器。 参考文献: [1] https://pixel-converter.app/ [2] https://github.com/katbella/pixel-converter (文:NLP工程化) Pixel Converter 是一个开源的简单快速图像格式转换器最先出现在每时AI...

阅读:9 评论:0

刚刚,o4-mini发布!OpenAI史上最强、最智能模型

今天凌晨1点,OpenAI进行了技术直播,发布了最强、最智能模型o4-mini和满血版o3。 o4-mini和o3是两款多模态模型,能同时处理文本、图像和音频,并且能作为Agent智能体自动调用网络搜索、图像生成、代码解析等工具以及深度思考模式(思维链中可以思考图像)。 根据OpenAI公布的测试数据显示,o4-mini在AIME2024和2025中,分别达...

阅读:10 评论:0