安爸-超级家庭
bg
avatar

安爸

browser-use-mcp-server:它允许 AI Agent通过浏览器控制器来浏览网页

co-browser/browser-use-mcp-server:一个 MCP 服务器,它允许 AI Agent通过浏览器控制器来浏览网页,提升自动化效率。亮点: 支持SSE和stdio双协议传输; 实时VNC流媒体功能,可实时监控浏览器操作; 异步任务执行,提升操作灵活性。 参考文献: [1] http://github.com/co-brows...

阅读:10 评论:0

微软研究院发布了个原生 1-bit 的大语言模型:bitnet-b1.58-2B-4T

微软研究院整了个活,发布了个原生 1-bit 的大语言模型 —— bitnet-b1.58-2B-4T。有啥意义吗?有的,这个模型虽然将权重量化到超低精度(实际是1.58位,权重只有{-1, 0, +1}三个值),但它在性能上几乎能与其它2B参数规模的全精度模型相媲美。 与传统模型相比,这个1-bit模型带来了惊人的效率提升: 内存占用只有0.4GB(其他...

阅读:10 评论:0

字节开源了一个新型多模态生成模型 Liquid

字节开源了一个新型多模态生成模型 Liquid,核心创新在于将图像和文本统一编码到同一个离散的 token 空间中,并使用一个单一的大语言模型(LLM)同时处理视觉理解和生成任务。 核心发现是:虽然在小模型中多模态训练会影响语言能力,但随着模型规模的增大,这种性能下降会逐渐消失,甚至互相促进。 参考文献: [1] https://huggingface....

阅读:10 评论:0

MiniMax押注线性注意力让长文本训练速度基本不变

在Transformer几乎一统天下的今天,MiniMax-01选择了另一条路:放弃“主流”Transformer,押注更小众但计算更高效的线性注意力(linear attention),并将其规模推进到惊人的4560亿参数,搅动开源圈。 线性注意力是什么?一句话解释,它是一种能将原本计算量为 O(n²) 的attention结构压缩为 O(n) 的优化方法...

阅读:11 评论:0

一款强大的开源自动化浏览器智能体:Index

在做浏览器自动化脚本时,我们常常需要编写大量代码来处理复杂的网页交互,不仅耗时耗力,还难以调试和优化,要是出错更是难以精准定位问题所在。它能够在浏览器上自动执行复杂的网页任务,无需编写代码脚本,简单描述任务需求即可完成各种网页操作。主要功能 基于 Claude 3.7 Sonnet 提供强大的 AI 能力,后续将支持更多模型 提供 API 和可视化操作 U...

阅读:12 评论:0

Pixel Converter 是一个开源的简单快速图像格式转换器

Pixel Converter 是一个开源的简单快速图像格式转换器。 参考文献: [1] https://pixel-converter.app/ [2] https://github.com/katbella/pixel-converter (文:NLP工程化) Pixel Converter 是一个开源的简单快速图像格式转换器最先出现在每时AI...

阅读:11 评论:0

刚刚,o4-mini发布!OpenAI史上最强、最智能模型

今天凌晨1点,OpenAI进行了技术直播,发布了最强、最智能模型o4-mini和满血版o3。 o4-mini和o3是两款多模态模型,能同时处理文本、图像和音频,并且能作为Agent智能体自动调用网络搜索、图像生成、代码解析等工具以及深度思考模式(思维链中可以思考图像)。 根据OpenAI公布的测试数据显示,o4-mini在AIME2024和2025中,分别达...

阅读:13 评论:0

Adobe投资AI视频独角兽Synthesia

tech.eu消息,总部位于英国的初创公司 Synthesia,凭借其在企业AI生成视频化身领域的卓越表现,在年度经常性收入突破1亿美元大关后,成功获得了 Adobe 的战略投资。 目前,全球超过6万家公司,其中包括70%以上的财富100强企业,均在使用 Synthesia 的服务,每天在其平台上生成的 AI 视频数以千计。 Synthesia作为一家成立...

阅读:11 评论:0

谷歌提出Transformer架构中,表示崩塌、过度压缩的5个解决方法

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注! Transformer架构的出现极大推动了生成式AI的发展,在此基础之上开发出了ChatGPT、Copilot、讯飞星火、文心一言、Midjourney等一大批知名产品。 但Trans...

阅读:10 评论:0

谷歌AI成功破解海豚语,海洋版ChatGPT来了!掀人类跨物种交流革命

新智元报道 编辑:定慧 【新智元导读】谷歌推出全新DolphinGemma大模型,基于30年海豚研究数据训练的AI模型正试图破解海豚的语言密码。仅有400M参数的轻量级模型能在普通Pixel手机上运行,不仅能识别海豚声音模式,还能预测它们的下一个发声——就像LLM预测下一个词一样。 你是否曾经好奇过海豚神秘的声音在说什么? 现在借助AI的力量,可以...

阅读:11 评论:0