安爸-超级家庭
bg

AI进家庭

语音更像真人、搜索前先思考?ChatGPT 这波悄悄升级挺有料

刚刚过去的周末(具体来说是 6 月 8 日),OpenAI 又悄悄扔了两个小炸弹: 一个是 高级语音模式(Advanced Voice Mode)升级,一个是 ChatGPT 4o引入“先思考再搜索”机制。 两个更新都挺有料的,重点是 —— OpenAI 没搞大新闻、没搞直播发布会,就这么静悄悄地推送给了 ChatGPT 全体付费用户。 尤其是语音模式的升级...

阅读:10 评论:0

对技术人员的一种劝告——关于技术至上的思考

“ 想赚钱你不一定需要很厉害的技术,关键是你能解决大部分人的问题。” 很多人说程序员有一个很大的特征就是其思维方式,由于经常要处理逻辑问题因此其逻辑思维能力很强;但其它方式的思维能力又很弱,而且作为程序员又有很强的技术鄙视链。 而我们今天要说的就是改变我们程序员的思维方式,用技术去解决问题,而不是单纯的去学习技术;一个问题有很多种解决方案,而你会的技术可...

阅读:11 评论:0

【创业与复盘】真实AI创业项目揭秘与复盘

本篇文章转载自【理查德.许 | 专注AI的创业者】,真人真事,对AI创业感兴趣的读者,可以认真研读。 爆肝半年,他用AI创业试了8个项目,有的赚到钱,有的直接扑街。 从去年春节假期开始,他的人生进入了“全职副业模式”。 因为换工作的交接期和入职后的空窗,他意外拥有了大量空余时间。于是,他ALL IN了AI创业这件事——短短半年,他跑通了多个项目,从翻车现场一...

阅读:9 评论:0

大模型应用推介:多模态RAG、语法纠错、个人财务及Baby Monitor

今天是2025年6月9日,星期一,北京,晴 我们来看看几个有趣的工作,围绕多模态RAG、语法纠错、个人财务大模型大模型、AI Baby Monitor等,重点还是看实现流程以及对应的数据集。 可用的模型很多,核心还是怎么传起来,做一些有意思且可用的场景。 一、大模型应用的集成 1、简单的多模态RAG实现流程 线来看张图,Building a multimod...

阅读:10 评论:0

小红书开源142B参数MoE大模型dots.llm1,AI赋能的Paperless-ngx文档管理工具

**关注我,记得标星⭐️不迷路哦~ ✨ 1: dots.llm1 dots.llm1:142B参数MoE大模型,开源中间训练检查点 dots.llm1 是一个大规模混合专家 (MoE) 模型,其主要功能、核心要点和关键特性如下: 大规模MoE模型: 该模型激活了140亿参数,总参数量达到1420亿,在性能上可与最先进的模型相媲美。 高效的数据处理: 采...

阅读:10 评论:0

简单实用的截图翻译工具AI Screenshot Translator ,AI 自动识别并翻译图片中的文字

项目简介 本工具通过简单的截图操作,将图片发送给 AI 模型进行文本识别和翻译,并将翻译结果以可交互的 HTML 格式显示在独立的窗口中。 本工具支持自定义快捷键触发、多窗口结果管理以及系统托盘运行,极大提升了日常工作和学习中的翻译效率。 工具特点:1、截图翻译,快捷键启动;2、贴片截图和翻译,可随意拖动、缩放,可创建多组翻译贴片;3、公式可以切换原始文本...

阅读:10 评论:0

造梦师手记:东亚女性之美

推荐一个东亚风格的Flux模型:2758 – Flux Asian Utopian 需要注意的是,本模型为schnell模型,只需要8-12步就能获得非常不错的效果,速度很快。 珍珠点缀的优雅肖像 (图片中的人物留着一头棕色短卷发。她身穿米色蕾丝边细肩带上衣。颈间佩戴着一串大颗圆形珍珠项链,并搭配了同系列的珍珠耳环。背景是素净的浅色平面,为中性的底色衬托出...

阅读:9 评论:0

OpenAI 前首席科学家 Ilya 毕业演讲: AI 终将学会你能做的一切,我们该如何面对

Ilya 去哪了? 作为 OpenAI 联合创始人,Ilya Sutskever 一直是最靠近 AI 技术核心的人。如今他不再出现在 OpenAI 的发布会现场,而是选择重新开始。 过去一年,他创办了 Safe Superintelligence,目标是开发安全的超级智能系统,致力于创造一个既具有先进能力,又可控、透明并与人类目标一致的 AI 系统。 谈及过...

阅读:10 评论:0

Torchvista:仅用一行代码即可让 PyTorch 模型变得直观可视化

GitHub 上一个开源工具 Torchvista,仅用一行代码即可让 PyTorch 模型变得直观可视化,剖析完整的复杂模型结构。在 Jupyter、Colab 等笔记本中提供交互式图形界面,不仅能拖拽缩放查看模型结构,还支持点击节点查看参数详情。适合深度学习的开发者,用来学习或调试 PyTorch 模型,或者理解其复杂的网络结构。 参考文献: [1...

阅读:10 评论:0

无坐标时代来临!微软开源革命性GUI定位神器,注意力机制+多区域预测,适配任意屏幕!

在AI驱动的图形用户界面(GUI)交互领域,视觉定位一直是核心挑战。 传统方法依赖生成具体坐标(如x=100, y=200)来定位界面元素,但这种方式在复杂场景下往往受限于分辨率变化、布局差异等问题。 最近微软在GitHub上开源了一款突破性的面向GUI Agent的无坐标视觉定位工具:GUI-Actor。 通过创新的无坐标视觉定位方法,彻底颠覆了传统GU...

阅读:10 评论:0