文章转载自「RTE开发者社区」。 过去几年,AI 已经能生成逼真的图片、视频和声音,悄然通过视觉和听觉的图灵测试。但 2025 年最令人激动的突破之一,毫无疑问将是把这些方案集于一体的 AI 数字人(Al Avatar)。 结合 GPT-4o 吉卜力风格生成和 Hedra 制作的主播数字人,在 X 上获得了 231 万次观看。 今年 2 月,字节跳动推出...
曾几何时,我们想让 AI 回答某个网站上的问题,往往需要手动爬取页面、清洗内容、接入 API……门槛高、步骤繁、效率低。 同时随着大语言模型(LLM)的普及,利用 AI 处理网站信息的需求也日益增加。涉及编写爬虫、处理数据等繁琐步骤,非技术人员难以操作。 最近,一款 GitHub 上的开源工具: SiteMCP 横空出世,将这一过程简化到极致。它能一键抓取整...
让AI访问微信聊天记录的MCP:chatlog,支持Windows/macOS系统和微信3.x/4.0版本。 可以从本地数据库文件中提取微信聊天记录,提供一个简单的命令行界面,也能通过终端菜单操作。 也可以通过API查询聊天记录、联系人、群聊和最近会话等。 支持MCP SSE,对不支持MCP SSE的AI助手,可以使用mcp-proxy工具进行请求转发。 ...
字节跳动发布了 Seed-Thinking-v1.5 的技术细节报告,也是一个基于强化学习训练的推理模型,从分数上来看比 DeepSeek-R1 高,处于接近 Gemini-2.5-Pro 和 O3-mini-high 的水平。 参考文献: [1] https://github.com/ByteDance-Seed/Seed-Thinking-v1.5 ...
阿里巴巴刚刚发布 FantasyTalking,它可以对角色进行口型同步,并具有逼真的面部和全身动作,它的表现优于当前的 SOTA 方法,如 OmniHuman-1、Sonic 和 Hallo 3。 参考文献: [1] https://fantasy-amap.github.io/fantasy-talking/ [2] https://github.c...
斯坦福大学HAI研究中心发布了《2025年AI指数报告》。 该报告涵盖了从AI硬件、技术性能到负责任的AI应用、发展、政策治理等多个方面的综合分析,也是全球分析AI最有深度、权威的报告之一。 原版报告:https://hai-production.s3.amazonaws.com/files/hai\_ai\_index\_report\_2025.pdf...
最近在做的一个应用要用到TTS,看到字节新开源的TTS,实测玩了玩。 你们有没有发现,在国内找个声音克隆做得好的应用还不太容易,可能在合规上比较难。 难也有可能是机会。 字节开源的MegaTTS3,参数只有0.45B,速度快到快到飞起! 但是有优点就有缺点,目前只支持中英两种语言。 如果要求小语种的话,这个TTS肯定不是你的菜。 实测下来效果还是很好的,远超...
本文介绍了 VideoPainter,一种用于视频修复的双分支框架,旨在实现高质量的视频内容恢复和编辑能力。 通过构建大规模(390K 视频片段)视频修复数据集,结合轻量级上下文编码器(仅占骨干网络参数的 6%)和掩码选择性融合和修复区域 ID 重采样等模型架构来增强可扩展性和长视频 ID 一致性。这些创新显著提升了模型在背景保留和前景生成的平衡能力和时间...
独木不成林,但“人多嘴杂”也未必是好事!随着基于大型语言模型(LLM)的多智能体系统逐渐成为解决复杂问题的主流方案,一个令人头疼的问题也随之而来:多智能体之间的通信冗余。想象一下,一个团队里每个人都想发言,但大部分内容其实毫无意义,不仅浪费时间,还增加了沟通成本。 好消息是,这个问题终于有了解决方案! 由同济大学、香港中文大学、北卡罗来纳大学等机构联合提...
机器之心报道 编辑:泽南 终极个人 AI 助理初现雏形。 今天凌晨,OpenAI 的 CEO 山姆・奥特曼突然发推说自己睡不着了,因为有重要新功能要推出。 很快,OpenAI 就正式发布了一个令人期待的新功能。 从今天开始,ChatGPT 在每次开启对话中都可以参考你过去的所有聊天记录,提供更加个性化的回复,并在建议中能够根据你的喜好和兴趣进行优化。有...