新智元报道 编辑:定慧 【新智元导读】扎克伯格为了他的超级智能团队,大肆在硅谷挖人,犯下众怒,甚至逼的Ilya公开叫板。这场堪称「元宇宙2.0」的超级智能梦,是否又会和此前大败的元宇宙计划,如出一辙? 活久见,科技圈的「程序员」身价第一次超过C罗了。 这位OpenAI的华人AI研究者Jiahui Yu,在「转会」到Meta的过程中,扎克伯格开出了1...
上海交通大学的科研成果,AI设计热辐射超材料领域取得原创突破,其研发的逆向设计AI模型,能大批量生成热辐射超材料的候选设计方案,并从里面“优中选优”。 文|张洋洋 让建筑外墙“0能耗降温”、衣物一键降温3-5度,有望为航空航天、沙漠地带等极端环境提供温控解决方案……近日,上海交通大学团队领衔的科研成果登上Nature杂志,这项科研在AI设计热辐射超材料领...
近日,法国AI实验室Kyutai正式开源其高性能TTS语音模型:Kyutai TTS。 它是一款基于Delayed Streams Modeling(DSM)框架的实时文本转语音(TTS)模型,支持流式文本输入、超低延迟和高保真语音生成。 1.6B参数,英语/法语WER低至2.82/3.29,语音相似度77.1%/78.7%,支持流式文本输入,适配实时交互...
OCRFlux-3B:PDF转Markdown,有着不错的效果。 参考文献: [1] 在线使用: https://ocrflux.pdfparser.io [2] 模型地址: https://huggingface.co/ChatDOC/OCRFlux-3B [3] repo 地址: https://github.com/chatdoc-com/OC...
kyutai_labs把它的TTS开源了:Kyutai TTS,支持文本流式传输、低延迟。使用L40S GPU,可同时处理32个请求,延迟为 350毫秒。除了生成音频,Kyutai TTS 还会输出单词的确切时间戳。英语和法语的WER分别为2.82和3.29,说话者相似度为77.1%和78.7%。能处理长文章,目前支持英语和法语。 参考文献: [1] ht...
用GitHub Copilot的,可以看下github官方出的这个“Awesome GitHub Copilot Customizations”项目 github.com/github/awesome-copilot。 GitHub Copilot 提供三种主要方式来定制 AI 响应,并可根据您的特定工作流程、团队指南和项目需求进行个性化辅助:自定义指令、可...
九原客推荐的一些关于DeepResearch 的学习资源 1.论文 (1)好一些的综述:arxiv.org/abs/2506.18096 (2)过于求全反而缺乏洞见的综述:arxiv.org/pdf/2506.12594 (3)评估方法,从报告质量和引用精度两个角度评估:arxiv.org/pdf/2506.11763 2.适合上手的,开箱即用的 DeepR...
新智元报道 编辑:KingHZ 海狸 【新智元导读】LLM非要按顺序写代码?苹果联手港大发布DiffuCoder,用扩散模型+强化学习策略,直接性能飙升4.4%。 自回归,真的要落幕了吗? 文本扩散模型这次要起飞了? 5月,在I/O 2025大会上,谷歌推出了Gemini Diffusion,主打速度快:采样速度轻松可达每秒1000个token。 ...
这项目真猛啊,4小时干了1800颗星。 横轴单位是小时这是真不多见。 这可能也是我的价值所在吧,能把新开源的筛选好,第一时间发出来给大家介绍。 也是顺应潮流了,液态玻璃风格直接搞上了。 扫码加入AI交流群 获得更多技术支持和交流 (请注明自己的职业) 项目简介 Glass 是一个轻量的开源桌面 AI 助手。它能常驻桌面,实时捕捉信息、理解上下文,将日常...
西风 发自 凹非寺 量子位 | 公众号 QbitAI 3.92万亿美元市值,刷新全球历史纪录,来自AI芯片霸主—— 英伟达。 什么概念?LSEG数据指出,这一数字超过了加拿大+墨西哥股市的总市值之和,也超过英国所有上市公司总市值。 而在此之前,历史最高记录保持者为苹果,去年12月26日,苹果创下3.915万亿美元历史收盘纪录。 与英伟达创纪录同一时间,在华...