ChatGPT 4o一句话P图功能发布后,引起了轰动。 一时间全世界都在用ChatGPT 4o 把图片P成吉卜力风格。 很长一段时间,其他AI团队难以复现这个功能。 后来豆包一定程度上实现了一句话P图功能,但缺点是风格不那么稳定,只能算“山寨”版。 再后来,Flux终于出手了,Kontext实现了超越ChatGPT 4o的一句话P图功能。 不过,Flux发...
机器之心报道 编辑:杜伟、大盘鸡 再一次,Meta「搜刮」了 OpenAI 的成员。The Information 发布了文章,谈到 Meta 再聘四名 OpenAI 研究人员。这离上一次 OpenAI 苏黎世办公室被 Meta 一锅端只隔了短短几天时间。 在 4 月发布 Llama 4 AI 模型后,Meta 启动了一波大规模招聘潮。据悉,Llama 4...
本文第一作者卫雅珂为中国人民大学四年级博士生,主要研究方向为多模态学习机制、多模态大模型等,师从胡迪副教授。作者来自于中国人民大学和上海人工智能实验室。 近年来,多模态大模型(MLLMs)已经在视觉语言、音频语言等任务上取得了巨大进展。然而,当在多模态下游任务进行微调时,当前主流的多模态微调方法大多直接沿用了在纯文本大语言模型(LLMs)上发展出的微调...
新智元报道 编辑:定慧 【新智元导读】「我的工作太复杂,AI替代不了」别天真了!从农业到制造业,再到今天的软件开发,历史早已证明:所有工作都难逃被技术重塑的命运。AI正以惊人速度吞噬人类岗位,程序员也未能幸免,或许所有人都无法幸免。 「我的岗位太复杂不会被AI替代的」。 如果你还在抱着这种看法来看待如今的AI时代,那你99%要完蛋了。 NO. JO...
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 扎克伯格又从奥特曼手里挖走4名顶尖AI人才,这次四位都是华人研究员。 他们分别是: 中科大校友于佳慧:OpenAI感知(Perception)团队负责人 浙大校友毕树超: OpenAI多模态后训练团队负责人 清华校友赵盛佳: 全程参与从初代ChatGPT到o3的预训练 北大校友任泓宇: o3-mini核...
头图由豆包生成 提示词:办公室场景,一个人坐在桌前与机械臂协作编程 作者_|董道力 邮箱|_dongdaoli@pingwest.com 2025年,10000个AI coding工具正在井喷。 这是一个注定作为“AI Coding元年”载入技术史册的年份。 一批创新工具正以前所未有的方式重塑编程范式。 这些产品快速渗透进实际生产环境,在能力上也迅速告别简...
作者_|王飞 邮箱|_wf@pingwest.com 定出750个“小目标”(亿)要多久?在小米集团董事长雷军这里,只需要1小时。 6月26日晚,小米YU7正式上市。作为小米集团旗下的第二款车型,也是旗下首款SUV,小米YU7的定位是“豪华高性能纯电SUV”。 早在发布前,小米就已将YU7的预热传播,精准地对标当前全球市场最火的纯电SUV销冠——特斯拉Mo...
中国科学院计算技术研究所(ICTNLP)最新开源了一款类GPT-4o的多模态模型,支持文本、视觉和语音的任意组合交互,生成文本和语音回复。 其模型名称为:Stream-Omni,其独特的“边听边看”体验媲美GPT-4o高级语音服务。 核心在于高效模态对齐技术,仅需少量多模态数据(尤其是语音数据)即可训练。 核心功能 • 多模态交互:支持文本、图像、语音等...
MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。主要功能: 删除页眉、页脚、脚注、页码等元素,确保语义连贯 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版 保留原文档的结构,包括标题、段落、列表等 提取图像、图片描述、表格、表格标题及脚注 自动识别并转换文档中的公式为LaTeX格式 自...
Flux Kontext Dev ComfyUI 首日支持现已发布,快来解锁 Kontext 模型超强图像编辑能力。Flux.1 Kontext [dev] 模型现已整合进 ComfyUI,本地即可使用,具备极强图像一致性保持与快速局部编辑能力,是面向创作者和开发者的高自由度图像生成工具。 支持“角色一致性”生成:该模型能在不同场景中维持角色、物体等核心元...