安爸-超级家庭
bg

AI信息差

“一眼AI”越来越难了,这有一份AI鉴定指南送给你

作者_|周一笑 邮箱|_zhouyixiao@pingwest.com 先来看一张图。如果AI接到指令,要画一张梅西、C罗和内马尔在夜晚火锅店里的随手自拍快照,它可能会生成这样一张图片: 是不是感觉挺真实的?如果不是最近刷到了太多这类风格的图片,你可能还真信了。这就是我们身处的现实,AI生成的内容正以前所未有的速度和逼真度充斥着我们的数字生活,从图片到文...

阅读:12 评论:0

我的朋友谢扬,他的 Fellou,以及这个时代的创业者

2019 年的夏天,我和谢扬都混的很差,他从大厂出来后开始做 Authing,但一笔钱都融不到,我侥幸在 1 年前融了一点钱,但每个月都在亏,靠账上最后一点钱苟活。我们坐在朝阳大悦城的咖啡店仰头叹息,感慨生不逢时,讨论应该干点什么才能继续活下去。 没人能料到后面的那三年,但至少在那个时刻,我们都觉得已经够糟了。 现在回想,所谓的命运齿轮在那个夏天应该已经悄...

阅读:11 评论:0

告别视频模糊!AAAI 2025黑科技:中科大用“事件”点亮超分辨率视界

大家好,我是每日给大家推荐优秀开源项目的小G! 还在为运动模糊、低光照下拍摄的视频画质发愁吗?😭 想要提升视频分辨率,却发现模糊细节丢失严重,传统方法效果不佳?别担心!今天小G给大家带来一个刚刚被人工智能顶会 AAAI 2025 接收的前沿开源项目——Ev-DeblurVSR!它巧妙地利用了一种叫做“事件相机”(Event Camera)的新型传感器,为解决...

阅读:12 评论:0

月之暗面最新开源模型!Kimi-Audio:革新多模态音频处理,统一音频理解、生成与对话!

处理音频数据时,我们是不是经常要切换各种工具? 转写用 ASR(语音识别),转音频又得找稳定的 TTS 模型(工具)…… 几个小时前,月之暗面 Moonshot AI 正式开源了 Kimi-Audio,可以帮助我们解决处理音频时来回切换不同工具的痛点。 Kimi-Audio 由月之暗面(Moonshot AI)开发,是一款开源音频基础模型,基于 Qwen ...

阅读:11 评论:0

暴躁的教授读论文(mad-professor)

在阅读学术论文时,总是被一堆专业术语和复杂公式绕晕,特别是外语论文,遇到不懂的单词,还需要与翻译工具来回切换,效率极低。最近一个中文名叫 “暴躁的教授读论文” 的开源项目拯救了我们,它让一位带有点脾气的 AI 教授来辅助我们高效阅读论文。 该工具不仅能自动提取论文内容并支持中英双语对照阅读,还能用暴躁有趣的语气回答我们对论文的各种问题,甚至支持语音对话,让阅...

阅读:11 评论:0

华中科技大学的研究者发了一篇MCP的综述论文

来自华中科技大学的研究者发了一篇MCP的综述论文,可以作为学习MCP的学习资料,论文全面分析了模型上下文协议(Model Context Protocol, MCP)的生态系统,探讨了其架构、核心组件、工作流程、服务器生命周期,以及在创建、运行和更新阶段的安全风险,并提出了未来研究方向和建议。 参考文献: [1] http://arxiv.org/p...

阅读:14 评论:0

drawDB:数据库实体关系(DBER)编辑器

数据库实体关系(DBER)编辑器——drawDB。可以直接可视化的编辑库表结构与关系,也可以导入现有库表结构来进行梳理。而且是网页应用,部署特别方便。甚至还能集成AI生成SQL功能。 参考文献: [1] http://github.com/drawdb-io/drawdb [2] https://www.drawdb.app/ 知识星球服务内容:D...

阅读:13 评论:0

MLX-Audio发布了v0.1.0 版本

MLX-Audio发布了v0.1.0 版本,支持前天爆火的语音生成模型 Dia了。MLX 是针对 MacOS 上运行大模型设计的推理引擎。 参考文献: [1] 地址:https://github.com/Blaizzy/mlx-audio 知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加...

阅读:10 评论:0

ICLR 2025 计算开销减半!Dynamic-LLaVA刷新多模态大模型推理加速上限

多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存占用逐渐增加,这导致了多模态大模型推理效率的降低。 现有的方法通过减少预填充(prefill)阶段的视觉 token 冗余来实现推理加速。遗憾的是,这种在预填充阶段实现的视觉 token 稀疏化...

阅读:11 评论:0

迈向长上下文视频生成!FAR重塑下一帧预测范式,短视频与长视频双双登顶SOTA

背景:长上下文视频生成的挑战 目前的视频生成技术大多是在短视频数据上训练,推理时则通过滑动窗口等策略,逐步扩展生成的视频长度。然而,这种方式无法充分利用视频的长时上下文信息,容易导致生成内容在时序上出现潜在的不一致性。 解决这一问题的关键在于:高效地对长视频进行训练。但传统的自回归视频建模面临严重的计算挑战——随着视频长度的增加,token 数量呈爆炸式...

阅读:11 评论:0