ExlLlamaV3：为现代消费级GPU优化的本地运行LLMs的量化和推理库

安爸发布于 11 个月前

ExlLlamaV3：为现代消费级GPU优化的本地运行LLMs的量化和推理库。亮点：

支持多种架构，适配更多模型；
EXL3量化格式，高效转换，仅需几分钟到几小时；
低内存需求，70B模型仅需16GB显存。

参考文献：
[1] http://github.com/turboderp-org/exllamav3

（文：NLP工程化）

ExlLlamaV3：为现代消费级GPU优化的本地运行LLMs的量化和推理库最先出现在每时AI。

扫描二维码，在手机上阅读

上一篇 mem-isolate：让运行不安全代码变得安全的神器

下一篇 GitHub仓库的一个得力搜索助手：DeepGit