ExlLlamaV3:为现代消费级GPU优化的本地运行LLMs的量化和推理库
安爸
发布于
ExlLlamaV3:为现代消费级GPU优化的本地运行LLMs的量化和推理库。亮点:
- 支持多种架构,适配更多模型;
- EXL3量化格式,高效转换,仅需几分钟到几小时;
- 低内存需求,70B模型仅需16GB显存。


参考文献:
[1] http://github.com/turboderp-org/exllamav3
(文:NLP工程化)
扫描二维码,在手机上阅读