安爸-超级家庭

ExlLlamaV3:为现代消费级GPU优化的本地运行LLMs的量化和推理库

安爸 发布于

ExlLlamaV3:为现代消费级GPU优化的本地运行LLMs的量化和推理库。亮点:

  1. 支持多种架构,适配更多模型;
  2. EXL3量化格式,高效转换,仅需几分钟到几小时;
  3. 低内存需求,70B模型仅需16GB显存。

参考文献:
[1] http://github.com/turboderp-org/exllamav3


(文:NLP工程化)

ExlLlamaV3:为现代消费级GPU优化的本地运行LLMs的量化和推理库最先出现在每时AI


扫描二维码,在手机上阅读