移动端大模型推理框架——cactus
安爸
发布于
这个框架支持C/C++、Dart/Flutter 和 Ts/React-Native 的 API (而且接口都是相同的方便移植)。这个框架使用 GGML 当推理后端,支持任何与 Llama.cpp 兼容的 GGUF 模型。
目前来看放出的模型推理速度也很不错,iPhone 16 运行 Gemma3 1B 能达到 49 token/s,Qwen3 4B 能达到 16 token/s。


参考文献:
[1] https://github.com/cactus-compute/cactus
[2] https://github.com/cactus-compute
知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群。
(文:NLP工程化)
移动端大模型推理框架——cactus最先出现在每时AI。
扫描二维码,在手机上阅读