安爸-超级家庭

移动端大模型推理框架——cactus

安爸 发布于

这个框架支持C/C++、Dart/Flutter 和 Ts/React-Native 的 API (而且接口都是相同的方便移植)。这个框架使用 GGML 当推理后端,支持任何与 Llama.cpp 兼容的 GGUF 模型。

目前来看放出的模型推理速度也很不错,iPhone 16 运行 Gemma3 1B 能达到 49 token/s,Qwen3 4B 能达到 16 token/s。

参考文献:
[1] https://github.com/cactus-compute/cactus
[2] https://github.com/cactus-compute


知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群

(文:NLP工程化)

移动端大模型推理框架——cactus最先出现在每时AI


扫描二维码,在手机上阅读