用视频存储文本的黑科技!
安爸
发布于
项目简介
memvid-rs 是 memvid 的高性能、自包含的 Rust 重实现,将文本文档编码为视频文件中的二维码,以实现高效的存储和 TRUE 神经网络语义检索。
memvid-rs 采用创新方法将文本文档转换为视频文件:
- 📄 文本处理:文档被分块为可管理的片段
- 🔲 QR 编码:每个片段成为 QR 码帧
- 🎬 视频创建:QR 帧被编译为视频文件
- 🧠 TRUE BERT 推理:真实 transformer 神经网络用于语义理解
- ⚡ 闪电检索:以完美精度查询您的“视频记忆”
非常适合存档大型文本语料库,创建可搜索的视频库,或构建具有 100% 语义搜索精度的创新文档存储系统。
特点
🚀 性能
- 使用 Metal GPU 加速编码速度提升 150 倍以上(M1 Max:9 秒 vs 分钟)
- 使用 TRUE BERT 神经网络推理实现 100%搜索准确率
- 使用 HNSW 索引在数百万文本片段中进行亚秒级搜索
- 1.68 秒完成 112 测试验证套件
- 零编译警告 – 生产就绪的干净代码库
🧠 TRUE 机器学习
- 真实 BERT 神经网络 – 6 个 Transformer 层,支持多头注意力
- 通过 HuggingFace Candle 实现原生 Rust 机器学习(无需 Python 依赖!)
- GPU 自动检测 – Metal/CUDA/CPU 自动优化
- 完美语义理解 – “谁发明了比特币” → “中本聪” ✅
- 来自 sentence-transformers/all-MiniLM-L6-v2 的 384 维嵌入
🛠️ 技术
- 100% 纯 Rust – 无外部系统依赖
- 自包含二进制文件 – 任何地方单文件部署
- 基于 HNSW 索引的高级向量搜索和 4 种距离度量
- 全程使用 Async/await 以实现最大并发
- 快速测试模式 – 基于哈希的虚拟嵌入用于开发
📚 兼容性与部署
- 📱 真正的可移植性 – 单个 50MB 的二进制文件可在任何地方运行
- 🔄 Python 互操作 – 无缝读取现有 memvid 文件
- 📄 多种格式:PDF、TXT、Markdown、JSON
- 🌍 跨平台:Windows、macOS、Linux、ARM
- 🚢 无需安装 – 复制即可运行,无需依赖
- 🐳 小型容器 – scratch/alpine + 二进制 (\~55MB 总计)
🏗️ 架构

核心组件
- 🔲 QR 模块:纯 Rust QR 编码/解码与压缩(qrcode + rqrr)
- 🎬 视频模块:自包含视频处理(re_mp4 + mp4parse + image)
- 🧠 ML 模块:通过 HuggingFace Candle 嵌入模型(无 Python 依赖)
- 🔍 搜索模块:纯 Rust HNSW 向量搜索(hnsw_rs + instant-distance)
- 📊 存储模块:内存高效的数据结构和缓存
项目地址
https://github.com/AllenDang/memvid-rs
扫码加入技术交流群,备注「开发语言-城市-昵称」
(文:GitHubStore)
用视频存储文本的黑科技!最先出现在每时AI。
扫描二维码,在手机上阅读