TurboQuant键值压缩与固态硬盘专家流媒体适用于M5 Pro和iOS

摘要： SwiftLM 是一款基于 Swift 的快速原生推理服务器，专为 Apple Silicon 的 Metal GPU 优化，兼容 OpenAI API。无 Python 运行时和 GIL，通过 TurboQuantization 量化（融合 V2 速度与 V3 质量）和 SSD 直流流式加载技术显著减少内存占用，支持 122B 参数 MoE 模型。内置 iOS 伴侣应用，可直接下载 HuggingFace 模型并在设备上运行。API 端点包括健康检查、模型列表和流式聊天 completion，需通过 Xcode 或预编译二进制文件部署，注意 metallib 文件版本匹配。

讨论： 多项目重复开发，提及llama.cpp的KV压缩和TurboQuant优化，讨论SSD流式加载技术实现，测试M5 Pro 64GB运行百亿参数模型，提及M1/M2/M3/M4兼容性，部分项目缺乏实际基准测试，存在编译错误问题，探讨本地大模型潜力与专家固定训练的优化效果

原文标题：TurboQuant KV Compression and SSD Expert Streaming for M5 Pro and IOS
原文链接：https://github.com/SharpAI/SwiftLM
讨论链接：https://news.ycombinator.com/item?id=47604354