LF AI 和数据主机涡流项目,旨在为人工智能和数据分析提供数据访问

Aug 06, 2025     Author:pauldix     HN Points:19     HN Comments:1
Share this

摘要: Vortex项目由SpiralDB贡献,是一个开源、可扩展的列式存储格式,旨在构建高性能、面向未来的数据系统。该项目由LF AI & Data Foundation宣布启动,旨在解决云存储和异构计算之间的差距,实现数据在内存、磁盘和网络之间的无缝处理。Vortex支持现代数据系统的基础存储格式,基于最新的压缩研究。它优化了多模式数据、宽模式、基于GPU的训练工作负载以及从云对象存储(如S3和GCS)进行的高性能读取。Vortex的设计旨在提供卓越的性能、简洁性和可组合性,包括比Apache Parquet快100倍以上的随机访问读取速度、10-20倍以上的扫描速度和5倍以上的写入速度,同时保持类似的压缩比率。

讨论: 该内容比较了某作者使用的一种格式与Apache Parquet格式的性能,指出该格式在随机访问、扫描和写入速度方面均有显著提升,压缩比与Apache Parquet相似,并且在Clickbench测试中,查询速度几乎与duckdb的本地格式相当。

原文标题:LF AI and Data Hosts Vortex Project for Data Access for AI and Analytics
原文链接:https://www.linuxfoundation.org/press/lf-ai-data-foundation-hosts-vortex-project-to-power-high-performance-data-access-for-ai-and-analytics
讨论链接:https://news.ycombinator.com/item?id=44814290