An Empirical Evaluation of Columnar Storage Formats - 阅读笔记
An Empirical Evaluation of Columnar Storage Formats 主要对比介绍了 Parquet 和 ORC 两种列存存储格式,通过一个基于真实世界数据集的基准测试,评估了它们的性能和空间效率。 列存格式的演进 早期大数据生态系统中的文件格式:2010 年代初期,大数据生态系统催生了多种开源文件格式。Apache Hadoop 最先引入了两种面向行的格式:Se