数据库论文阅读笔记
今年的一个计划是用 NotebookLLM 来读完 cmu15-721 spring2024 中的标星论文,新工具带来的生产力的提高真是太强了……
博客里面就不放太多细碎的笔记内容了,这里就放一个最精华的 NotebookLLM 的总结和一些要点了……
Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics
这篇论文主要讨论了Lakehouse架构,这是一种结合了数据湖和数据仓库优势的新型数据平台。Lakehouse 基于开放的直接访问数据格式 (如 Parquet 和 ORC),并为机器学习和数据科学提供了一流的支持。这种架构通过元数据层实现了 ACID 事务和版本控制等数据管理功能,并利用缓存、索引和数据布局优化来提高 SQL 性能。此外,Lakehouse 还支持声明式 DataFrame API,以加速 ML 工作负载的数据访问。通过这些技术,Lakehouse 旨在解决传统数据湖和数据仓库的局限性,例如数据陈旧、可靠性问题和对高级分析的有限支持。Lakehouse 为企业提供了更高效、灵活和经济的数据管理解决方案。
下面放一张论文中的好图,讲 Data Platform 的演进过程:
- 第一阶段:
- 计算和存储耦合
- 数据集快速增长,越来越多非结构化数据集无法处理
- 第二阶段:
- 将所有原始数据offload到数据湖
- 使用开放文件格式(Parquet, ORC 等)
- schema-on-read
- 数据质量和治理的问题被推到了下游
- 仍然有数据湖中的一小部分数据稍后会被 ETL 到下游数据仓库中,用于最重要的决策支持和 BI 应用
- 云数据湖:S3 开始取代 HDFS,持久性高,跨地域复制,成本极低
- 当前的四个问题:
- 可靠性
- 数据过时
- 对高级分析的支持有限
- 总体拥有成本
数据库论文阅读笔记
http://tanweime.com/2024/12/27/数据库论文阅读笔记/