TanWei's blog

2025总结

丢掉幻想，开始斗争一年又一年，竟然已经到了 2025 年底了，今年自己的状态感觉整体是很不错的，生活工作教会了我不少事情，就好像打怪升级一样，感受到自己的心态不断地变稳，虽然仍然有很多需要努力变好的地方，但自己的人生状态确实在不断变好，能够慢慢处理好自己的生活，自己的确在逐步变成一个更好的人了吧！年度目标复盘感激自己每年都有定年度目标的习惯，今年猛的回头一看去年立下的 flag，竟然大部分

2025-12-20

年度总结

An Empirical Evaluation of Columnar Storage Formats - 阅读笔记

An Empirical Evaluation of Columnar Storage Formats 主要对比介绍了 Parquet 和 ORC 两种列存存储格式，通过一个基于真实世界数据集的基准测试，评估了它们的性能和空间效率。列存格式的演进早期大数据生态系统中的文件格式：2010 年代初期，大数据生态系统催生了多种开源文件格式。Apache Hadoop 最先引入了两种面向行的格式：Se

2024-12-29

论文笔记

2025阅读笔记

今年决定看完一本书就得整理一下读书笔记，博客中只整理最精华的部分。控糖革命最近在健身，减肥，朋友推荐了这本书，马上就把这本书读完了血糖水平变化越小，健康状况就会越好（使得血糖曲线平稳化）最优的吃饭顺序：吃前喝点醋，先吃纤维（蔬菜），再吃蛋白质、脂肪，最后吃淀粉和糖类，吃完锻炼十分钟葡萄糖的三类储存位置：糖原（依赖肝脏，存储大概 100g），肌肉（存储 400g），脂肪（果糖只能在脂肪

2024-12-29

数据库论文阅读笔记

今年的一个计划是用 NotebookLLM 来读完 cmu15-721 spring2024 中的标星论文，新工具带来的生产力的提高真是太强了…… 博客里面就不放太多细碎的笔记内容了，这里就放一个最精华的 NotebookLLM 的总结和一些要点了…… Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing

2024-12-27

2024总结

24年快要过完了，得吃吃思考的苦，想想今年又是怎么虚度的，今年是正式工作的第二年，心态相比去年刚毕业时的紧张的感觉，要缓解了很多。工作上的感受在工作上，自己独立承担了一些事情，能够端到端做一些事情了，这是好事。当前参与的项目从最开始的草台班子到现在逐渐变得比较成熟，这个过程感觉自己学到了很多，从身边很多很棒的同事身上能学到了不少，这里指的不仅仅是在技术能力上的提升，还有更多学到了做事的方式以及视

2024-12-23

年度总结

2024年阅读笔记

今年终于再次开始拾起来看书的念头，看的比较杂，这里整理记录下今年阅读的书单。有一些书是第二次读，发现和第一次读起来的感受完全不一样了，人的人生经历会让你在看待同一件事物的时候会有不同的感受。现在自己看书的方法已经发生了一些变化，并不贪图要阅读的量，而是争取让读到的每一本书，自己至少能够从中学习并且在生活中应用一个点，那么算是一次成功的阅读了。我会首先回忆自己还能记得的印象最深的点，然后再去翻阅

2024-12-14

2023总结

竟然又到了年底，今年是从学校毕业到社会上的第一年，自己的社会身份发生了从学生到打工人的转变，尽管自己对于职场和独立生活已经有一些准备，但还是有些事在预期之外。

2023-12-28

年度总结

树莓派3b搭建openwrt科学上网

本文记录下采用树莓派来搭建软路由实现科学上网的过程，中间没有想象的那么顺利…折腾了大概两个小时才弄完，这里记录下整个流程和一些坑。

2023-05-03

折腾

#科学上网

DuckDB(0): 整体介绍

DuckDBWhat is DuckDBDuckDB 是一个 In-Process 的 OLAP 数据库，可以理解为 AP 版本的 SQLite，采用 MIT 协议开源，是荷兰 CWI 数据库组的一个项目，学术气息比较浓厚，项目的组织很有教科书的感觉，架构很清晰，所以非常适合阅读学习。 Why DuckDB come outCWI 数据库组非常厉害，像 MonetDB、Vectorwise 都是该

2023-05-02

DuckDB

#数据仓库

Databricks Photon | Native C++ Query Engine for Lakehouse Systems

HistorySpark 简介来自伯克利的高性能和更具表现力的 Hadoop 替代品。计算/存储分离支持对同一数据集进行多次迭代算法。使用 Scala 编写，可以在 JVM 上运行。最初只支持 low-level 的 RDD API，后来添加了 DataFrame API 以实现更高级别的抽象。 SHARK （2013）Facebook的Hive中间件的修改版本，将SQL转换

2023-04-30

论文笔记

#数据仓库

pipeline执行引擎以及一些工程优化

基础概念简单介绍pipeline 是一种执行引擎模型，是通过将复杂的计算链路拆分成多个小部分，通过各种手段来执行 pipeline 中的任务完成高效率的计算。在 Morsel, Clickhouse, Databend, Datafusion, DuckDB 中对于 pipeline 都有不同程度的实现 pipeline 本质上就是将计算任务抽象成一个 DAG，然后将每个节点抽象为一个 TA

2023-04-30

database

#数据仓库 #执行引擎

Dremel | A Decade of Interactive SQL Analysis at Web Scale

Historygoogle 内部有很多 Data Systems，每当 google 发布了他们系统的论文之后总会出现外部的一些开源版本，因为大家都认为 google 很成功， NoSQL： MapReduce, 2004 -> Hadoop, Spark BigTable, 2005 -> HBase, Accumulo, Hypertable Chubby, 2006 ->

2023-04-30

论文笔记

#数据仓库

SIGMOD'18 | Column Sketches

要点总结论文原文： Column Sketches: A Scan Accelerator for Rapid and Robust Predicate Evaluation 发现看论文越来越快了，确实是熟能生巧，今天花了大概两个小时读了一篇+笔记，确实对于一般的论文，自己也不需要深究太多证明和实现的细节，先整体了解一些思路即可，之后有需要再看具体的细节证明本文的贡献：本文提出一种新

2023-02-09

论文笔记

#数据仓库

SIGMOD 2008 | Column-Stores-vs-Row-Stores

要点总结本文读完的一些要记住的点尝试通过垂直分区和 Index-only plans 等技术在行存储中模拟列存储的物理布局不会产生良好的性能。我们将这种缓慢归因于tuple 的高昂重建成本，以及窄的垂直分区表中的每个 tuple 额外的高额开销。分解了列存储能够如此有效地处理面向列的数据的原因 late materialization 将性能提高了三倍 compress 平均提供了大约两

2023-02-07

论文笔记

#数据仓库

Snowflake NSDI'20 | Building An Elastic Query Engine on Disaggregated Storage

要点概括本文链接：Building-An-Elastic-Query-Engine-on-Disaggregated-Storage | NSDI’ 20 这篇文章是 snowflake 在实际数据分析下对于 snowflake 设计的一篇总结分析，并不是整体架构的设计和介绍。主要介绍了临时存储系统的设计，任务调度，资源弹性和多租户的一些设计和数据分析上的结果和未来的展望，这个时候 snowf

2023-02-06

论文笔记

#数据仓库

2022总结

竟然又到了年底了，2022又过去了，今年是非常充实忙碌的一年，总体来说就是秋招+毕业两件大事，想想去年的这个时候是2021年底，刚刚翻看之前的总结又感叹着时间飞逝，自己又老了一岁…今年的年度总结多了一个复盘环节：流水账，复盘，good stuff and bad stuff。流水账今年年初回家很早，元旦的时候应该就在家里，在家呆了两个月，这两个月里面还是主要在给 databend 实习写代码。回

2022-12-26

年度总结

23届小硕秋招分享-数据库/存储方向

秋招终于尘埃落定，整个过程经历了很久，在这里记录分享一下下自己的秋招过程。在23届秋招过程中，幸运地收获了十几家公司的offer，大厂以及创业公司都涉猎了部分阿里云，数据库内核字节，数据库内核百度，数据库内核快手，基础架构美团，大数据基础研发京东，京东云存储小红书，数据库内核 smartx，分布式存储 akuna，C++开发 metabit，data infra Starrock

2022-09-11

记录

Join算法笔记整理

[TOC] Join 算法一个好的数据库的设计应该是尽量减少信息的重复和冗余，通常会将不同的数据放在不同的表中，对数据进行拆解分别存储。为了获取完整的分析数据，我们就需要从多表中取数据，将多个表连接成一个表，方便我们进行分析。 Join 一般分为 Inner Join 和 Outer Join，下面用两张图表示他们的区别 Inner Join 表示的是两个表的交集，上图是 Left Ou

2022-04-29

database

2022-第四期-新学期的烦恼(2.14-3.22)

这次鸽了好久了周报和总结，其原因有很多，主要是新学期来了自己又迎来了很多事情，所以这段时间做了很多事情吧，然后发现人生每个阶段的焦虑是一个接着一个…永远不可能做完的 TAT，这里总结反思一下这段时间

2022-03-23

周报

2022-03-新年的两周(1.31~2.13)

2022 的第三个周报就 delay了…, 究其原因还是自己太懒了，梳理一下到今天为止的做的一些工作和学习，过年期间从初一开始就纯玩了好几天，导致 github 的小绿点都没了 TAT，还是想要小绿点，需要每天都坚持学习和努力工作！工作翻看了一下这段时间的PR，主要还是参与 datavalues 和 functions 的重构中，这几个 PR 都是这段时间完成的PR：重写几个函数：bin

2022-02-17

周报

2022-02 焦虑

2022 的第二个周报，明年就过年了，主题是焦虑… 工作这周做的工作如下面几个 PR impl getData trait for boolean/string column & improve column 这个 closed 掉的 PR 是开始对重构 datavalues 的一些尝试工作，本来以后就给 bool 和 string 类型加上两个 trait 那么简单，结果后来

2022-01-30

周报

2022-01 双周报尝试&回家

开始公开记录下自己的工作和学习过程，决定开始采用双周周报的形式。这个想法来自于团队里的一个大佬 Xuanwo 的想法，在看到他利用开源的方式来记录下自己工作学习历程之后，自己也决定学习模仿一下，代替在 Notion 里的月度记录，这样做有几个好处，双周的迭代能够更加紧凑，让自己知道短期内做了什么，对工作、学习计划能够有及时的调整把自己的工作学习成果写出来能够监督自己，相当于立下一个 flag

2022-01-16

周报

2021总结

转眼间又到了年底，总感觉在成年之后每年都过得很快。这是写总结的第二年，我一直认为总结复盘是一种战略，能够在比较长的时间内看清楚自己做的好的地方和不好的地方，同时也能看到自己一点一滴的进步，能够看到自己完成了哪些目标而又错过了哪些事情，从而能够更好的指导自己未来努力的方向、修正自己的缺点。先来回忆回忆我这一年都干了啥，就当是记流水账了。流水账年初的时候还是研一，还在准备期末考试，考完结束回家；二

2021-12-29

年度总结

[论文笔记]Delta Lake: High-Performance ACID Table Storage over Cloud Object Stores2

Delta lake 博客总算开张了，感觉每天其实花不了多少时间就能整理一下，以后也可以把之前一些Notion里面的笔记整理出来发成博客，希望能坚持下去 AbstractAmazon S3 等云对象存储是地球上最大、最具成本效益的存储系统之一，使其成为存储大型数据仓库和数据湖的有吸引力的目标。不幸的是，它们作为键值存储的实现使得难以实现 ACID 事务和高性能：metadata 操作（例如 LI

2021-11-17

论文笔记

#数据仓库

2020总结

在北京的寒风里，这个世界的2020马上结束了，我的2020也即将结束。

2020-12-30

年度总结

为什么重开一个博客

兜兜转转，竟然又开始写博客了…之前的那个博客不太好看，也记录了太多乱七八糟的东西，所以索性直接放弃，重新维护一个新的博客；另外一个原因，之前在博客园也尝试记录过博客（那个竟然有几万的阅读量…），但是最终都没有坚持下来，而且博客园感觉是第三方平台，就没有太自由的感觉，所以重新，整一波博客。为什么要写博客呢？写博客主要是给自己记录笔记，之前想着每次写博客都觉得比较烦，因为得把一个事情的来龙去脉全部都

2020-12-10

记录