2023总结 竟然又到了年底,今年是从学校毕业到社会上的第一年,自己的社会身份发生了从学生到打工人的转变,尽管自己对于职场和独立生活已经有一些准备,但还是有些事在预期之外。 2023-12-28 年度总结
树莓派3b搭建openwrt科学上网 本文记录下采用树莓派来搭建软路由实现科学上网的过程,中间没有想象的那么顺利…折腾了大概两个小时才弄完,这里记录下整个流程和一些坑。 2023-05-03 折腾 #科学上网
DuckDB(0): 整体介绍 DuckDBWhat is DuckDBDuckDB 是一个 In-Process 的 OLAP 数据库,可以理解为 AP 版本的 SQLite,采用 MIT 协议开源,是荷兰 CWI 数据库组的一个项目,学术气息比较浓厚,项目的组织很有教科书的感觉,架构很清晰,所以非常适合阅读学习。 Why DuckDB come outCWI 数据库组非常厉害,像 MonetDB、Vectorwise 都是该 2023-05-02 DuckDB #数据仓库
Databricks Photon | Native C++ Query Engine for Lakehouse Systems HistorySpark 简介来自伯克利的高性能和更具表现力的 Hadoop 替代品。 计算/存储分离 支持对同一数据集进行多次迭代算法。 使用 Scala 编写,可以在 JVM 上运行。 最初只支持 low-level 的 RDD API,后来添加了 DataFrame API 以实现更高级别的抽象。 SHARK (2013)Facebook的Hive中间件的修改版本,将SQL转换 2023-04-30 论文笔记 #数据仓库
pipeline执行引擎以及一些工程优化 基础概念简单介绍pipeline 是一种执行引擎模型,是通过将复杂的计算链路拆分成多个小部分,通过各种手段来执行 pipeline 中的任务完成高效率的计算。 在 Morsel, Clickhouse, Databend, Datafusion, DuckDB 中对于 pipeline 都有不同程度的实现 pipeline 本质上就是将计算任务抽象成一个 DAG,然后将每个节点抽象为一个 TA 2023-04-30 database #数据仓库 #执行引擎
Dremel | A Decade of Interactive SQL Analysis at Web Scale Historygoogle 内部有很多 Data Systems,每当 google 发布了他们系统的论文之后总会出现外部的一些开源版本,因为大家都认为 google 很成功, NoSQL: MapReduce, 2004 -> Hadoop, Spark BigTable, 2005 -> HBase, Accumulo, Hypertable Chubby, 2006 -> 2023-04-30 论文笔记 #数据仓库
SIGMOD'18 | Column Sketches 要点总结论文原文: Column Sketches: A Scan Accelerator for Rapid and Robust Predicate Evaluation 发现看论文越来越快了,确实是熟能生巧,今天花了大概两个小时读了一篇+笔记,确实对于一般的论文,自己也不需要深究太多证明和实现的细节,先整体了解一些思路即可,之后有需要再看具体的细节证明 本文的贡献: 本文提出一种新 2023-02-09 论文笔记 #数据仓库
SIGMOD 2008 | Column-Stores-vs-Row-Stores 要点总结本文读完的一些要记住的点 尝试通过垂直分区和 Index-only plans 等技术在行存储中模拟列存储的物理布局不会产生良好的性能。 我们将这种缓慢归因于tuple 的高昂重建成本,以及窄的垂直分区表中的每个 tuple 额外的高额开销。 分解了列存储能够如此有效地处理面向列的数据的原因 late materialization 将性能提高了三倍 compress 平均提供了大约两 2023-02-07 论文笔记 #数据仓库
Snowflake NSDI'20 | Building An Elastic Query Engine on Disaggregated Storage 要点概括本文链接:Building-An-Elastic-Query-Engine-on-Disaggregated-Storage | NSDI’ 20 这篇文章是 snowflake 在实际数据分析下对于 snowflake 设计的一篇总结分析,并不是整体架构的设计和介绍。 主要介绍了临时存储系统的设计,任务调度,资源弹性和多租户的一些设计和数据分析上的结果和未来的展望,这个时候 snowf 2023-02-06 论文笔记 #数据仓库
2022总结 竟然又到了年底了,2022又过去了,今年是非常充实忙碌的一年,总体来说就是秋招+毕业两件大事,想想去年的这个时候是2021年底,刚刚翻看之前的总结又感叹着时间飞逝,自己又老了一岁…今年的年度总结多了一个复盘环节:流水账,复盘,good stuff and bad stuff。 流水账今年年初回家很早,元旦的时候应该就在家里,在家呆了两个月,这两个月里面还是主要在给 databend 实习写代码。回 2022-12-26 年度总结
23届小硕秋招分享-数据库/存储方向 秋招终于尘埃落定,整个过程经历了很久,在这里记录分享一下下自己的秋招过程。 在23届秋招过程中,幸运地收获了十几家公司的offer,大厂以及创业公司都涉猎了部分 阿里云,数据库内核 字节,数据库内核 百度,数据库内核 快手,基础架构 美团,大数据基础研发 京东,京东云存储 小红书,数据库内核 smartx,分布式存储 akuna,C++开发 metabit,data infra Starrock 2022-09-11 记录
Join算法笔记整理 [TOC] Join 算法一个好的数据库的设计应该是尽量减少信息的重复和冗余,通常会将不同的数据放在不同的表中,对数据进行拆解分别存储。为了获取完整的分析数据,我们就需要从多表中取数据,将多个表连接成一个表,方便我们进行分析。 Join 一般分为 Inner Join 和 Outer Join,下面用两张图表示他们的区别 Inner Join 表示的是两个表的交集, 上图是 Left Ou 2022-04-29 database
2022-第四期-新学期的烦恼(2.14-3.22) 这次鸽了好久了周报和总结,其原因有很多,主要是新学期来了自己又迎来了很多事情,所以这段时间做了很多事情吧,然后发现人生每个阶段的焦虑是一个接着一个…永远不可能做完的 TAT,这里总结反思一下这段时间 2022-03-23 周报
2022-03-新年的两周(1.31~2.13) 2022 的第三个周报就 delay了…, 究其原因还是自己太懒了,梳理一下到今天为止的做的一些工作和学习,过年期间从初一开始就纯玩了好几天,导致 github 的小绿点都没了 TAT,还是想要小绿点,需要每天都坚持学习和努力工作! 工作翻看了一下这段时间的PR,主要还是参与 datavalues 和 functions 的重构中,这几个 PR 都是这段时间完成的PR:重写几个函数:bin 2022-02-17 周报
2022-02 焦虑 2022 的第二个周报,明年就过年了,主题是焦虑… 工作这周做的工作如下面几个 PR impl getData trait for boolean/string column & improve column 这个 closed 掉的 PR 是开始对重构 datavalues 的一些尝试工作,本来以后就给 bool 和 string 类型加上两个 trait 那么简单,结果后来 2022-01-30 周报
2022-01 双周报尝试&回家 开始公开记录下自己的工作和学习过程,决定开始采用双周周报的形式。这个想法来自于团队里的一个大佬 Xuanwo 的想法,在看到他利用开源的方式来记录下自己工作学习历程之后,自己也决定学习模仿一下,代替在 Notion 里的月度记录,这样做有几个好处, 双周的迭代能够更加紧凑,让自己知道短期内做了什么,对工作、学习计划能够有及时的调整 把自己的工作学习成果写出来能够监督自己,相当于立下一个 flag 2022-01-16 周报
2021总结 转眼间又到了年底,总感觉在成年之后每年都过得很快。这是写总结的第二年,我一直认为总结复盘是一种战略,能够在比较长的时间内看清楚自己做的好的地方和不好的地方,同时也能看到自己一点一滴的进步,能够看到自己完成了哪些目标而又错过了哪些事情,从而能够更好的指导自己未来努力的方向、修正自己的缺点。 先来回忆回忆我这一年都干了啥,就当是记流水账了。 流水账年初的时候还是研一,还在准备期末考试,考完结束回家;二 2021-12-29 年度总结
[论文笔记]Delta Lake: High-Performance ACID Table Storage over Cloud Object Stores2 Delta lake 博客总算开张了,感觉每天其实花不了多少时间就能整理一下,以后也可以把之前一些Notion里面的笔记整理出来发成博客,希望能坚持下去 AbstractAmazon S3 等云对象存储是地球上最大、最具成本效益的存储系统之一,使其成为存储大型数据仓库和数据湖的有吸引力的目标。不幸的是,它们作为键值存储的实现使得难以实现 ACID 事务和高性能:metadata 操作(例如 LI 2021-11-17 论文笔记 #数据仓库
为什么重开一个博客 兜兜转转,竟然又开始写博客了…之前的那个博客不太好看,也记录了太多乱七八糟的东西,所以索性直接放弃,重新维护一个新的博客;另外一个原因,之前在博客园也尝试记录过博客(那个竟然有几万的阅读量…),但是最终都没有坚持下来,而且博客园感觉是第三方平台,就没有太自由的感觉,所以重新,整一波博客。 为什么要写博客呢?写博客主要是给自己记录笔记,之前想着每次写博客都觉得比较烦,因为得把一个事情的来龙去脉全部都 2020-12-10 记录