Figma数据库团队如何应对规模挑战
2024 年 4 月 3 日
Figma 数据库团队如何应对规模挑战
Figma 数据库团队如何应对规模挑战。这是一个最佳的扩展故事:
“自 2020 年以来,Figma 的数据库堆栈已经增长了近 100 倍。2020 年,我们在 AWS 的最大物理实例上运行了一个单独的 Postgres 数据库,到 2022 年底,我们已经构建了一个带有缓存、读取副本和十几个垂直分区数据库的分布式架构。”
我喜欢他们称之为“colos”(sharded groups of related tables)的概念,这些表被分组在一起,以便可以使用连接来查询这些表。
另一个聪明之处是将迁移分为“逻辑分片”阶段 - 在这个阶段,所有查询仍然在单个数据库上运行,即使它们在逻辑上被路由,好像数据库已经被分片 - 然后是“物理分片”,在这个阶段,数据实际上被分片。 逻辑分片是使用PostgreSQL视图实现的,这些视图可以接受读取和写入操作:
CREATE VIEW table_shard1 AS SELECT * FROM table
WHERE hash(shard_key) >= min_shard_range AND hash(shard_key) < max_shard_range)
最后一步是DBProxy,这是一个用Go语言编写的自定义PostgreSQL查询代理,它可以解析查询到一个AST,并使用它来决定将查询发送到哪个分片。令人印象深刻的是,它还具有分散聚集机制,因此"select * from table"可以同时发送到所有分片,然后将结果合并在一起。