clickhouse_各个引擎表的特点
阅读原文时间:2023年07月08日阅读:1

去重表:RepalcingMergeTree

1.使用order by排序键作为判断重复数据的唯一键

2.只有在合并分区的时候才会触发删除重复数据的逻辑

3.以数据分区为单位删除重复数据。当分区合并时,同一分区内的重复数据会被删除;不同分区之间的重复数据不会被删除。

4.在进行数据去重时,因为分区内的数据已经基于order by进行了排序,所以能够找到那些相邻的重复数据

5.数据去重策略有两种:

如果没有设备ver版本号,则保留同一组重复数据中的最后一行

如果设置了ver版本号,则保留同一组重复数据中ver字段取值最大的那一行

-------------------------------------------------------------------------------------

求和表:SummingMergeTree

1.用order by排序键作为聚合数据的条件key

2.只有在合并分区的时候才会触发汇总的逻辑

3.以数据分区为单位来聚合数据。当分区合并时,同一数据分区内聚合key相同的数据会被合并汇总,而不同分区之间的数据则不会被汇总

4.如果在定义引擎时指定了columns汇总列(非主键的数值类型字段),则SUM汇总这些列字段;如果未指定,则聚合所有非主键的数值类型字段

5.在进行数据汇总时,因为分区内的数据已经基于order by 排序,所以能够找到相邻且拥有相同聚合key的数据。

6.在汇总数据时,同一分区内,相同聚合key的多行数据会合并成一行。其中,汇总字段会进行sum计算,对于那些非汇总字段,则会使用第一行数据的取值。

7.支持嵌套结构,但列字段名称必须以map后缀结尾。嵌套类型中,默认以第一个字段作为聚合key。除第一个字段以外,任何名称以key、id或type为后缀结尾的字段,都将和第一个字段一起组成复合key。

-------------------------------------------------------------------------------------

聚合表AggregatingMergeTree

1.用order by排序键作为聚合数据的条件key

2.使用AggregateFunction字段类型定义聚合函数的类型以及聚合的字段

3.只有在合并分区的时候才会触发聚合计算的逻辑

4.以数据分区为单位来聚合数据。当分区合并时,同一数据分区内聚合key相同的数据会被合并计算,而不同分区之间的数据则不会被计算

5.在进行数据计算时,因为分区内的数据已经基于order by排序,所以能够找到那些相邻且拥有相同聚合key的数据

6.在聚合数据时,同一分区内,相同聚合key的多行数据会合并成一行。对于那些非主键、非AggregateFunction类型字段,则会使用第一行数据的取值。

7.AggregatingMergeTree类型的字段使用二进制存储,在写入数据时,需要调用*State函数;而在查询数据时,则需要调用相应的*Merge函数。其中,*表示定义时使用的聚合函数。

8.AggregatingMergeTree通常作为物化视图的表引擎,与普通MergeTree搭配使用