Ceph-介绍

阅读原文时间：2023年09月01日阅读：2

一、Ceph简介

Ceph是一个统一的分布式存储系统，设计初衷是提供较好的性能、可靠性和可扩展性。

二、Ceph特点

1.高性能
    - 采用CRUSH算法，数据分布均衡，并行度高
    - 容灾:本地、异地
    - 能够支持上千个存储节点的规模，支持TB到PB级的数据
2.高可用
    - 副本数可以灵活控制
    - 多种故障场景自动进行修复自愈
    - 没有单点故障，自动管理
3.高扩展性
    随着节点增加，性能线性增长
4.特性丰富
    支持三种存储接口：对象存储，块设备存储，文件存储

三、Ceph架构

RADOS:对象存储系统(稳定可靠、分布式存储层、复制、支持差错码EC算法)
LIBRDOS:访问RADOS，提供API接口，分别为：RGW、RBD、CEPH FS
RGW:对象存储接口Swift和S3、如：百度网盘、openstack云平台
RBD:块存储接口，如：物理机、虚拟机
CEPH FS:文件系统接口，如：NFS、SMB

四、Ceph组件

mon:监控整个集群的状态,记录映射表关系，找到文件的存储位置；至少需要3个mon。
osd:用来存放数据，一个硬盘对应一个osd
mds:适用于Cephfs

Ceph的核心组件包括Client客户端、MON监控服务、MDS元数据服务、OSD存储服务，各组件功能如下：

Client客户端：负责存储协议的接入，节点负载均衡。
MON监控服务：负责监控整个集群，维护集群的健康状态，维护展示集群状态的各种图表，如OSD Map、Monitor Map、PG Map和CRUSH Map。
MDS元数据服务：负责保存文件系统的元数据，管理目录结构。
OSD存储服务：主要功能是存储数据、复制数据、平衡数据、恢复数据，以及与其它OSD间进行心跳检查等。一般情况下一块硬盘对应一个OSD。

五、Ceph数据的存储过程

Ceph采用crush算法，在大规模集群下，实现数据的快速、准确存放，同时能够在硬件故障或扩展硬件设备时，做到尽可能小的数据迁移，其原理如下：

1.当用户要将数据存储到Ceph集群时，数据先被分割成多个object，(每个object一个object id，大小可设置，默认是4MB），object是Ceph存储的最小存储单元。
2.由于object的数量很多，为了有效减少了Object到OSD的索引表、降低元数据的复杂度，使得写入和读取更加灵活，引入了pg(Placement Group )：PG用来管理object，每个object通过Hash，映射到某个pg中，一个pg可以包含多个object。
3.Pg再通过CRUSH计算，映射到osd中。如果是三副本的，则每个pg都会映射到三个osd，保证了数据的冗余。

首先文件被切片分为多个Objects并以oid标记,通过hash算法和mask掩码得到PGid
引入PG逻辑概念（为了防止oid存储时混乱不好搜索，可以理解为文件夹），并用crush算法生成pgid，通过副本的机制把oid均匀分布给OSD中存储。
副本数至少2-3个

pg_num计算值为：

注意：

最终pg_num的计算结果取接近计算值的2次幂，以提高CRUSH算法效率,减少CPU、内存的消耗。例如：计算值为200时，取256作为结果。pgp_num的值应设置为与pg_num一致。

参数解释：
Target PGs per OSD：预估每个OSD的PG数，一般取100计算。当预估以后集群OSD数不会增加时，取100计算；当预估以后集群OSD数会增加一倍时，取200计算。

OSD ：集群OSD数量。

%Data：预估该pool占该OSD集群总容量的近似百分比。

Size：该pool的副本数。

OSD数目

1-5

5-10

10-50

>50

PG数目

建议128

建议512

建议4096

使用Pgcalc工具

创建pool时需要确定其PG的数目，在pool被创建后也可以调整该数字，PG值有以下影响因素：

数据的持久性：假如pool的size为 3，表明每个PG会将数据存放在3个OSD上。当一个OSD down了后，一定间隔后将开始recovery过程，recovery和需要被恢复的数据的数量有关系，如果该 OSD 上的 PG 过多，则花的时间将越长，风险将越大。
在recovery结束前有部分PG的数据将只有两个副本，如果此时再有一个OSD down了，那么将有一部分PG的数据只有一个副本。recovery 过程继续，如果再出现第三个OSD down了，那么可能会出现部分数据丢失。
可见，每个OSD上的PG数目不宜过大，否则会降低数据的持久性。这也就要求在添加OSD后，PG的数目在需要的时候也需要相应增加。

数据的均匀分布性：CRUSH算法会伪随机地保证PG被选中来存放客户端的数据，它还会尽可能地保证所有的PG均匀分布在所有的OSD上。
比方说，有10个OSD，但是只有一个size为3的pool，它只有一个PG，那么10个 OSD 中将只有三个OSD被用到。但是CURSH算法在计算的时候不会考虑到OSD上已有数据的大小。
比方说，100万个4K对象共4G均匀地分布在10个OSD上的1000个PG内，那么每个OSD上大概有400M 数据。再加进来一个400M的对象，那么有三块OSD上将有400M + 400M = 800M的数据，而其它七块OSD上只有400M数据。

资源消耗：PG作为一个逻辑实体，它需要消耗一定的资源，包括内存、CPU和带宽。太多PG的话，则占用资源会过多。

清理时间：Ceph的清理工作是以PG为单位进行的。如果一个PG内的数据太多，则其清理时间会很长。

手机扫一扫

移动阅读更方便

你可能感兴趣的文章

cephadm快速部署指定版本ceph集群及生产问题处理

物理服务器不重启分配raid

OpenStack-T版+Ceph

Ceph-部署