1. HBase是什么？有什么特点？¶

优点：

缺点：

2. HBase 逻辑视图¶

Region 表示一张表的数据分片，开始时一张表对应一个Region。但表的数据超过一定阈值时，Region就会发生水平切分，分裂成两个Region
HBase中同一个列族的列存储在相同的文件中称为一个Store，每个Region管理一个或者多个Store
每个Store由一个MemStore和一个或者多个HFile组成
MemStore称为写缓存，用户数据写入时会首先写入到MemStore中。当MemStore超出阈值时，系统会异步将数据flush成一个HFile文件
当HFile过多时，HBase会进行Compact操作。
HFlie中数据以Block的方式存储，同时Region进行分裂时的最小单位也是Block。
HLog是MemStore的写时日志，用来保证Memstore掉电时，数据不会丢失（HLog文件保存在WAL目录中，当Memstor中的数据写成HFile时，过期的HLog文件被写入到oldWAL中）
BlockCache是HBase中的读缓存结构，用户读取一行后根据LRU原则，相邻的行会被缓存到BlockCache中。当用户在此读取数据时，会在MemStore和BlockCache中查找数据，如果未命中再查找HFlie。

Cell中包含：rowKey，列簇名，列命令，操作类型（Type），TimeStamp --> Value

HBase中包含Marjor、Minjor两种压缩过程：

Minjor：当一个Region中某个列族的HFile超过设定数目时，会进行Minjor压缩。Minjor压缩主要为了减少HFile的文件数量，不会进行删除等操作。
Marjor：HBase周期或者手工触发Marjor压缩，此时Region下的所有HFile文件会被重写，过程中会删除过期的row。Marjor压缩会产生巨大的负载。

HMaster 会将该 HRegionServer 所负责的 region 转移到其他 HRegionServer 上，并且会对 HRegionServer 上存在 memstore 中还未持久化到磁盘中的数据进行恢复; 这个恢复的工作是由 WAL重播来完成。

HBase中所有Region的位置信息保存在hbase;meta表中，这张表只有一个Region，并且其位置信息保存在Zookeeper上。

当Client请求数据时，Master会将Region的信息返回，Client会将这些信息缓存到本地，防止频繁访问Master产生压力。

RIT问题是指，HBase上Region的状态不一致，包括：

当Region split、Merge，上线、下线时，如果ZK、HDFS或者HBase Master发生故障，都会导致RIT。当发生RIT时，在HBase 2中由于引入了新的Produce V2机制，很多RIT可以自愈。否则可以使用HBCK工具介入，进行修复。

当Region中某个HStore超过了指定大小时，RS会通知Master进行Split，此时RS会以HFile文件中心Block的Start Rowkey为分界，形成两个新的子Region。当子region生成后，Master将原有的父region下线，并将子region上线。

Split过程是轻量的操作，不会产生大量IO，子Region通过引用的方式，复用父Region的HFlie文件。

Megre操作和Split过程相反，一般当执行删除或者数据Major压缩后，会产生空白Region、小Region，此时用户可以使用命令合并相邻的Region，从而提高HBase的内存利用率。