Skip to content

大数据体系及技术框架

大数据学习目录

大数据安全

Apache Knox Apache Ranger

风险

[[Apache slor未授权漏洞利用]] [[Apache Spark 命令注入漏洞(CVE-2022-33891)]] TDH大数据平台漏洞[[k8s apiservice未授权问题#利用容器-kerberos的进一步利用]] [[yarn未授权脚本]]

计算框架

0-安装部署 1-API学习 Dataflow编程模型

Spark

常用Tips Spark调优笔记 spark任务共性问题

Storm

监控告警

020-bigdata/监控告警/0-Prometheus 020-bigdata/监控告警/1-Prometheus 020-bigdata/监控告警/2-Prometheus

其它组件

Alluxio

Alluxio

Azkaban

Centos7安装azkaban

Cloudera

手动安装CDH6.1.md CDH构建大数据平台-使用自建的镜像地址安装Cloudera Manager

ES

Elasticsearch 架构原理 Elasticsearch监控及导数工具 ES总览

Flume

Apache Flume

Glusterfs

源码安装gluster Docker插件

kafka

副本机制 Kafka高级特性 Offset信息保存

Kerberos

安全问题FAQ kafka安全相关 SASL Spark任务 ZK安全相关

Oozie

Sentry

参考文档

Waterdrop

Waterdrop

数据仓库

其它工具

MyCat-介绍 Mysql-Galera sysbench

数据库相关知识

B+树和数据库索引

ClickHouse

ClickHouse-1 ClickHouse-2 ClickHouse-3

Greenplum

Greenplum-资源队列 Greenplum-数据字典 Greenplum-常用命令 Greenplum-导入导出 Greenplum-历史拉链表 Greenplum-分区表介绍 Greenplum-介绍&部署 Greenplum-pxf使用 Greenplum-性能相关的知识 Greenplum-分布式数据架构介绍 Greenplum-pivotal发行版 Greenplum-TPCDS测试

HBase

1-安装&使用 2-架构 3-spark读写Hbase 4-协处理器 5-高级使用场景 6-性能调优 7-数据量评估 8-HBase安全相关 9-hbase运维工具 10-二级索引方案 020-bigdata/数据仓库/HBase/HBase

Hive

1-MetaStore 2-计算引擎 3-使用HIVE 4-Hive安全相关 99-常见问题 Hive

Impala

1-impala安全相关 2-impala-jdbc Impala

LevelDB

Postgresql

Postgresql-安装介绍 Postgresql-pgpool中间件

Redis

Centos7部署Redis6.0-cluster集群模式 Redis_Sentinel

SequoiaDB

SequoiaDB

Solr

1-认证 2-授权 Solr学习笔记

TiDB

TiDB

运维笔记

面试题 运维FAQ Cloudera TLS OMC数据存储

Hadoop

HDFS

性能测试

hdfs的块检查

Yarn

Yarn的磁盘管理 yarn学习.pdf Hadoop Ceph 020-bigdata/Hadoop/HBase 前置知识-大数据存储组件之间的关系