安装 Hortonworks Docker Sandbox HDP
虚拟机设置:
内存:12G
处理器:4
磁盘:100G
网络适配器:NAT
初始密码:用户(root),密码(hadoop)
ambari登录地址:http://192.168.40.129:8080/
ambari登录密码:用户(admin),密码(admin)
知识
指令:
显示所有的容器:
docker ps
进入 Hortonworks Docker 下的hdp虚拟机:
ssh 172.17.0.2
初始化HDFS集群:
hdfs namenode -format
启动HDFS:
/opt/hadoop/sbin/start-all.sh
启动HDFS后访问50070端口:
http://192.168.40.128:50070
免密:
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
创建存放数据文件的目录:
hdfs dfs -mkdir hdfs://192.168.39.128:8020/data/wordcount/source
将数据上传到HDFS:
hdfs dfs -put /home/hadoop/data/data.txt hdfs://192.168.39.128:8020/data/data.txt
下载到本地:
hdfs dfs -get hdfs://192.168.39.128:8020/data/data.txt /home/hadoop
关闭防火墙:
systemctl stop firewalld
禁用防火墙:
systemctl disable firewalld
配置JDK:
# JAVA_HOME
export JAVA_HOME=/opt/jdk
export PATH=,:$JAVA_HOME/bin:$PATH
export CLASSPATH=,:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
配置Hadoop:
#HADOOP_HOME
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=/opt/hadoop/etc/hadoop
概念:
大数据:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
大数据4V1O特征:大数据量、类型繁多、速度快时效高、价值密度低、数据在线。
大数据固有特征:时效性、不可变性。
分布式计算:将较大的数据分成小的部分进行处理。
传统分布式计算 | 新的分布式计算-Hadoop | |
---|---|---|
计算方式 | 将数据复制到计算节点 | 在不同数据节点并行计算 |
可处理数据量 | 小数据量 | 大数据量 |
CPU性能限制 | 受CPU性能限制较大 | 受单台设备x限制小 |
提升计算能力 | 提升单台机器计算能力 | 扩展低成本服务器集群 |
Hadoop:Hadoop是一个开源分布式系统架构。包括分布式文件系统HDFS(解决大数据存储)、分布式计算框架MapReduce(解决大数据计算)、分布式资源管理系统(YARN)。
Hadoop与关系型数据库对比:
RDBMS | Hadoop | |
---|---|---|
格式 | 写数据时要求 | 读数据时要求 |
速度 | 读数据速度快 | 写数据要求快 |
数据监管 | 标准结构化 | 任意结构数据 |
数据处理 | 有限的处理能力 | 强大的处理能力 |
数据类型 | 结构化数据 | 结构化、半结构化、非结构化 |
Hadoop生态圈:
Hadoop核心
HDFS、MapReduce、YARN
数据查询分析
Hive、Pig、Impala、Presto
协调管理
HCatalog、Zookeeper、Ambari
数据迁移
Sqoop、Flume
Spark、NoSQL、机器学习、任务调度、Flink等
评论