笔记详情

2022-07-05

670

原创

安装 Hortonworks Docker Sandbox HDP

虚拟机设置：
内存：12G
处理器：4
磁盘：100G
网络适配器：NAT
初始密码：用户（root），密码（hadoop）
ambari登录地址：http://192.168.40.129:8080/
ambari登录密码：用户（admin），密码（admin）

知识

指令：
显示所有的容器：

docker ps

进入 Hortonworks Docker 下的hdp虚拟机：

ssh 172.17.0.2

初始化HDFS集群：

hdfs namenode -format

启动HDFS：

/opt/hadoop/sbin/start-all.sh

启动HDFS后访问50070端口：

http://192.168.40.128:50070

免密：

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

创建存放数据文件的目录：

hdfs dfs -mkdir hdfs://192.168.39.128:8020/data/wordcount/source

将数据上传到HDFS：

hdfs dfs -put /home/hadoop/data/data.txt hdfs://192.168.39.128:8020/data/data.txt

下载到本地：

hdfs dfs -get hdfs://192.168.39.128:8020/data/data.txt /home/hadoop

关闭防火墙：

systemctl stop firewalld

禁用防火墙：

systemctl disable firewalld

配置JDK：

# JAVA_HOME
export JAVA_HOME=/opt/jdk
export PATH=,:$JAVA_HOME/bin:$PATH
export CLASSPATH=,:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

配置Hadoop：

#HADOOP_HOME
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=/opt/hadoop/etc/hadoop

概念：
大数据：大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
大数据4V1O特征：大数据量、类型繁多、速度快时效高、价值密度低、数据在线。
大数据固有特征：时效性、不可变性。
分布式计算:将较大的数据分成小的部分进行处理。

	传统分布式计算	新的分布式计算-Hadoop
计算方式	将数据复制到计算节点	在不同数据节点并行计算
可处理数据量	小数据量	大数据量
CPU性能限制	受CPU性能限制较大	受单台设备x限制小
提升计算能力	提升单台机器计算能力	扩展低成本服务器集群

Hadoop：Hadoop是一个开源分布式系统架构。包括分布式文件系统HDFS（解决大数据存储）、分布式计算框架MapReduce（解决大数据计算）、分布式资源管理系统（YARN）。
Hadoop与关系型数据库对比：

	RDBMS	Hadoop
格式	写数据时要求	读数据时要求
速度	读数据速度快	写数据要求快
数据监管	标准结构化	任意结构数据
数据处理	有限的处理能力	强大的处理能力
数据类型	结构化数据	结构化、半结构化、非结构化

Hadoop生态圈：

Hadoop核心

HDFS、MapReduce、YARN

数据查询分析

Hive、Pig、Impala、Presto

协调管理

HCatalog、Zookeeper、Ambari

数据迁移

Sqoop、Flume

Spark、NoSQL、机器学习、任务调度、Flink等

大数据

Hadoop

HDFS

作者：年轻的空指针（联系作者）

发表时间：2022-07-05 14:44

公众号转载：请在文末添加作者公众号二维码

大数据日记 ——> 6_27

评论