原创

大数据日记 ——> 6_27

安装 Hortonworks Docker Sandbox HDP

虚拟机设置:
内存:12G
处理器:4
磁盘:100G
网络适配器:NAT
初始密码:用户(root),密码(hadoop)
ambari登录地址:http://192.168.40.129:8080/
ambari登录密码:用户(admin),密码(admin)

知识

指令:
显示所有的容器:

docker ps

进入 Hortonworks Docker 下的hdp虚拟机:

ssh 172.17.0.2

初始化HDFS集群:

hdfs namenode -format

启动HDFS:

/opt/hadoop/sbin/start-all.sh

启动HDFS后访问50070端口:

http://192.168.40.128:50070

免密:

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

创建存放数据文件的目录:

hdfs dfs -mkdir hdfs://192.168.39.128:8020/data/wordcount/source

将数据上传到HDFS:

hdfs dfs -put /home/hadoop/data/data.txt hdfs://192.168.39.128:8020/data/data.txt

下载到本地:

hdfs dfs -get hdfs://192.168.39.128:8020/data/data.txt /home/hadoop

关闭防火墙:

systemctl stop firewalld

禁用防火墙:

systemctl disable firewalld

配置JDK:

# JAVA_HOME
export JAVA_HOME=/opt/jdk
export PATH=,:$JAVA_HOME/bin:$PATH
export CLASSPATH=,:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

配置Hadoop:

#HADOOP_HOME
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=/opt/hadoop/etc/hadoop

概念:
大数据:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
大数据4V1O特征:大数据量、类型繁多、速度快时效高、价值密度低、数据在线。
大数据固有特征:时效性、不可变性。
分布式计算:将较大的数据分成小的部分进行处理。

传统分布式计算新的分布式计算-Hadoop
计算方式将数据复制到计算节点在不同数据节点并行计算
可处理数据量小数据量大数据量
CPU性能限制受CPU性能限制较大受单台设备x限制小
提升计算能力提升单台机器计算能力扩展低成本服务器集群

Hadoop:Hadoop是一个开源分布式系统架构。包括分布式文件系统HDFS(解决大数据存储)、分布式计算框架MapReduce(解决大数据计算)、分布式资源管理系统(YARN)。
Hadoop与关系型数据库对比:

RDBMSHadoop
格式写数据时要求读数据时要求
速度读数据速度快写数据要求快
数据监管标准结构化任意结构数据
数据处理有限的处理能力强大的处理能力
数据类型结构化数据结构化、半结构化、非结构化

Hadoop生态圈:

Hadoop核心

HDFSMapReduceYARN

数据查询分析

Hive、Pig、Impala、Presto

协调管理

HCatalog、Zookeeper、Ambari

数据迁移

SqoopFlume

SparkNoSQL机器学习任务调度Flink

大数据
Hadoop
HDFS
  • 作者:年轻的空指针(联系作者)
  • 发表时间:2022-07-05 14:44
  • 版权声明:严禁商用,转载请注明出处
  • 公众号转载:请在文末添加作者公众号二维码
  • 评论