数据科学&&大数据系统平台环境配置

博主： Jiale
发布时间：2025 年 09 月 04 日
221 次浏览
2 条评论
8932字数
分类：计算机基础环境配置

前言

需特别说明的是，作者已将所有步骤清晰罗列，已确定环境配置步骤无任何缺失，烦请各位投入精力认真核对每一步，避免因疏忽遗漏重要信息。😡

Linux相关命令

pwd 查看当前位置
cd (Change Directory) 改变目录
mkdir 在当前目录下创建子目录 (也可以用全目录创建) 连续创建子目录 mkdir -p /home/a//b/c/d/e/f/g
ls 当前目录下有哪些子目录
绝对路径(完整)
/home/sd24/sd241
相对路径当前位置的子目录
cd .. 返回上一级目录
rm 文件名删除文件
rm -r 目录名删除目录
rm -rf 目录名删除目录及子目录文件
vi 若文件存在就编辑若文件不存在就新建并编辑
"i" 键编辑
"ESC" 退出编辑
":wq" 保存内容
":q" quit
":q!" 强制退出
"cat f1.txt" 只看内容

虚拟机集群设置

更改主机名
/etc/hostname 全部删掉新增主机名，如master
/etc/sysconfig/network
新增
NETWORKING = yes
HOSTNAME = master
随后
reboot 重启
修改网络以便以ping 域名
/etc/sysconfig/network-scripts/ifcfg-ens33
改 BOOTPROTO=static
ONBOOT=yes
加 IPADDR=192.168.222.171
GATEWAY=192.168.222.2
NETMASK =255.255.255.0
DNS1=192.168.222.2
DNS2=8.8.8.8
保存 service network restart
Linux网络配置
在VMware的最顶上的编辑菜单选择【虚拟网络编辑器】-->删掉所有-->添加VMnet8 NAT模式-->选择VMnet信息【NAT模式】-->最底下子网IP改为192.168.222.0-->点击应用
IP与子网掩码做按位与运算得到子网号
修改时区
tzselect
Asia China Beijing
vi /etc/profile 复制那句话粘贴至该文件中
source /etc/profile
硬件时间向本地时间看齐
hwclock --localtime
安装阿里源
sudo curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo
sudo yum clean all
sudo yum makecache
yum -y install ntp
vi /etc/hosts
192.168.222.171 master
192.168.222.172 masterbak
192.168.222.173 slave1
192.168.222.174 slave2
master做为ntp服务器修改ntp配置文件
vi /etc/ntp.conf
末尾追加：
server 127.127.1.0
fudge 127.127.1.0 stratum 10
重启时间服务
systemctl restart ntpd
关闭防火墙
systemctl stop firewalld
只需要主服务器配置（时间服务器）
从服务器不需要配置
在子服务器里输入对准matser的时间
ntpdate master
SSH 免密集群登录
scp 远程拷贝会覆盖同名文件
scp 文件名+拓展名 root@slave1:/home
拷过去的时候更改名字 scp 文件名+拓展名 root@slave1:/home/新名字 (slave2 masterbak同理)
每台虚拟机都生成ssh-keygen -t dsa
cd /root/.ssh
将slave1 2 的公钥给master打成包（公钥：锁 || 私钥：钥匙） (slave1 masterbak同理)
scp id_dsa.pub root@master:/root/.ssh/s2.pub
cat id_dsa.pub s1.pub s2.pub mb.pub >>authorized_keys
将打包后的文件给slave1 2 masterbak
scp authorized_keys root@slave1:/root/.ssh (slave2 masterbak同理)

JDK安装

mkdir /usr/java
tar -zxvf jdk......(使用tab补全) -C /usr/java
vi /etc/profile
```
export JAVA_HOME=/usr/java/jdk1.8.0_171  
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib
```
注意：在配置完之后输入source /etc/profile重置配置文件
输入下面指令分别拷贝至其他虚拟机
scp -r /usr/java root@masterbak:/usr

Zookeeper配置

mkdir /usr/zookeeper
上传文件后
tar -zxvf zookeeper(按tab补全).... -C /usr/zookeeper
cd /usr/zookeeper
cd zookeeper-3.4.10(按tab补全)
cd conf
cp zoo_sample.cfg zoo.cfg
vi zoo.cfg
改 dataDir=/usr/zookeeper/zookeeper-3.4.10/zkdata
dataLogdir=/usr/zookeeper/zookeeper-3.4.10/zklogdata

server.1=192.168.222.171:2888:3888
server.2=192.168.222.172:2888:3888
server.3=192.168.222.173:2888:3888
server.4=192.168.222.174:2888:3888

cd /usr/zookeeper/zookeeper-3.4.10
mkdir zkdata
mkdir zklogdata
cd zkdata
在zkdata中创建myid 分别写入1 2 3 4
scp -r /usr/zookeeper/ root@masterbak:/usr （slave1 slave2同理）

记得修改每个虚拟机的myid 1 2 3 4
cd /usr/zookeeper/zookeeper-3.4.10/zkdata
vi myid
关防火墙 systemctl stop firewalld
在安装目录下(cd /usr/zookeeper/zookeeper-3.4.10)
输入bin/zkServer.sh start
根据投票原理 bin/zkServer.sh status 查看状态

Hadoop集群安装流程

cd /opt 上传文件
mkdir /usr/hadoop
tar -zxvf hadoop(按tab补全).... -C /usr/hadoop
vi /etc/profile 新增

export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin
export CLASSPATH=.:$HADOOP_HOME/lib

source /etc/profile 刷新
scp -r /usr/hadoop/ root@masterbak:/usr (slave1 slave2同理)

1.
在hadoop文件下下面进行
cd /usr/hadoop/hadoop-2.7.3/
2.
配置hadoop-env.sh
cd etc/hadoop
vi hadoop-env.sh
只修改JAVA_HOME这一行
export JAVA_HOME=/usr/java/jdk1.8.0_171
3.
配置core-site.xml
vi core-site.xml
在

<configuration>
</configuration>

之间添加下列内容

<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop/hadoop-2.7.3/hdfs/tmp</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>fs.checkpoint.period</name>
<value>60</value>
</property>
<property>
<name>fs.checkpoint.size</name>
<value>67108864</value>
</property>

4.
配置yarn-site.xml
在

<configuration>
</configuration>

之间添加下列内容

<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>     
<name>yarn.resourcemanager.address</name>
<value>master:18040</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:18030</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:18088</value>
</property>
<property>
<name>yarn.resourcemanager-tracker.address</name>
<value>master:18025</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:18141</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>

5.
vi slaves
删掉里面的localhost
添加：
slave1
slave2
masterbak

vi master
添加：
master

6.
配置hdfs-site.xml
在

<configuration>
</configuration>

之间添加下列内容

<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/hadoop/hadoop-2.7.3/hdfs/name</value>
<final>true</final>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/hadoop/hadoop-2.7.3/hdfs/data</value>
<final>true</final>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>

7.
cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml
在

<configuration>
</configuration>

之间添加下列内容

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

8.
分发给其他虚拟机
scp -r /usr/hadoop root@slave1:/usr
scp -r /usr/hadoop root@slave2:/usr
scp -r /usr/hadoop root@masterbak:/usr
9.
只在master下做格式化namenode操作:
cd /usr/hadoop/hadoop-2.7.3/
hadoop namenode –format
输入jps可查看所有Java进程，当每一台虚拟机输入jps都能有正确反馈时 hadoop已经安装成功

Hadoop文件系统相关命令

1.
hadoop fs -ls /
列出hdfs文件系统根目录下的目录和文件
hadoop fs -ls -R /
列出hdfs文件系统所有的目录和文件
2.
put
hadoop fs -put < local file > < hdfs file >
hdfs file的父目录一定要存在，否则命令不会执行
hadoop fs -put < local file or dir >...< hdfs dir >
hdfs dir 一定要存在，否则命令不会执行
3.
get
hadoop fs -get < hdfs file > < local file or dir>
local file不能和 hdfs file名字不能相同，否则会提示文件已存在，没有重名的文件会复制到本地
hadoop fs -get < hdfs file or dir > ... < local dir >
4.
rm
hadoop fs -rm < hdfs file > ...
hadoop fs -rm -r < hdfs dir>...
每次可以删除多个文件或目录
5.
mkdir
hadoop fs -mkdir < hdfs path>
只能一级一级的建目录，父目录不存在的话使用这个命令会报错
hadoop fs -mkdir -p < hdfs path>
6.
cp
hadoop fs -cp < hdfs file > < hdfs file >
目标文件不能存在，否则命令不能执行，相当于给文件重命名并保存，源文件还存在
hadoop fs -cp < hdfs file or dir >... < hdfs dir >
7.
text
hadoop fs -text < hdfs file>
将文本文件或某些格式的非文本文件通过文本格式输出

Hadoop进行实战输出单词计数Wordout

现在本地创建一个文件，里头有多个单词
hadoop fs -mkdir /myin #fs方式创建文件夹
hadoop fs -put ./input/test.txt /myin #把本地test.txt传到集群
hadoop fs -ls /myin #查看input目录结构
hadoop jar/usr/hadoop/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /myin /myout #运行wordcount
hadoop fs -ls /myout #查看结果，跟本地结果一致
hadoop fs -cat /myout/part-r-00000
hadoop fs -get /myout/part-r-00000 /home #通过get命令，把文件下载到本地

HIVE配置流程

systemctl stop firewalld
在slave2的opt里上传文件mysql57-community-release-el7-8.noarch.rpm
cd /opt
rpm -ivh mysql57-community-release-el7-8.noarch.rpm
打补丁
rpm --import https://repo.mysql.com/RPM-GPG-KEY-mysql-2022
yum -y install mysql-community-server

重载文件systemctl daemon-reload
启动MySQL systemctl start mysqld
查密码 grep "password" /var/log/mysqld.log
进入mysql mysql -uroot -p
改密码规则：
show variables like 'validate_password';
set global validate_password_policy=0;
set global validate_password_mixed_case_count=0;
set global validate_password_number_count=3;
set global validate_password_special_char_count=0;
set global validate_password_length=1;

create user 'root'@'%' identified by'123456';
GRANT ALL PRIVILEGES ON . TO 'root'@'%' WITH GRANT OPTION;
flush privileges;

在slave1安装HIVE
将hive2.1.1传到slave1:/opt
mkdir /usr/hive
tar -zxvf apache-hive-2.1.1-bin.tar.gz -C /usr/hive
vi /etc/profile

export HIVE_HOME=/usr/hive/apache-hive-2.1.1-bin
export PATH=$PATH:$HIVE_HOME/bin

source /etc/profile

将mysql-connector-java-5.1.39-bin.jar拷贝到slave1:/usr/hive/apache-hive-2.1.1-bin/lib
在slave1： cd /usr/hive/apache-hive-2.1.1-bin/
cd conf
cp hive-env.sh.template hive-env.sh
vi hive-env.sh
修改

# Set HADOOP_HOME to point to a specific hadoop
HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
cp hive-default.xml.template hive-site.xml
vi hive-site.xml

<property>
    <name>hive.metastore.warehouse.dir</name>  
    <value>/warehousedir/home</value>  
</property> 
<property>
  <name>javax.jdo.option.ConnectionURL</name>
  <value>jdbc:mysql://slave2:3306/hive?createDatabaseIfNotExist=true&amp;useSSL=false</value>
</property>
<property>
  <name>javax.jdo.option.ConnectionDriverName</name>
  <value>com.mysql.jdbc.Driver</value>
</property>
<property>
  <name>javax.jdo.option.ConnectionUserName</name>
  <value>root</value>
</property>
<property>
  <name>javax.jdo.option.ConnectionPassword</name>
  <value>123456</value>
</property>
<property>
  <name>hive.metastore.schema.verification</name>
  <value>false</value>
</property>
<property>
  <name>datanucleus.schema.autoCreateAll</name>
  <value>true</value>
</property>

<property>
    <name>hive.exec.scratchdir</name>
    <value>/tmp/hive</value>
  </property>

  <property>
    <name>hive.exec.local.scratchdir</name>
    <value>/tmp/hive/local</value>
  </property>

  <property>
    <name>hive.downloaded.resources.dir</name>
    <value>/tmp/hive/resources</value>
  </property>

先启动HADOOP(master)
在slave1上启动hive服务
cd /usr/hive/apache-hive-2.1.1-bin/输入hive
即可启动HIVE

最后修改：2025 年 10 月 02 日

如果觉得我的文章对你有用，请随意赞赏

2 条评论

Jiale
September 9th, 2025 at 03:08 pm

由于Markdown格式问题 JDK环境配置应该为：
export JAVA_HOME=/usr/java/jdk1.8.0_171
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib

回复
1. Jiale
  September 21st, 2025 at 10:51 pm
  
  @Jiale
  
  最新的已用代码块包裹，以最新的文章内容为准ヾ(≧∇≦*)ゝ
  
  回复

发表评论取消回复
快留下你的评论吧ヾ(◍°∇°◍)ﾉﾞ

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

数据科学&&大数据系统平台环境配置

Jiale • 2025 年 09 月 04 日

<h1>前言</h1>需特别说明的是，作者已将所有步骤清晰罗列，已确定环境配置步骤无任何缺失，烦请各位投入精力认真核对每一步，避免因疏忽遗漏重要信息。😡<h1>Linux相关命令</h1><ol><li>pwd 查看当前位置</li><li>cd (Change Directory) 改变目录</li><li>mkdir 在当前目录下创建子目录 (也可以用全目录创建) 连续创建子目录 mkdir -p /home/a//b/c/d/e/f/g</li><li>ls 当前目录下有哪些子目录</li><li>绝对路径(完整) /home/sd24/sd241 相对路径 当前位置的子目录</li><li>cd .. 返回上一级目录</li><li>rm 文件名 删除文件 rm -r 目录名 删除目录 rm -rf 目录名 删除目录及子目录文件</li><li>vi 若文件存在就编辑 若文件不存在就新建并编辑 "i" 键编辑 "ESC" 退出编辑 ":wq" 保存内容 ":q" quit ":q!" 强制退出 "cat f1.txt" 只看内容</li></ol><h1>虚拟机集群设置</h1><ol><li>更改主机名 /etc/hostname 全部删掉新增主机名，如master /etc/sysconfig/network 新增 NETWORKING = yes HOSTNAME = master 随后 reboot 重启</li><li>修改网络以便以ping 域名 /etc/sysconfig/network-scripts/ifcfg-ens33 改 BOOTPROTO=static ONBOOT=yes 加 IPADDR=192.168.222.171 GATEWAY=192.168.222.2 NETMASK =255.255.255.0 DNS1=192.168.222.2 DNS2=8.8.8.8 保存 service network restart</li><li>Linux网络配置 在VMware的最顶上的编辑菜单选择【虚拟网络编辑器】--&gt;删掉所有--&gt;添加VMnet8 NAT模式--&gt;选择VMnet信息【NAT模式】--&gt;最底下子网IP改为192.168.222.0--&gt;点击应用 IP与子网掩码做按位与运算得到子网号</li><li>修改时区 tzselect Asia China Beijing vi /etc/profile 复制那句话粘贴至该文件中 source /etc/profile 硬件时间向本地时间看齐 hwclock --localtime</li><li>安装阿里源 sudo curl -o /etc/yum.repos.d/CentOS-Base.repo <a class="no-external-link" href="http://mirrors.aliyun.com/repo/Centos-7.repo" target="_blank">http://mirrors.aliyun.com/repo/Centos-7.repo</a> sudo yum clean all sudo yum makecache yum -y install ntp</li><li>vi /etc/hosts 192.168.222.171 master 192.168.222.172 masterbak 192.168.222.173 slave1 192.168.222.174 slave2</li><li>master做为ntp服务器 修改ntp配置文件 vi /etc/ntp.conf 末尾追加： server 127.127.1.0 fudge 127.127.1.0 stratum 10 重启时间服务 systemctl restart ntpd 关闭防火墙 systemctl stop firewalld 只需要主服务器配置 （时间服务器） 从服务器不需要配置</li><li>在子服务器里输入 对准matser的时间 ntpdate master</li><li>SSH 免密集群登录 scp 远程拷贝 会覆盖同名文件 scp 文件名+拓展名 root@slave1:/home 拷过去的时候更改名字 scp 文件名+拓展名 root@slave1:/home/新名字 (slave2 masterbak同理) 每台虚拟机都生成ssh-keygen -t dsa cd /root/.ssh 将slave1 2 的公钥给master打成包（公钥：锁 || 私钥：钥匙） (slave1 masterbak同理) scp id_dsa.pub root@master:/root/.ssh/s2.pub cat id_dsa.pub s1.pub s2.pub mb.pub &gt;&gt;authorized_keys 将打包后的文件给slave1 2 masterbak scp authorized_keys root@slave1:/root/.ssh (slave2 masterbak同理)</li></ol><h1>JDK安装</h1><ol><li>mkdir /usr/java tar -zxvf jdk......(使用tab补全) -C /usr/java vi /etc/profile<pre><code class="lang-java">export JAVA_HOME=/usr/java/jdk1.8.0_171 
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib</code></pre>注意：在配置完之后输入source /etc/profile重置配置文件 输入下面指令分别拷贝至其他虚拟机 scp -r /usr/java root@masterbak:/usr</li></ol><h1>Zookeeper配置</h1>mkdir /usr/zookeeper 上传文件后 tar -zxvf zookeeper(按tab补全).... -C /usr/zookeeper cd /usr/zookeeper cd zookeeper-3.4.10(按tab补全) cd conf cp zoo_sample.cfg zoo.cfg vi zoo.cfg 改 dataDir=/usr/zookeeper/zookeeper-3.4.10/zkdata dataLogdir=/usr/zookeeper/zookeeper-3.4.10/zklogdataserver.1=192.168.222.171:2888:3888 server.2=192.168.222.172:2888:3888 server.3=192.168.222.173:2888:3888 server.4=192.168.222.174:2888:3888cd /usr/zookeeper/zookeeper-3.4.10 mkdir zkdata mkdir zklogdata cd zkdata 在zkdata中创建myid 分别写入1 2 3 4 scp -r /usr/zookeeper/ root@masterbak:/usr （slave1 slave2同理）记得修改每个虚拟机的myid 1 2 3 4 cd /usr/zookeeper/zookeeper-3.4.10/zkdata vi myid 关防火墙 systemctl stop firewalld 在安装目录下(cd /usr/zookeeper/zookeeper-3.4.10) 输入bin/zkServer.sh start 根据投票原理 bin/zkServer.sh status 查看状态<h1>Hadoop集群安装流程</h1>cd /opt 上传文件 mkdir /usr/hadoop tar -zxvf hadoop(按tab补全).... -C /usr/hadoop vi /etc/profile 新增<pre><code class="lang-java">export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin
export CLASSPATH=.:$HADOOP_HOME/lib </code></pre>source /etc/profile 刷新 scp -r /usr/hadoop/ root@masterbak:/usr (slave1 slave2同理)1. 在hadoop文件下下面进行 cd /usr/hadoop/hadoop-2.7.3/ 2. 配置hadoop-env.sh cd etc/hadoop vi hadoop-env.sh 只修改JAVA_HOME这一行 export JAVA_HOME=/usr/java/jdk1.8.0_171 3. 配置core-site.xml vi core-site.xml 在<pre><code class="lang-java">&lt;configuration&gt;
&lt;/configuration&gt;</code></pre>之间添加下列内容<pre><code class="lang-java">&lt;property&gt;
&lt;name&gt;fs.default.name&lt;/name&gt;
&lt;value&gt;hdfs://master:9000&lt;/value&gt;
&lt;/property&gt;
&lt;property&gt;
&lt;name&gt;hadoop.tmp.dir&lt;/name&gt;
&lt;value&gt;/usr/hadoop/hadoop-2.7.3/hdfs/tmp&lt;/value&gt;
&lt;/property&gt;
&lt;property&gt;
&lt;name&gt;io.file.buffer.size&lt;/name&gt;
&lt;value&gt;131072&lt;/value&gt;
&lt;/property&gt;
&lt;property&gt;
&lt;name&gt;fs.checkpoint.period&lt;/name&gt;
&lt;value&gt;60&lt;/value&gt;
&lt;/property&gt;
&lt;property&gt;
&lt;name&gt;fs.checkpoint.size&lt;/name&gt;
&lt;value&gt;67108864&lt;/value&gt;
&lt;/property&gt;</code></pre>4. 配置yarn-site.xml 在<pre><code class="lang-java">&lt;configuration&gt;
&lt;/configuration&gt;</code></pre>之间添加下列内容<pre><code class="lang-java">&lt;property&gt;
&lt;name&gt;yarn.resourcemanager.hostname&lt;/name&gt;
&lt;value&gt;master&lt;/value&gt;
&lt;/property&gt;
&lt;property&gt; 
&lt;name&gt;yarn.resourcemanager.address&lt;/name&gt;
&lt;value&gt;master:18040&lt;/value&gt;
&lt;/property&gt;
&lt;property&gt;
&lt;name&gt;yarn.resourcemanager.scheduler.address&lt;/name&gt;
&lt;value&gt;master:18030&lt;/value&gt;
&lt;/property&gt;
&lt;property&gt;
&lt;name&gt;yarn.resourcemanager.webapp.address&lt;/name&gt;
&lt;value&gt;master:18088&lt;/value&gt;
&lt;/property&gt;
&lt;property&gt;
&lt;name&gt;yarn.resourcemanager-tracker.address&lt;/name&gt;
&lt;value&gt;master:18025&lt;/value&gt;
&lt;/property&gt;
&lt;property&gt;
&lt;name&gt;yarn.resourcemanager.admin.address&lt;/name&gt;
&lt;value&gt;master:18141&lt;/value&gt;
&lt;/property&gt;
&lt;property&gt;
&lt;name&gt;yarn.nodemanager.aux-services&lt;/name&gt;
&lt;value&gt;mapreduce_shuffle&lt;/value&gt;
&lt;/property&gt;
&lt;property&gt;
&lt;name&gt;yarn.nodemanager.auxservices.mapreduce.shuffle.class&lt;/name&gt;
&lt;value&gt;org.apache.hadoop.mapred.ShuffleHandler&lt;/value&gt;
&lt;/property&gt;</code></pre>5. vi slaves 删掉里面的localhost 添加： slave1 slave2 masterbakvi master 添加： master6. 配置hdfs-site.xml 在<pre><code class="lang-java">&lt;configuration&gt;
&lt;/configuration&gt;</code></pre>之间添加下列内容<pre><code class="lang-java">&lt;property&gt;
&lt;name&gt;dfs.replication&lt;/name&gt;
&lt;value&gt;2&lt;/value&gt;
&lt;/property&gt;
&lt;property&gt;
&lt;name&gt;dfs.namenode.name.dir&lt;/name&gt;
&lt;value&gt;file:/usr/hadoop/hadoop-2.7.3/hdfs/name&lt;/value&gt;
&lt;final&gt;true&lt;/final&gt;
&lt;/property&gt;
&lt;property&gt;
&lt;name&gt;dfs.datanode.data.dir&lt;/name&gt;
&lt;value&gt;file:/usr/hadoop/hadoop-2.7.3/hdfs/data&lt;/value&gt;
&lt;final&gt;true&lt;/final&gt;
&lt;/property&gt;
&lt;property&gt;
&lt;name&gt;dfs.namenode.secondary.http-address&lt;/name&gt;
&lt;value&gt;master:9001&lt;/value&gt;
&lt;/property&gt;
&lt;property&gt;
&lt;name&gt;dfs.webhdfs.enabled&lt;/name&gt;
&lt;value&gt;true&lt;/value&gt;
&lt;/property&gt;
&lt;property&gt;
&lt;name&gt;dfs.permissions&lt;/name&gt;
&lt;value&gt;false&lt;/value&gt;
&lt;/property&gt;</code></pre>7. cp mapred-site.xml.template mapred-site.xml vi mapred-site.xml 在<pre><code class="lang-java">&lt;configuration&gt;
&lt;/configuration&gt;</code></pre>之间添加下列内容<pre><code class="lang-java">&lt;property&gt;
&lt;name&gt;mapreduce.framework.name&lt;/name&gt;
&lt;value&gt;yarn&lt;/value&gt;
&lt;/property&gt;</code></pre>8. 分发给其他虚拟机 scp -r /usr/hadoop root@slave1:/usr scp -r /usr/hadoop root@slave2:/usr scp -r /usr/hadoop root@masterbak:/usr 9. 只在master下做格式化namenode操作: cd /usr/hadoop/hadoop-2.7.3/ hadoop namenode –format 输入jps可查看所有Java进程，当每一台虚拟机输入jps都能有正确反馈时 hadoop已经安装成功<h1>Hadoop文件系统相关命令</h1>1. hadoop fs -ls / 列出hdfs文件系统根目录下的目录和文件 hadoop fs -ls -R / 列出hdfs文件系统所有的目录和文件 2. put hadoop fs -put &lt; local file &gt; &lt; hdfs file &gt; hdfs file的父目录一定要存在，否则命令不会执行 hadoop fs -put &lt; local file or dir &gt;...&lt; hdfs dir &gt; hdfs dir 一定要存在，否则命令不会执行 3. get hadoop fs -get &lt; hdfs file &gt; &lt; local file or dir&gt; local file不能和 hdfs file名字不能相同，否则会提示文件已存在，没有重名的文件会复制到本地 hadoop fs -get &lt; hdfs file or dir &gt; ... &lt; local dir &gt; 4. rm hadoop fs -rm &lt; hdfs file &gt; ... hadoop fs -rm -r &lt; hdfs dir&gt;... 每次可以删除多个文件或目录 5. mkdir hadoop fs -mkdir &lt; hdfs path&gt; 只能一级一级的建目录，父目录不存在的话使用这个命令会报错 hadoop fs -mkdir -p &lt; hdfs path&gt; 6. cp hadoop fs -cp &lt; hdfs file &gt; &lt; hdfs file &gt; 目标文件不能存在，否则命令不能执行，相当于给文件重命名并保存，源文件还存在 hadoop fs -cp &lt; hdfs file or dir &gt;... &lt; hdfs dir &gt; 7. text hadoop fs -text &lt; hdfs file&gt; 将文本文件或某些格式的非文本文件通过文本格式输出<h1>Hadoop进行实战输出单词计数Wordout</h1>现在本地创建一个文件，里头有多个单词 hadoop fs -mkdir /myin #fs方式创建文件夹 hadoop fs -put ./input/test.txt /myin #把本地test.txt传到集群 hadoop fs -ls /myin #查看input目录结构 hadoop jar/usr/hadoop/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /myin /myout #运行wordcount hadoop fs -ls /myout #查看结果，跟本地结果一致 hadoop fs -cat /myout/part-r-00000 hadoop fs -get /myout/part-r-00000 /home #通过get命令，把文件下载到本地<h1>HIVE配置流程</h1>systemctl stop firewalld 在slave2的opt里上传文件mysql57-community-release-el7-8.noarch.rpm cd /opt rpm -ivh mysql57-community-release-el7-8.noarch.rpm 打补丁 rpm --import <a class="no-external-link" href="https://repo.mysql.com/RPM-GPG-KEY-mysql-2022" target="_blank">https://repo.mysql.com/RPM-GPG-KEY-mysql-2022</a> yum -y install mysql-community-server重载文件systemctl daemon-reload 启动MySQL systemctl start mysqld 查密码 grep "password" /var/log/mysqld.log 进入mysql mysql -uroot -p 改密码规则： show variables like 'validate_password'; set global validate_password_policy=0; set global validate_password_mixed_case_count=0; set global validate_password_number_count=3; set global validate_password_special_char_count=0; set global validate_password_length=1;create user 'root'@'%' identified by'123456'; GRANT ALL PRIVILEGES ON . TO 'root'@'%' WITH GRANT OPTION; flush privileges;在slave1安装HIVE 将hive2.1.1传到slave1:/opt mkdir /usr/hive tar -zxvf apache-hive-2.1.1-bin.tar.gz -C /usr/hive vi /etc/profile<pre><code class="lang-java">export HIVE_HOME=/usr/hive/apache-hive-2.1.1-bin
export PATH=$PATH:$HIVE_HOME/bin</code></pre>source /etc/profile将mysql-connector-java-5.1.39-bin.jar拷贝到slave1:/usr/hive/apache-hive-2.1.1-bin/lib 在slave1： cd /usr/hive/apache-hive-2.1.1-bin/ cd conf cp hive-env.sh.template hive-env.sh vi hive-env.sh 修改<pre><code class="lang-java"># Set HADOOP_HOME to point to a specific hadoop
HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
cp hive-default.xml.template hive-site.xml
vi hive-site.xml</code></pre><pre><code class="lang-java">&lt;property&gt;
 &lt;name&gt;hive.metastore.warehouse.dir&lt;/name&gt; 
 &lt;value&gt;/warehousedir/home&lt;/value&gt; 
&lt;/property&gt; 
&lt;property&gt;
 &lt;name&gt;javax.jdo.option.ConnectionURL&lt;/name&gt;
 &lt;value&gt;jdbc:mysql://slave2:3306/hive?createDatabaseIfNotExist=true&amp;amp;useSSL=false&lt;/value&gt;
&lt;/property&gt;
&lt;property&gt;
 &lt;name&gt;javax.jdo.option.ConnectionDriverName&lt;/name&gt;
 &lt;value&gt;com.mysql.jdbc.Driver&lt;/value&gt;
&lt;/property&gt;
&lt;property&gt;
 &lt;name&gt;javax.jdo.option.ConnectionUserName&lt;/name&gt;
 &lt;value&gt;root&lt;/value&gt;
&lt;/property&gt;
&lt;property&gt;
 &lt;name&gt;javax.jdo.option.ConnectionPassword&lt;/name&gt;
 &lt;value&gt;123456&lt;/value&gt;
&lt;/property&gt;
&lt;property&gt;
 &lt;name&gt;hive.metastore.schema.verification&lt;/name&gt;
 &lt;value&gt;false&lt;/value&gt;
&lt;/property&gt;
&lt;property&gt;
 &lt;name&gt;datanucleus.schema.autoCreateAll&lt;/name&gt;
 &lt;value&gt;true&lt;/value&gt;
&lt;/property&gt;

&lt;property&gt;
    &lt;name&gt;hive.exec.scratchdir&lt;/name&gt;
    &lt;value&gt;/tmp/hive&lt;/value&gt;
  &lt;/property&gt;

&lt;property&gt;
    &lt;name&gt;hive.exec.local.scratchdir&lt;/name&gt;
    &lt;value&gt;/tmp/hive/local&lt;/value&gt;
  &lt;/property&gt;

&lt;property&gt;
 &lt;name&gt;hive.downloaded.resources.dir&lt;/name&gt;
 &lt;value&gt;/tmp/hive/resources&lt;/value&gt;
 &lt;/property&gt;</code></pre>先启动HADOOP(master) 在slave1上启动hive服务 cd /usr/hive/apache-hive-2.1.1-bin/输入hive 即可启动HIVE

数据科学&&大数据系统平台环境配置

前言

Linux相关命令

虚拟机集群设置

JDK安装

Zookeeper配置

Hadoop集群安装流程

Hadoop文件系统相关命令

Hadoop进行实战输出单词计数Wordout

HIVE配置流程

2 条评论

发表评论取消回复
快留下你的评论吧ヾ(◍°∇°◍)ﾉﾞ

C++程序设计基础第十二章（更新中ing）

C++程序设计基础第四章

C++程序设计基础第一章

C++程序设计基础第八章

数据库系统概论

数据结构第二章：算法分析

数据结构第三章：线性表（更新中）

C++程序设计基础第四章

C++程序设计特别篇

C++程序设计基础第十二章（更新中ing）

数据科学&&大数据系统平台环境配置

前言

Linux相关命令

虚拟机集群设置

JDK安装

Zookeeper配置

Hadoop集群安装流程

Hadoop文件系统相关命令

Hadoop进行实战输出单词计数Wordout

HIVE配置流程

2 条评论

发表评论 取消回复 快留下你的评论吧ヾ(◍°∇°◍)ﾉﾞ

数据科学&&大数据系统平台环境配置

发表评论取消回复
快留下你的评论吧ヾ(◍°∇°◍)ﾉﾞ