徐培成Hadoop讲义（一）客户机桌面模式和文本模式切换

ctrl + alt + f6//文本模式

2.ctrl + alt + f7//桌面模式

开机进入文本模式

---------------------

1.修改/etc/default/grub文件

[/etc/default/grub]

...

#图形模式

#GRUB_CMDLINE_LINUX_DEFAULT="quiet"

#文本模式

GRUB_CMDLINE_LINUX_DEFAULT="text"

...

#修改文本模式的分辨率

#GRUB_GFXMODE=640x480

...

2.运行update-grub更新启动项

$>sudo update-grub

3.手动启动图形模式

$>startx

客户机环境处理

----------------

ip:100 - 104

主机名:s100

修改主机名

--------------

[/etc/hostname]

s100

修改dns解析

-------------------

[/etc/hosts]

127.0.0.1 localhost

192.168.231.100 s100

192.168.231.101 s101

192.168.231.102 s102

192.168.231.103 s103

192.168.231.104 s104

修改ip地址

-----------------------

[/etc/network/interfaces]

# This file describes the network interfaces available on your system

# and how to activate them. For more information, see interfaces(5).

# The loopback network interface

auto lo

iface lo inet loopback

#iface eth0 inet static

iface eth0 inet static

address 192.168.231.100

netmask 255.255.255.0

gateway 192.168.231.2

dns-nameservers 192.168.231.2

auto eth0

修改win7 hosts文件

--------------------

[C:\Windows\System32\drivers\etc\hosts]

127.0.0.1 localhost

192.168.238.128 s100

192.168.238.129 s200

192.168.238.130 s300

192.168.238.131 s400

192.168.238.132 s500

192.168.238.133 s600

192.168.238.134 s700

192.168.238.135 s800

bigdata

-----------------

0.分布式

由分布在不同主机上的进程协同在一起，才能构成整个应用。

1.海量数据

1byte = 8bit

1024B = 1M 2^10

1024M = 1G 2^10

1024G = 1T 2^10

1024T = 1P 2^10

1024P = 1E 2^10

1024E = 1Z

1024Z = 1Y

1024Y = 1N

2.存储

分布式存储.

3.计算

分布式计算

4.hadoop(一头大象)

doug cutting.

google

-----------------

Hadoop

-----------------

0.介绍

可靠、可伸缩、分布式计算的开源软件。

hadoop是分布式计算大规模数据集框架，使用简单编程模型，可从单个服务器扩展到几千台主机，每台

机器都提供了本地计算和存储，不需要使用硬件来获取高可用性，类库在应用层处理检测并处理故障，

因此在集群之上获得HA服务。

1.hdfs

hadoop distributed file system. GFS

2.去IOE

IBM + Oracle + EMC

3.MapReduce

MR//映射和化简.编程模型.

4.推荐

big data 4V

------------------

1.Volumn//题量大

2.Variaty//样式多

3.Velocity//速度快

4.Valueless//价值密度低

hadoop的安装

------------------

0.创建/soft目录，并更改用户和组

$>sudo mkdir /soft

$>sudo chown ubuntu:ubuntu /soft

1.安装jdk

a.复制jdk-8u65-linux-x64.到 ~/Downloads

$>cp /mnt/hgfs/downloads/bigdata/jdk-8u65-linux-x64. ~/Downloads

b.tar jdk-8u65-linux-x64.

$>cd ~/Downloads

$>ta tar -xzvf jdk-8u65-linux-x64.

c.移动到jdk1.8.0_65到/soft下

$>mv ~/Download /soft

$>ln -s /soft/jdk-xxx jdk//创建符号连接

d.配置环境变量

[/etc/environment]

JAVA_HOME=/soft/jdk

PATH="...:/soft/jdk/bin"

e.让环境变量生效

$>source /etc/environment

f.检验安装是否成功

$>java -version

2.安装hadoop

a.复制并tar开hadoop.

$>cp /mnt/hgfs/downloads/bigdata/. ~/Downloads/

$>cd ~/Downloads

$>tar -xzvf .

$>mv ~/Download /soft//移动到/soft下

$>cd /soft

$>ln -s hadoop//创建hadoop符号连接

b.配置环境变量.

$>sudo nano /etc/environment

[/etc/environment]

JAVA_HOME=/soft/jdk

HADOOP_HOME=/soft/hadoop

PATH="...:/soft/jdk/bin:/soft/hadoop/bin:/soft/hadoop/sbin"

c.重启系统

$>sudo reboot

d.验证hadoop安装是否成功

$>hadoop version

分布式

--------------

由分布在不同主机上的程序(进程)协同在一起才能构成整个应用。

browser/web server:瘦客户端程序。

----------------

1.volumn: 体量大

2.velocity: 速度快

3.variaty: 样式多

4.value: 价值密度低

hadoop包含三个模块

------------------------

1.Hadoop Common:

支持其他模块的工具模块

2.Hadoop Distributed File System (HDFS™):

分布式文件系统，提供了对应用程序数据的高吞吐量访问。

[进程]

NameNode//名称节点--NN

DataNode//数据节点--DN

SecondaryNamenode//辅助名称节点--2ndNN

3.Hadoop YARN:

yet another resource negotiate,

作业调度与集群资源管理的框架。

[进程]

ResourceManager//资源管理器--RM

NodeManager//节点管理器--NM

4.Hadoop MapReduce:

基于yarn系统的对大数据集进行并行处理技术。

配置Hadoop

----------------

1.Standalone/local

独立/本地模式,使用的本地文件系统。

nothing!!!

查看文件系统的方式:

$>hadoop fs -ls

没有启动任何java进程。

用于测试和开发环境.

2.Pseudodistributed mode

伪分布模式

[配置过程]

a.core-

<?xml version="1.0" ?>

<value>hdfs://localhost/</value>

</property>

</configuration>

b.hdfs-

<?xml version="1.0"?>

</property>

</configuration>

c.mapred-

<?xml version="1.0"?>

</property>

</configuration>

d.yarn-

<?xml version="1.0"?>

<value>localhost</value>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

e.配置SSH

安全登录.

1)安装ssh

$>sudo apt-get install ssh

2)生成秘钥对

$>ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

$>cd ~/.ssh//查看生成的公私秘钥

3)导入公钥数据到授权库中

$>cat ~/. >> ~/.ssh/authorized_keys

4)登录到localhost

$>ssh localhost

$>....yes

$>exit

$>ssh localhost//不需要密码

5)格式化hdfs文件系统

$>hadoop namenode -format

6)启动所有进程

7)查看进程

$>jps//5 RM NM NN DN 2NN

8)查看文件系统

$>hadoop fs -ls

9)创建文件系统

$>hadoop fs -mkdir -p /user/ubuntu/data

$>hadoop fs -ls -R ///-lsr

3.Fully distributed mode

完全分布式

安装SSH

---------------

1.禁用wifi

2.关闭防火墙

3.client能够访问外网

$>ping www.baidu.com

4.修改ubuntu的软件源

[/etc/a]

...

163

[aliyun 源]

deb precise main restricted universe multiverse

deb precise-security main restricted universe multiverse

deb precise-updates main restricted universe multiverse

deb precise-proposed main restricted universe multiverse

deb precise-backports main restricted universe multiverse

deb-src precise main restricted universe multiverse

deb-src precise-security main restricted universe multiverse

deb-src precise-updates main restricted universe multiverse

deb-src precise-proposed main restricted universe multiverse

deb-src precise-backports main restricted universe multiverse

5.安装ssh

$>sudo apt-get install ssh

6.查看进程,是否启动了sshd服务

$>ps -Af | grep ssh

7.生成秘钥对

$>ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

8.导入公钥到授权keys文件

$>cat ~/. >> ~/.ssh/authorized_keys

9.登录localhost

$>ssh localhost

$>输入yes

10.退出之后，再登录

$>ssh localhost

使用nc在两个client之间传递文件

------------------------------

0.描述

100向101传递文件.

1.在101机器

$>nc -l 8888 > ~/..100

2.在100机器

$>nc 192.168.231.101 8888 < ~/.

3.在101上添加公钥文件

$>cat ~/..100 >> ~/.ssh/authorized_keys

hadoop进程处理

--------------------

1.查看hadoop进程个数(5)

$>jps

2NN

2.如果进程数不对，杀死所有进程

3.重新格式化系统

$>hadoop namenode -format

4.启动所有进程

5.jps

大家先看着，小编收集徐老师的讲义很辛苦，会越做越好的，转载请联系"e安在线”本文为徐培成老师课程原创讲义。

责任编辑: 鲁达

“win7如何修改hosts,win7如何修改hosts文件,Win7如何修改host,win7如何更改文件后缀格式”边界阅读