ctrl + alt + f6//文本模式
2.ctrl + alt + f7//桌面模式
开机进入文本模式
---------------------
1.修改/etc/default/grub文件
[/etc/default/grub]
...
#图形模式
#GRUB_CMDLINE_LINUX_DEFAULT="quiet"
#文本模式
GRUB_CMDLINE_LINUX_DEFAULT="text"
...
#修改文本模式的分辨率
#GRUB_GFXMODE=640x480
...
2.运行update-grub更新启动项
$>sudo update-grub
3.手动启动图形模式
$>startx
客户机环境处理
----------------
ip:100 - 104
主机名:s100
修改主机名
--------------
[/etc/hostname]
s100
修改dns解析
-------------------
[/etc/hosts]
127.0.0.1 localhost
192.168.231.100 s100
192.168.231.101 s101
192.168.231.102 s102
192.168.231.103 s103
192.168.231.104 s104
修改ip地址
-----------------------
[/etc/network/interfaces]
# This file describes the network interfaces available on your system
# and how to activate them. For more information, see interfaces(5).
# The loopback network interface
auto lo
iface lo inet loopback
#iface eth0 inet static
iface eth0 inet static
address 192.168.231.100
netmask 255.255.255.0
gateway 192.168.231.2
dns-nameservers 192.168.231.2
auto eth0
修改win7 hosts文件
--------------------
[C:\Windows\System32\drivers\etc\hosts]
127.0.0.1 localhost
192.168.238.128 s100
192.168.238.129 s200
192.168.238.130 s300
192.168.238.131 s400
192.168.238.132 s500
192.168.238.133 s600
192.168.238.134 s700
192.168.238.135 s800
bigdata
-----------------
0.分布式
由分布在不同主机上的进程协同在一起,才能构成整个应用。
1.海量数据
1byte = 8bit
1024B = 1M 2^10
1024M = 1G 2^10
1024G = 1T 2^10
1024T = 1P 2^10
1024P = 1E 2^10
1024E = 1Z
1024Z = 1Y
1024Y = 1N
2.存储
分布式存储.
3.计算
分布式计算
4.hadoop(一头大象)
doug cutting.
5.
-----------------
1.
2.
3.
4.
Hadoop
-----------------
0.介绍
可靠、可伸缩、分布式计算的开源软件。
hadoop是分布式计算大规模数据集框架,使用简单编程模型,可从单个服务器扩展到几千台主机,每台
机器都提供了本地计算和存储,不需要使用硬件来获取高可用性,类库在应用层处理检测并处理故障,
因此在集群之上获得HA服务。
1.hdfs
hadoop distributed file system. GFS
2.去IOE
IBM + Oracle + EMC
3.MapReduce
MR//映射和化简.编程模型.
4.推荐
big data 4V
------------------
1.Volumn//题量大
2.Variaty//样式多
3.Velocity//速度快
4.Valueless//价值密度低
hadoop的安装
------------------
0.创建/soft目录,并更改用户和组
$>sudo mkdir /soft
$>sudo chown ubuntu:ubuntu /soft
1.安装jdk
a.复制jdk-8u65-linux-x64.到 ~/Downloads
$>cp /mnt/hgfs/downloads/bigdata/jdk-8u65-linux-x64. ~/Downloads
b.tar jdk-8u65-linux-x64.
$>cd ~/Downloads
$>ta tar -xzvf jdk-8u65-linux-x64.
c.移动到jdk1.8.0_65到/soft下
$>mv ~/Download /soft
$>ln -s /soft/jdk-xxx jdk//创建符号连接
d.配置环境变量
[/etc/environment]
JAVA_HOME=/soft/jdk
PATH="...:/soft/jdk/bin"
e.让环境变量生效
$>source /etc/environment
f.检验安装是否成功
$>java -version
2.安装hadoop
a.复制并tar开hadoop.
$>cp /mnt/hgfs/downloads/bigdata/. ~/Downloads/
$>cd ~/Downloads
$>tar -xzvf .
$>mv ~/Download /soft//移动到/soft下
$>cd /soft
$>ln -s hadoop//创建hadoop符号连接
b.配置环境变量.
$>sudo nano /etc/environment
[/etc/environment]
JAVA_HOME=/soft/jdk
HADOOP_HOME=/soft/hadoop
PATH="...:/soft/jdk/bin:/soft/hadoop/bin:/soft/hadoop/sbin"
c.重启系统
$>sudo reboot
d.验证hadoop安装是否成功
$>hadoop version
分布式
--------------
由分布在不同主机上的程序(进程)协同在一起才能构成整个应用。
browser/web server:瘦客户端程序。
4V
----------------
1.volumn: 体量大
2.velocity: 速度快
3.variaty: 样式多
4.value: 价值密度低
hadoop包含三个模块
------------------------
1.Hadoop Common:
支持其他模块的工具模块
2.Hadoop Distributed File System (HDFS™):
分布式文件系统,提供了对应用程序数据的高吞吐量访问。
[进程]
NameNode//名称节点--NN
DataNode//数据节点--DN
SecondaryNamenode//辅助名称节点--2ndNN
3.Hadoop YARN:
yet another resource negotiate,
作业调度与集群资源管理的框架。
[进程]
ResourceManager//资源管理器--RM
NodeManager//节点管理器--NM
4.Hadoop MapReduce:
基于yarn系统的对大数据集进行并行处理技术。
配置Hadoop
----------------
1.Standalone/local
独立/本地模式,使用的本地文件系统。
nothing!!!
查看文件系统的方式:
$>hadoop fs -ls
没有启动任何java进程。
用于测试和开发环境.
2.Pseudodistributed mode
伪分布模式
[配置过程]
a.core-
<?xml version="1.0" ?>
<configuration>
<property>
<name>;/name>
<value>hdfs://localhost/</value>
</property>
</configuration>
b.hdfs-
<?xml version="1.0"?>
<configuration>
<property>
<name>d;/name>
<value>1</value>
</property>
</configuration>
c.mapred-
<?xml version="1.0"?>
<configuration>
<property>
<name>ma;/name>
<value>yarn</value>
</property>
</configuration>
d.yarn-
<?xml version="1.0"?>
<configuration>
<property>
<name>yarn.re;/name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
e.配置SSH
安全登录.
1)安装ssh
$>sudo apt-get install ssh
2)生成秘钥对
$>ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$>cd ~/.ssh//查看生成的公私秘钥
3)导入公钥数据到授权库中
$>cat ~/. >> ~/.ssh/authorized_keys
4)登录到localhost
$>ssh localhost
$>....yes
$>exit
$>ssh localhost//不需要密码
5)格式化hdfs文件系统
$>hadoop namenode -format
6)启动所有进程
$>
7)查看进程
$>jps//5 RM NM NN DN 2NN
8)查看文件系统
$>hadoop fs -ls
9)创建文件系统
$>hadoop fs -mkdir -p /user/ubuntu/data
$>hadoop fs -ls -R ///-lsr
3.Fully distributed mode
完全分布式
安装SSH
---------------
1.禁用wifi
2.关闭防火墙
3.client能够访问外网
$>ping www.baidu.com
4.修改ubuntu的软件源
[/etc/a]
...
163
[aliyun 源]
deb precise main restricted universe multiverse
deb precise-security main restricted universe multiverse
deb precise-updates main restricted universe multiverse
deb precise-proposed main restricted universe multiverse
deb precise-backports main restricted universe multiverse
deb-src precise main restricted universe multiverse
deb-src precise-security main restricted universe multiverse
deb-src precise-updates main restricted universe multiverse
deb-src precise-proposed main restricted universe multiverse
deb-src precise-backports main restricted universe multiverse
5.安装ssh
$>sudo apt-get install ssh
6.查看进程,是否启动了sshd服务
$>ps -Af | grep ssh
7.生成秘钥对
$>ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
8.导入公钥到授权keys文件
$>cat ~/. >> ~/.ssh/authorized_keys
9.登录localhost
$>ssh localhost
$>输入yes
10.退出之后,再登录
$>ssh localhost
使用nc在两个client之间传递文件
------------------------------
0.描述
100向101传递文件.
1.在101机器
$>nc -l 8888 > ~/..100
2.在100机器
$>nc 192.168.231.101 8888 < ~/.
3.在101上添加公钥文件
$>cat ~/..100 >> ~/.ssh/authorized_keys
hadoop进程处理
--------------------
1.查看hadoop进程个数(5)
$>jps
NN
DN
2NN
RM
NM
2.如果进程数不对,杀死所有进程
$>
3.重新格式化系统
$>hadoop namenode -format
4.启动所有进程
$>
5.jps
大家先看着,小编收集徐老师的讲义很辛苦,会越做越好的,转载请联系"e安在线”本文为徐培成老师课程原创讲义。