(youtube)
1.安装jdk(选择default的版本)2.ssh连接
3.安装hadoop(2.7.2)并创建namenode和datanode的⽂件夹4.配置⽂件
在~/.bashrc⾥添加环境变量:
#HADOOP VARIABLES START
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64export HADOOP_HOME=/usr/local/hadoopexport PATH=$PATH:$HADOOP_HOME/binexport PATH=$PATH:$HADOOP_HOMEsbin
export HADOOP_MAPRED_HOME=$HADOOP_HOMEexport HADOOP_COMMON_HOME=$HADOOP_HOMEexport HADOOP_HDFS_HOME=$HADOOP_HOMEexport YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native//export HADOOP_OPTS=\"-Djava.library.path=$HADOOP_HOME/lib\"
export HADOOP_OPTS=\"$HADOOP_OPTS -Djava.library.path=/usr/local/hadoop/lib/native\"
//我在启动dfs时出现WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable,就改成后⾯⼀条#HADOOP VARIABLES END
①配置core-site.xml
②配置hdfs-site.xml
③配置mapred-site.xml
④配置yarn-site.xml
5.格式化namenode和启动
格式化:hadoop namenode -format
因为设置了环境变量,所以只需要输⼊start-dfs.sh & start-yarn.sh或者start-all.sh
6.操作hadoop⽂件系统,并进⾏wordcount操作hadoop⽂件系统的操作是
hadoop fs
⾸先cd到usr/local/hadoop/下创建test.txt并输⼊⽂字
hadoop fs -mkdir /data //在hadoop⽂件系统下建⽂件夹data
hadoop fs -put test.txt /data //将⽂件移动到data下
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /data/test.txt /wordcount wordcount为⼯具名称 /data/test.txt输⼊路径 /wordcount为输出路径(不⽤单独创建)
⽤浏览器在50070端⼝下进⾏查看(我的是68.56.132:50070,通过ifconfig查看)
//查看集群运⾏状态
处理中的截图,处理后就通过各种⽅式查看。。下图则是结果
FAQ和我的⼼得:
我在配置中遇到最多的问题:
1、根据视频配置,处理时⼀直卡在running job上,cluster⾥的状态也是⼀直在accept于是改成上⾯的配置
2、使⽤hadoop fs 时拒绝链接,同样也是配置问题。
3、由于不熟悉linux系统,之前好⼏次都使⽤默认⽤户的root状态编辑,感觉经常出问题,这次新建⽤户然后赋予权限,感觉要好很多,之后应该注意linux权限问题。4、速度是挺快的,但好像是通过空格进⾏分词,所以没有合适的⽂本下效果不好。。
因篇幅问题不能全部显示,请点此查看更多更全内容