使用伪分布式hadoop进行countword

来源：画鸵萌宠网

使⽤伪分布式hadoop进⾏countword

(youtube)

1.安装jdk(选择default的版本)2.ssh连接

3.安装hadoop(2.7.2)并创建namenode和datanode的⽂件夹4.配置⽂件

在~/.bashrc⾥添加环境变量:

#HADOOP VARIABLES START

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64export HADOOP_HOME=/usr/local/hadoopexport PATH=$PATH:$HADOOP_HOME/binexport PATH=$PATH:$HADOOP_HOMEsbin

export HADOOP_MAPRED_HOME=$HADOOP_HOMEexport HADOOP_COMMON_HOME=$HADOOP_HOMEexport HADOOP_HDFS_HOME=$HADOOP_HOMEexport YARN_HOME=$HADOOP_HOME

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native//export HADOOP_OPTS=\"-Djava.library.path=$HADOOP_HOME/lib\"

export HADOOP_OPTS=\"$HADOOP_OPTS -Djava.library.path=/usr/local/hadoop/lib/native\"

//我在启动dfs时出现WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable，就改成后⾯⼀条#HADOOP VARIABLES END

①配置core-site.xml

fs.defaultFS

hdfs://localhost:9000

②配置hdfs-site.xml

dfs.replication 1

③配置mapred-site.xml

mapreduce.framework.name yarn

④配置yarn-site.xml

yarn.nodemanager.aux-services mapreduce_shuffle

5.格式化namenode和启动

格式化:hadoop namenode -format

因为设置了环境变量，所以只需要输⼊start-dfs.sh & start-yarn.sh或者start-all.sh

6.操作hadoop⽂件系统，并进⾏wordcount操作hadoop⽂件系统的操作是

hadoop fs

⾸先cd到usr/local/hadoop/下创建test.txt并输⼊⽂字

hadoop fs -mkdir /data //在hadoop⽂件系统下建⽂件夹data

hadoop fs -put test.txt /data //将⽂件移动到data下

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /data/test.txt /wordcount wordcount为⼯具名称 /data/test.txt输⼊路径 /wordcount为输出路径(不⽤单独创建)

⽤浏览器在50070端⼝下进⾏查看(我的是68.56.132:50070，通过ifconfig查看)

//查看集群运⾏状态

处理中的截图，处理后就通过各种⽅式查看。。下图则是结果

FAQ和我的⼼得:

我在配置中遇到最多的问题:

1、根据视频配置，处理时⼀直卡在running job上,cluster⾥的状态也是⼀直在accept于是改成上⾯的配置

2、使⽤hadoop fs 时拒绝链接，同样也是配置问题。

3、由于不熟悉linux系统，之前好⼏次都使⽤默认⽤户的root状态编辑，感觉经常出问题，这次新建⽤户然后赋予权限，感觉要好很多，之后应该注意linux权限问题。4、速度是挺快的，但好像是通过空格进⾏分词，所以没有合适的⽂本下效果不好。。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

使用伪分布式hadoop进行countword