Ubuntu10.04にHadoopをインストールする方法

hadoop

一年前くらいから一気に話題になったHadoopをそろそろ試そうと思いインストールしてみました。Ubuntu10.04.1にCDH(Cloudera’s Distribution for Hadoop)を利用した疑似分散モードでのインストール方法です。

Javaをインストール

HadoopではJavaを使用するみたいなので、以下のコマンドでUbuntuにJavaをインストールします。

sudo add-apt-repository ppa:sun-java-community-team/sun-java6
sudo apt-get update
sudo apt-get install sun-java6-jre

最初のレポジトリを追加する部分では

sudo add-apt-repository 'deb http://archive.canonical.com/ lucid partner'

としている場合が多かったのですが、現時点では出来なく最初の方法でできました。

Hadoopをインストール

Cloudera社のCDH(Cloudera’s Distribution for Hadoop)を利用すると簡単にHadoopをインストールできます。公式サイトを参考にインストールしていきます。


以下のコマンドを入力します。

su -
wget http://archive.cloudera.com/one-click-install/squeeze/cdh3-repository_1.0_all.deb
dpkg -i cdh3-repository_1.0_all.deb
touch /etc/apt/sources.list.d/cloudera.list
echo deb http://archive.cloudera.com/debian lucid-cdh3 contrib >> /etc/apt/sources.list.d/cloudera.list 
echo deb-src http://archive.cloudera.com/debian lucid-cdh3 contrib >> /etc/apt/sources.list.d/cloudera.list
wget -q http://archive.cloudera.com/debian/archive.key -O- | apt-key add -
apt-get update
apt-get install hadoop-0.20 hadoop-0.20-native
apt-get install hadoop-0.20-conf-pseudo

Hadoopを起動

Hadoopの各デーモンプログラムを起動させます。これはrootでなくてもsudoで実行できます。

sudo /etc/init.d/hadoop-0.20-datanode start
sudo /etc/init.d/hadoop-0.20-jobtracker start
sudo /etc/init.d/hadoop-0.20-namenode start
sudo /etc/init.d/hadoop-0.20-secondarynamenode start
sudo /etc/init.d/hadoop-0.20-tasktracker start

Hadoopが起動しているか確認

以下のURLにアクセスしてNameNodeが起動しているかどうか確認します。これはローカルホストにインストールした場合です。

http://localhost:50070

起動できると以下のようなページが表示されます。

次にMapReduce関係のノードが起動しているか確認します。これは以下のURLのJobTrackerのページで確認できます。

http://localhost:50030

正常に起動していれば以下のようなページが表示されると思います。