30分で実行するAmazon Elastic MapReduce(Amazon EMR)

今年のテーマの一つはビッグデータということで、そろそろ本格的にMapReduceに手を出そうと思います。

手軽にMapReduceを試してみるのであれば、やはりAWSでしょう。今回はAmazon Elastic MapReduce(Amazon EMR)を動かす方法を簡単にまとめておきます。

実行する処理の例としては、Hadoopのチュートリアルにある処理をそのまま使わせてもらいましょう。与えられたテキスト(英文)に出現する単語を数えるというものです。

実行する処理
与えられたテキストに出現する単語を数える

実行の手順

Amazon EMRにはApache Hadoopが使われています。本来Hadoopを使うためには、Hadoopの環境そのものをセットアップする必要があるのですが、そこをAWSが既にやってくれているわけです。

そのため、手順としては

  1. Hadoopのジョブとなるjarファイルを作る
  2. そのjarファイルと入力ファイルをAmazon S3へアップロードする
  3. Amazon EMRのコンソールから処理を実行する

となります。 続きを読む 30分で実行するAmazon Elastic MapReduce(Amazon EMR)