MapReduceで巨大データ同士をJOINする

立春をすぎて、暖かく感じる日も増えてきた今日この頃です。さて春といえばミツバチ、ミツバチといえばHiveですが、今日はHiveを使わないで純粋なMapReduceで、巨大データ同士をJOINするための一つの方法を書き留めたいと思います。

具体的に考えるために、状況を想定してみます。例えば以下の２つのテーブル、アクセスログ（日時，ユーザID，アクセスURL）とユーザマスタ（ユーザID，年齢，性別，住所）があるとします。これらのテーブルをユーザIDで結合したいとしましょう。

join tables

SQLで言えば次のような処理ということになります。

SELECT *
  FROM access_log
  LEFT OUTER JOIN user
  USING (user_id);

つまり何ということはない普通のJOINなのですが、この２つのデータがとても大きなものであるとき、私たちは問題に直面します。

このようなとき、まず思い浮かぶのはHiveを使うことです。SQLに慣れているならば、極めて直感的に処理を書くことができます。（先述のSQLを書くだけです）

ただしHiveを使わず、純粋なMapReduceを書いて処理したいこともあるでしょう。その場合次の図に示すような手順が考えられます。ここでは３つのMapReduceを使います。

Join in MapReduce

まず１つ目のMapReduceは、アクセスログを入力とします。Mapperでレコードに含まれているユーザIDを取り出し、テーブル番号（０）と共にレコードの先頭に追加して出力します。Reducerは不要です。
２つ目のMapReduceも、ユーザマスタを入力として１つ目と似た処理を行います。即ち、MapperでユーザマスタのレコードからユーザIDを取り出し、テーブル番号（１）と共にレコードの先頭に追加して出力します。これもやはりReducerは不要です。
３つ目のMapReduceは、１つ目と２つ目の出力を入力として使用します。Mapperでは、入力をほぼそのまま、ユーザIDをキーとして出力します。Reducerでは、ユーザIDでグルーピングされたレコードを受け取り、先の処理で追加したテーブル番号０のレコードと、テーブル番号１のレコードとを繋ぎ合わせて出力します。
これでアクセスログとユーザマスタの結合ができました。

重要なことは、３つ目のMapReduceでレコードを識別するために、予め「テーブル番号」を追加しておくということです。今回は０と１を使用していますが、テーブル一意であればもちろん番号でなくても構いません。

« Getting Started with Glassfish on Heroku How to implement TCP server in Java (1) »