火曜日, 8月 05, 2008

【Hadoop】 いよいよ具体的に姿をみせてきた このエントリーを含むはてなブックマーク


 今回はHadoopに関する2つのニュースを紹介したい。一つ目はblogeyeの実装の話。これはよくまとまっているよい記事だ。特に目に焼きついた部分が以下。

blogeyeの実装に学ぶ、Amazon EC2/S3でのHadoop活用術


blogeyeではEC2上に構成したHadoopクラスタを通常時は4台、著者属性推定ジョブや実験のためのジョブを投げるときは最大100台近くまで拡大して運用しています。

 ただし100台起動した場合1日で240ドルかかってしまうので、注意が必要です。S3のストレージは非常に安価で提供されており、またEC2からの読み出しは無料で行えるため、EC2で処理する大量データを保管する先としては最適と思われます。
<中略>

ここでMySQLとHDFSを比較すると、下表のようになります。一般的に、頻繁に利用しない大量データはHDFSに、その他のデータはMySQLに置くのが良いと言えるでしょう。


MySQLとHDFSとの比較

MySQLHDFS(分散ファイルシステムを使用した場合、S3を使用した場合共に)
ランダムアクセス速い遅い
レスポンスタイム早い遅い(特にS3を利用する場合は遅い)
データの保管場所マスタS3(スレーブにキャッシュ)
読み書きのスケーラビリティ低い高い


 次にIBMの記事。
IBMが都内にクラウド検証施設、Hadoopのデモも実施


岩野和生氏は、IBMが目指すクラウドを「エンタープライズ・クラウド」と定義する。「エンタープライズ・クラウドはセキュリティやモニタリング、データ保全性などこれまでIBMが蓄積してきた技術で、Webクラウドを補強する。これによって産業界に本当のパラダイムシフトを起こすことができる」


いよいよIBMもクラウドとHadoopに本腰を入れ始めてきた。でも私が在籍したころは、岩野さんのところはもっと基礎的なところをやっていて、前面(ビジネス)に出ることはあまりなかったように思う。時代は変わったのかなあ。こういう話は幕張の旧ATSの方が得意だと思った。思い返すと10年以上前になるが、幕張には並列システム研究室という並列技術を研究する部署がすでにあった。現在の並列技術の盛り上がりぶりについては、所長を除いて誰も予想できなかったのではないだろうか。(そこでは、HadoopのようなMapReduceではなくCORBAを研究していたのだが・・)私はそこに属していた時期もあったが、やれといわれても素直にやったわけではないので、CORBAはあんまり得意ではない。CORBAではなく、まだ勧告にもなっていないXMLをやりたいといったが、まともに相手されなかった記憶がある。当時、XMLはHTMLに毛が生えた程度にしか認識されていなかったのでしょうがないかとは思う。
 しかし、クラウドにせよ、並列技術にせよ、(中島)所長が当時から力説していた、e-DataCenter構想そのものだ。いやあ、所長の慧眼には驚くばかりである。

0 件のコメント:

 
© 2006-2015 Virtual Technology
当サイトではGoogle Analyticsを使ってウェブサイトのトラフィック情報を収集しています。詳しくは、プライバシーポリシーを参照してください。