アマゾン HPC Nightへ行ってきました

秋葉原で開催されたアマゾン HPC Nightへ行ってきました。

一部ですが、ノートを取ったので上げておきます。とても面白かったです。

基調講演「HPC at your fingertips」Werner Vogels氏

  • HPCは従来型からデータインセンティブに変わってきた
  • HPCに必要とされるインフラも変わってきた

The Fourth Paradigm: Data-intensive Scientific Discovery

The Fourth Paradigm: Data-intensive Scientific Discovery

  • 『The Fourth Paradigm: Data-intensive Scientific Discovery』 http://www.amazon.co.jp/dp/0982544200
    • 初期の大規模データの研究について記された本
    • ジム・グレイに敬意を表して、このタイトルになったらしい

HPCで着目すべきは、演算処理だけではない。

処理は、一連のパイプラインでつながっている。次のステップそれぞれに、HPCの新しい能力が必要となる。

collect | store | organize | analyze | share

クラウド上でのHPCははじまったばかりである。AWSは、それぞれのステップを今後も強化していく。

collect(収集)

さまざまなソースから入ってくるデータを統合、分析する。

たとえば、世界各地のセンサーからネットワークを介してクラウドにデータを上げるサービスがある。AWSへのデータのインバウンドが無料になったことは大きい。

データセットがテラバイト、ペタバイト級の場合は、ネットワーク経由でアップロードするのでなく、ディスクに入れてインポート/エクスポートする。

  • (事例)wakoopa http://wakoopa.com/
    • 人々がインターネット上で行っている作業をトラッキングするサービス
    • このサービスでは、キューイングを通じて、大量データをAmazonに送信している
store(格納)

格納先としてのSimpleDB、RDS。

razorfishでは、あまりに多くのデータを格納する必要が生じたため、本来のビジネスの前に、ストレージの問題に対応することになった。それは、データ解析専門のエンジニアを、ストレージ対応に回さねばならないほどだった。

大容量で信頼性の高いHDDを用意するという課題は、Amazonを導入することで解決した。

organize(組織化)

データの組織化は、次の4つの要素からなる。

Control Data
Correct Data
Validate Data
Enrich Data

# Enrich Dataとは、テキストデータのメタデータ化など

  • (事例)Eli Lilly http://www.lilly.com/
    • 治験の一斉実施プロジェクトをサポートするクラスタ(HPC、ストレージを含む)を作成
    • 各エンドユーザのレベルでは、クラスタの中のデータにアクセスする必要がない状態で利用
  • 多くのデータ分析企業の台頭
    • Cloudera、Karmasphereなど
analyze(分析)

分析手法には、次の3つのタイプがある。

  1. HPC型
  2. データ集約
  3. 並列処理型

1. HPCはとにかく並列。複数タスクが独立しているので、バッチにして制御できる。同期が不要なのでネットワークに依存しない。

EC2のm1、c1、m2などのインスタンスで実行できる。

処理量を増やすには、スケールアップとスケールアウト両方の手段がある。どちらを取るかは、どのような性質のタスクか、どんなソフトウェアを使うかに依存する。ただし、スケールアップには上限があり、スケールアウトには上限がないことを念頭におこう。

フォールトトレランス(fault tolerance)の概念も重要。複数のアベイラビリティゾーンが独立しているために、この性質が保たれている。

Amazon EC2のコストモデルは3つある。

  • 通常の従量課金
  • リザーブインスタンス
    • 初期費用 + 割安の従量課金
    • 40%ほどコストを低減できるケースもある
  • スポットインスタンス
    • 演算ごとに、支払い可能な金額の上限をユーザが提示して、最高額であれば使える
    • 従量課金で1時間あたり8セントだったものが、2セントになったケースもある

(上手く使ってね、という話)

2. データインセンティブコンピューティングとは、データ集約型・データ中心のコンピューティング、という意味。

従来は、どのような疑問に答えを出したいかが決まっていた。そのため、使うデータモデルも決まっていた。

一方、新しい方法では、課題が解析後に分かる。そのため、最初はとりあえず大量のデータを集める。より多くのデータを収集することで、よりきめ細かな解析結果が得られる。

あらかじめどれくらいのリソースが必要になるかわからないので、クラウドが理想である。

Removes MUCK from Big Data processing
Provides tight integration with AWS services
Based on Apache Hadoop

Hadoopを使ってプログラムを実行するのは複雑である。EMRを使えば、インフラの心配をしなくてよい。

3. 並列処理型は、従来型のコンピューティング。

Amazonは2種類のインスタンスを用意している。それらは、20GB以上の大容量メモリと、10Gbpsのイーサネットを持つ。Linpack benchmarkでの検証結果によると、880個のインスタンスを走らせたところ、スパコンTOP500の250番目と同等の能力を出せた。

これまでは、GPUを使えば高い演算能力を得られると分かっていても、投資しづらかった。1つのGPUを選んだ時、それがメインストリームを外れるリスクが大きかった。

  • (事例)European Space Agency http://www.esa.int/
    • 衛星からの情報を20年間分蓄積して、演算処理をする
share(共有)

データを集め、共有するために公開する。

「HPC on アマゾンクラウドのデモンストレーション」玉川氏

# やんややんやと手を叩いて見ていたら、いつの間にか終わってしまい、メモを取っていません。残念。
# 詳細は、ほかの誰かがまとめてくれることを期待します。

Community AMIから「hvm ami」を検索して、インスタンスを8つ起動し、計算を実行するデモンストレーションを見せていただきました。

パネルディスカッション

# Ustされなかったくらいなので、どこまで書いてよいか分からない。大丈夫そうな話だけ。

それぞれのパネリストの方が、HPC on Amazonへの期待と、課題と感じていることを語って下さいました。

これらの話題が上がりました。

  • データの格納場所に関するセキュリティ
  • 従来以上に複雑なデータを解析する能力
  • ネットワークレイテンシ
  • Hadoopを使うための共有I/Oシステム
  • HPC環境を(インフラを気にかけずに)サービスとして使いたい

印象に残ったのは、データのセキュリティに関する「Amazonにデータを預けると、世界のどこに保存されるのか分からない」という懸念に対して、Vogels氏が語った回答です。

(※要約)

まず、データとメタデータは、格納したリージョンから外には出ない。

また、(データセンター)施設に関して、SAS70 Type2の認定を受けている。数年置きに更新の監査を受け、その結果を公表している。

顧客のデータは顧客のものであり、Amazonや米国政府のものではない。

また、ドイツでは、ある企業が情報漏えいをすると、その企業の責任者は禁固刑に処せられるケースがあるが、それでもAmazonを採用するドイツ企業があることを思い出してほしい。

最後の話は初めて聞きました。もちろん、これを根拠に信用する/しないは決めませんが、話としては興味深いと思いました。

Q&Aセッション

  • HPC向けのインスタンスでは、CPUとメモリ、どちらが多く必要とされるのか?
    • ケースバイケースだが・・・
    • 同じデータを共有するのでない場合、よりメモリの量が重要になると思われる
  • Eli Lilly社は、データ分析をAWSでやっているのか? データセンターでやっているのか?
    • 全部AWSで実行している
  • Vogels氏が一番好きなAWSサービスは?
    • Vogels氏「うーん、うーん・・・(物凄く悩んで)・・・S3・・・!」
    • 「最初にローンチしたサービスだし、シンプルすぎるくらいシンプルだし・・・」 好きな理由が沢山あるみたい

・・・等々

最後の質問で、「AWSは3〜5年後にどうなっているのか?」と聞かれたVogels氏が、「水晶玉が欲しいよ」とジョークをいった後、「5年前、サービスを開始した当時には、今の状態はまったく想像できなかった」と語っていたのが、非常に印象的でした。

5年後のAWSは、きっと今の時点では想像もつかない、しかし魅力的なサービスを提供してくれているのでしょう。5年後も変わらず"小売の精神"を語りつつ、数の多い短冊から叶えてくれる企業なのだろうと想像しています。

楽しい時間でした。

AWSの皆さま、登壇された皆さま、ありがとうございました。