アマゾン HPC Nightへ行ってきました

秋葉原で開催されたアマゾン HPC Nightへ行ってきました。

アマゾン HPC Night http://aws-seminars.com/hpcnight/
Toggtter - 「アマゾン HPC NIGHT #jawsug」 http://togetter.com/li/157974

一部ですが、ノートを取ったので上げておきます。とても面白かったです。

基調講演「HPC at your fingertips」Werner Vogels氏

HPCは従来型からデータインセンティブに変わってきた
HPCに必要とされるインフラも変わってきた

The Fourth Paradigm: Data-intensive Scientific Discovery

作者: Tony Hey
出版社/メーカー: Microsoft Pr
発売日: 2009/10/16
メディア: ペーパーバック
クリック: 13回
この商品を含むブログ (3件) を見る

『The Fourth Paradigm: Data-intensive Scientific Discovery』 http://www.amazon.co.jp/dp/0982544200
- 初期の大規模データの研究について記された本
- ジム・グレイに敬意を表して、このタイトルになったらしい

AWSの学生、研究者向けの制度の紹介
- http://aws.amazon.com/education

HPCで着目すべきは、演算処理だけではない。

処理は、一連のパイプラインでつながっている。次のステップそれぞれに、HPCの新しい能力が必要となる。

collect | store | organize | analyze | share

クラウド上でのHPCははじまったばかりである。AWSは、それぞれのステップを今後も強化していく。

collect（収集）

さまざまなソースから入ってくるデータを統合、分析する。

たとえば、世界各地のセンサーからネットワークを介してクラウドにデータを上げるサービスがある。AWSへのデータのインバウンドが無料になったことは大きい。

データセットがテラバイト、ペタバイト級の場合は、ネットワーク経由でアップロードするのでなく、ディスクに入れてインポート/エクスポートする。

（事例）wakoopa http://wakoopa.com/
- 人々がインターネット上で行っている作業をトラッキングするサービス
- このサービスでは、キューイングを通じて、大量データをAmazonに送信している

store（格納）

格納先としてのSimpleDB、RDS。

（事例）razorfish http://aws.amazon.com/solutions/case-studies/razorfish/
- Webデータ解析をメインのビジネスにしている企業。

razorfishでは、あまりに多くのデータを格納する必要が生じたため、本来のビジネスの前に、ストレージの問題に対応することになった。それは、データ解析専門のエンジニアを、ストレージ対応に回さねばならないほどだった。

大容量で信頼性の高いHDDを用意するという課題は、Amazonを導入することで解決した。

organize（組織化）

データの組織化は、次の4つの要素からなる。

Control Data
Correct Data
Validate Data
Enrich Data

# Enrich Dataとは、テキストデータのメタデータ化など

（事例）Eli Lilly http://www.lilly.com/
- 治験の一斉実施プロジェクトをサポートするクラスタ（HPC、ストレージを含む）を作成
- 各エンドユーザのレベルでは、クラスタの中のデータにアクセスする必要がない状態で利用

多くのデータ分析企業の台頭
- Cloudera、Karmasphereなど

analyze（分析）

分析手法には、次の3つのタイプがある。

HPC型
データ集約
並列処理型

1. HPCはとにかく並列。複数タスクが独立しているので、バッチにして制御できる。同期が不要なのでネットワークに依存しない。

EC2のm1、c1、m2などのインスタンスで実行できる。

処理量を増やすには、スケールアップとスケールアウト両方の手段がある。どちらを取るかは、どのような性質のタスクか、どんなソフトウェアを使うかに依存する。ただし、スケールアップには上限があり、スケールアウトには上限がないことを念頭におこう。

フォールトトレランス（fault tolerance）の概念も重要。複数のアベイラビリティゾーンが独立しているために、この性質が保たれている。

Amazon EC2のコストモデルは3つある。

通常の従量課金
リザーブドインスタンス
- 初期費用＋割安の従量課金
- 40％ほどコストを低減できるケースもある
スポットインスタンス
- 演算ごとに、支払い可能な金額の上限をユーザが提示して、最高額であれば使える
- 従量課金で1時間あたり8セントだったものが、2セントになったケースもある

（上手く使ってね、という話）

2. データインセンティブコンピューティングとは、データ集約型・データ中心のコンピューティング、という意味。

従来は、どのような疑問に答えを出したいかが決まっていた。そのため、使うデータモデルも決まっていた。

一方、新しい方法では、課題が解析後に分かる。そのため、最初はとりあえず大量のデータを集める。より多くのデータを収集することで、よりきめ細かな解析結果が得られる。

あらかじめどれくらいのリソースが必要になるかわからないので、クラウドが理想である。

Amazon Elastic MapReduce

Removes MUCK from Big Data processing
Provides tight integration with AWS services
Based on Apache Hadoop

Hadoopを使ってプログラムを実行するのは複雑である。EMRを使えば、インフラの心配をしなくてよい。

3. 並列処理型は、従来型のコンピューティング。

Amazonは2種類のインスタンスを用意している。それらは、20GB以上の大容量メモリと、10Gbpsのイーサネットを持つ。Linpack benchmarkでの検証結果によると、880個のインスタンスを走らせたところ、スパコンTOP500の250番目と同等の能力を出せた。

これまでは、GPUを使えば高い演算能力を得られると分かっていても、投資しづらかった。1つのGPUを選んだ時、それがメインストリームを外れるリスクが大きかった。

（事例）CycleCloud http://www.cyclecomputing.com/
- GPU インスタンスを使って、マネジメント環境から1万コアのHPCを実行する
- 1時間あたり1000ドルくらい（らしい）

（事例）European Space Agency http://www.esa.int/
- 衛星からの情報を20年間分蓄積して、演算処理をする

share（共有）

データを集め、共有するために公開する。

（事例）NASDAC https://data.nasdaq.com/
- 利用可能な株式市場データ

（事例）Public Data Sets on AWS http://aws.amazon.com/publicdatasets
- ヒト遺伝子データや、米国国勢調査データなど、利用可能な公開データ

「HPC on アマゾンクラウドのデモンストレーション」玉川氏

# やんややんやと手を叩いて見ていたら、いつの間にか終わってしまい、メモを取っていません。残念。
# 詳細は、ほかの誰かがまとめてくれることを期待します。

Community AMIから「hvm ami」を検索して、インスタンスを8つ起動し、計算を実行するデモンストレーションを見せていただきました。

（参考）High Performance Computing http://aws.amazon.com/hpc-applications
- AWSを利用したHPC関連導入事例へのindex

パネルディスカッション

モデレイター
- 東京工業大学首藤先生
パネリスト
- 清水建設フック氏
- ヴァイナス藤川氏
- プリファードインフラストラクチャー太田氏

# Ustされなかったくらいなので、どこまで書いてよいか分からない。大丈夫そうな話だけ。

それぞれのパネリストの方が、HPC on Amazonへの期待と、課題と感じていることを語って下さいました。

これらの話題が上がりました。

データの格納場所に関するセキュリティ
従来以上に複雑なデータを解析する能力
ネットワークレイテンシ
Hadoopを使うための共有I/Oシステム
HPC環境を（インフラを気にかけずに）サービスとして使いたい

印象に残ったのは、データのセキュリティに関する「Amazonにデータを預けると、世界のどこに保存されるのか分からない」という懸念に対して、Vogels氏が語った回答です。

（※要約）
まず、データとメタデータは、格納したリージョンから外には出ない。
また、（データセンター）施設に関して、SAS70 Type2の認定を受けている。数年置きに更新の監査を受け、その結果を公表している。
顧客のデータは顧客のものであり、Amazonや米国政府のものではない。
また、ドイツでは、ある企業が情報漏えいをすると、その企業の責任者は禁固刑に処せられるケースがあるが、それでもAmazonを採用するドイツ企業があることを思い出してほしい。

最後の話は初めて聞きました。もちろん、これを根拠に信用する/しないは決めませんが、話としては興味深いと思いました。

Q&Aセッション

HPC向けのインスタンスでは、CPUとメモリ、どちらが多く必要とされるのか？
- ケースバイケースだが・・・
- 同じデータを共有するのでない場合、よりメモリの量が重要になると思われる

Eli Lilly社は、データ分析をAWSでやっているのか？データセンターでやっているのか？
- 全部AWSで実行している

Vogels氏が一番好きなAWSサービスは？
- Vogels氏「うーん、うーん・・・（物凄く悩んで）・・・S3・・・!」
- 「最初にローンチしたサービスだし、シンプルすぎるくらいシンプルだし・・・」好きな理由が沢山あるみたい

・・・等々

最後の質問で、「AWSは3〜5年後にどうなっているのか？」と聞かれたVogels氏が、「水晶玉が欲しいよ」とジョークをいった後、「5年前、サービスを開始した当時には、今の状態はまったく想像できなかった」と語っていたのが、非常に印象的でした。

5年後のAWSは、きっと今の時点では想像もつかない、しかし魅力的なサービスを提供してくれているのでしょう。5年後も変わらず"小売の精神"を語りつつ、数の多い短冊から叶えてくれる企業なのだろうと想像しています。

楽しい時間でした。

AWSの皆さま、登壇された皆さま、ありがとうございました。