アマゾン HPC Nightへ行ってきました
秋葉原で開催されたアマゾン HPC Nightへ行ってきました。
- アマゾン HPC Night http://aws-seminars.com/hpcnight/
- Toggtter - 「アマゾン HPC NIGHT #jawsug」 http://togetter.com/li/157974
一部ですが、ノートを取ったので上げておきます。とても面白かったです。
基調講演「HPC at your fingertips」Werner Vogels氏
- HPCは従来型からデータインセンティブに変わってきた
- HPCに必要とされるインフラも変わってきた
The Fourth Paradigm: Data-intensive Scientific Discovery
- 作者: Tony Hey
- 出版社/メーカー: Microsoft Pr
- 発売日: 2009/10/16
- メディア: ペーパーバック
- クリック: 13回
- この商品を含むブログ (3件) を見る
- 『The Fourth Paradigm: Data-intensive Scientific Discovery』 http://www.amazon.co.jp/dp/0982544200
- 初期の大規模データの研究について記された本
- ジム・グレイに敬意を表して、このタイトルになったらしい
- AWSの学生、研究者向けの制度の紹介
HPCで着目すべきは、演算処理だけではない。
処理は、一連のパイプラインでつながっている。次のステップそれぞれに、HPCの新しい能力が必要となる。
collect | store | organize | analyze | share
クラウド上でのHPCははじまったばかりである。AWSは、それぞれのステップを今後も強化していく。
collect(収集)
さまざまなソースから入ってくるデータを統合、分析する。
たとえば、世界各地のセンサーからネットワークを介してクラウドにデータを上げるサービスがある。AWSへのデータのインバウンドが無料になったことは大きい。
データセットがテラバイト、ペタバイト級の場合は、ネットワーク経由でアップロードするのでなく、ディスクに入れてインポート/エクスポートする。
- (事例)wakoopa http://wakoopa.com/
store(格納)
格納先としてのSimpleDB、RDS。
- (事例)razorfish http://aws.amazon.com/solutions/case-studies/razorfish/
- Webデータ解析をメインのビジネスにしている企業。
razorfishでは、あまりに多くのデータを格納する必要が生じたため、本来のビジネスの前に、ストレージの問題に対応することになった。それは、データ解析専門のエンジニアを、ストレージ対応に回さねばならないほどだった。
大容量で信頼性の高いHDDを用意するという課題は、Amazonを導入することで解決した。
organize(組織化)
データの組織化は、次の4つの要素からなる。
Control Data
Correct Data
Validate Data
Enrich Data
# Enrich Dataとは、テキストデータのメタデータ化など
- (事例)Eli Lilly http://www.lilly.com/
- 多くのデータ分析企業の台頭
- Cloudera、Karmasphereなど
analyze(分析)
分析手法には、次の3つのタイプがある。
- HPC型
- データ集約
- 並列処理型
1. HPCはとにかく並列。複数タスクが独立しているので、バッチにして制御できる。同期が不要なのでネットワークに依存しない。
EC2のm1、c1、m2などのインスタンスで実行できる。
処理量を増やすには、スケールアップとスケールアウト両方の手段がある。どちらを取るかは、どのような性質のタスクか、どんなソフトウェアを使うかに依存する。ただし、スケールアップには上限があり、スケールアウトには上限がないことを念頭におこう。
フォールトトレランス(fault tolerance)の概念も重要。複数のアベイラビリティゾーンが独立しているために、この性質が保たれている。
Amazon EC2のコストモデルは3つある。
- 通常の従量課金
- リザーブドインスタンス
- 初期費用 + 割安の従量課金
- 40%ほどコストを低減できるケースもある
- スポットインスタンス
- 演算ごとに、支払い可能な金額の上限をユーザが提示して、最高額であれば使える
- 従量課金で1時間あたり8セントだったものが、2セントになったケースもある
(上手く使ってね、という話)
2. データインセンティブコンピューティングとは、データ集約型・データ中心のコンピューティング、という意味。
従来は、どのような疑問に答えを出したいかが決まっていた。そのため、使うデータモデルも決まっていた。
一方、新しい方法では、課題が解析後に分かる。そのため、最初はとりあえず大量のデータを集める。より多くのデータを収集することで、よりきめ細かな解析結果が得られる。
あらかじめどれくらいのリソースが必要になるかわからないので、クラウドが理想である。
Removes MUCK from Big Data processing
Provides tight integration with AWS services
Based on Apache Hadoop
Hadoopを使ってプログラムを実行するのは複雑である。EMRを使えば、インフラの心配をしなくてよい。
3. 並列処理型は、従来型のコンピューティング。
Amazonは2種類のインスタンスを用意している。それらは、20GB以上の大容量メモリと、10Gbpsのイーサネットを持つ。Linpack benchmarkでの検証結果によると、880個のインスタンスを走らせたところ、スパコンTOP500の250番目と同等の能力を出せた。
これまでは、GPUを使えば高い演算能力を得られると分かっていても、投資しづらかった。1つのGPUを選んだ時、それがメインストリームを外れるリスクが大きかった。
- (事例)CycleCloud http://www.cyclecomputing.com/
- (事例)European Space Agency http://www.esa.int/
- 衛星からの情報を20年間分蓄積して、演算処理をする
share(共有)
データを集め、共有するために公開する。
- (事例)NASDAC https://data.nasdaq.com/
- 利用可能な株式市場データ
- (事例)Public Data Sets on AWS http://aws.amazon.com/publicdatasets
- ヒト遺伝子データや、米国国勢調査データなど、利用可能な公開データ
「HPC on アマゾンクラウドのデモンストレーション」玉川氏
# やんややんやと手を叩いて見ていたら、いつの間にか終わってしまい、メモを取っていません。残念。
# 詳細は、ほかの誰かがまとめてくれることを期待します。
Community AMIから「hvm ami」を検索して、インスタンスを8つ起動し、計算を実行するデモンストレーションを見せていただきました。
- (参考)High Performance Computing http://aws.amazon.com/hpc-applications
- AWSを利用したHPC関連導入事例へのindex
パネルディスカッション
- モデレイター
- 東京工業大学 首藤先生
- パネリスト
- 清水建設 フック氏
- ヴァイナス 藤川氏
- プリファードインフラストラクチャー 太田氏
# Ustされなかったくらいなので、どこまで書いてよいか分からない。大丈夫そうな話だけ。
それぞれのパネリストの方が、HPC on Amazonへの期待と、課題と感じていることを語って下さいました。
これらの話題が上がりました。
- データの格納場所に関するセキュリティ
- 従来以上に複雑なデータを解析する能力
- ネットワークレイテンシ
- Hadoopを使うための共有I/Oシステム
- HPC環境を(インフラを気にかけずに)サービスとして使いたい
印象に残ったのは、データのセキュリティに関する「Amazonにデータを預けると、世界のどこに保存されるのか分からない」という懸念に対して、Vogels氏が語った回答です。
(※要約)
まず、データとメタデータは、格納したリージョンから外には出ない。
また、(データセンター)施設に関して、SAS70 Type2の認定を受けている。数年置きに更新の監査を受け、その結果を公表している。
顧客のデータは顧客のものであり、Amazonや米国政府のものではない。
また、ドイツでは、ある企業が情報漏えいをすると、その企業の責任者は禁固刑に処せられるケースがあるが、それでもAmazonを採用するドイツ企業があることを思い出してほしい。
最後の話は初めて聞きました。もちろん、これを根拠に信用する/しないは決めませんが、話としては興味深いと思いました。
Q&Aセッション
- HPC向けのインスタンスでは、CPUとメモリ、どちらが多く必要とされるのか?
- ケースバイケースだが・・・
- 同じデータを共有するのでない場合、よりメモリの量が重要になると思われる
- Vogels氏が一番好きなAWSサービスは?
- Vogels氏「うーん、うーん・・・(物凄く悩んで)・・・S3・・・!」
- 「最初にローンチしたサービスだし、シンプルすぎるくらいシンプルだし・・・」 好きな理由が沢山あるみたい
・・・等々
最後の質問で、「AWSは3〜5年後にどうなっているのか?」と聞かれたVogels氏が、「水晶玉が欲しいよ」とジョークをいった後、「5年前、サービスを開始した当時には、今の状態はまったく想像できなかった」と語っていたのが、非常に印象的でした。
5年後のAWSは、きっと今の時点では想像もつかない、しかし魅力的なサービスを提供してくれているのでしょう。5年後も変わらず"小売の精神"を語りつつ、数の多い短冊から叶えてくれる企業なのだろうと想像しています。
楽しい時間でした。
AWSの皆さま、登壇された皆さま、ありがとうございました。