WEBVTT 00:00:00.000 --> 00:00:04.000 今SLAC国立加速器研究所にいます 00:00:04.000 --> 00:00:07.000 宇宙の謎を解明するためにコンピューティングが どのように活用されているか見ていきます 00:00:07.000 --> 00:00:12.000 クライストロンギャラリーにいます ここは以前世界で一番長いビルでした 00:00:15.000 --> 00:00:18.000 あなたは今SLAC国立加速器研究所にいます 00:00:18.000 --> 00:00:26.000 築50年の研究所です 研究所の周りの街灯柱に それを示す旗がつけられています 00:00:26.000 --> 00:00:31.000 ここは約3.2キロメートルの直線加速装置を 開発するために設立されました 00:00:31.000 --> 00:00:34.000 SLACはまだ加速器の研究所です 00:00:34.000 --> 00:00:41.000 主なサイエンスは加速粒子、新しい物質の状態の生成 00:00:41.000 --> 00:00:46.000 または加速粒子を使った物質の性質を 調査することに基づいています 00:00:46.000 --> 00:00:51.000 ここからたくさんのデータや たくさんの情報が必ず生まれてきました 00:00:51.000 --> 00:00:55.000 これはデータ集約型実験サイエンスです 00:00:55.000 --> 00:01:00.000 初期のSLACのコンピューティングから 00:01:00.000 --> 00:01:05.000 データの分析までがここの主要業務になっています 00:01:05.000 --> 00:01:11.000 宇宙について研究するには コンピュータが不可欠です 00:01:11.000 --> 00:01:17.000 調べる機会を得てもそれがどのように進化して 現在の状態になったか理解するために 00:01:17.000 --> 00:01:19.000 すべての作業をコンピュータで行わなければなりません 00:01:19.000 --> 00:01:22.000 そのシミュレーションを行うために 大量のコンピューティングを行います 00:01:22.000 --> 00:01:26.000 触媒作用や物質科学に関する大量のコンピューティング 00:01:26.000 --> 00:01:29.000 そして膨大な量のデータ分析も行われます 00:01:29.000 --> 00:01:32.000 現在私が携わっている粒子物理学実験は 00:01:32.000 --> 00:01:40.000 約300ぺタバイトのディスク領域があります 00:01:40.000 --> 00:01:47.000 この分析を行うために 世界には約30万テラバイトや約3億ギガバイトの 00:01:47.000 --> 00:01:50.000 ディスク領域があります 00:01:50.000 --> 00:01:54.000 もちろん宇宙について すべてを把握するにはまだ程遠いですが 00:01:54.000 --> 00:02:00.000 おそらくこれが今日の科学において 最も一般的なデータ集約型作業になります 00:02:00.000 --> 00:02:07.000 私が携わっている ATLAS検出器から出される生データ率は 00:02:07.000 --> 00:02:10.000 1秒当たり約1ぺタバイトです 00:02:10.000 --> 00:02:16.000 これは1秒当たり100万ギガバイトに相当します 00:02:16.000 --> 00:02:19.000 世の中に知られている 一般的な保存量ではそれを保存できません 00:02:19.000 --> 00:02:27.000 そのため生データの大部分は急いで調査され 十分な量が保存可能なデータ量に縮減されます 00:02:27.000 --> 00:02:32.000 ヒッグス粒子はニュースで知っていると思いますが 現在ヒッグス粒子の信号を探すために 00:02:32.000 --> 00:02:37.000 非常に多くのぺタバイトのデータを ふるいにかけています 00:02:37.000 --> 00:02:43.000 すぐに結果が出るとは思っていませんが 期待が持てそうな兆しも出てきています 00:02:43.000 --> 00:02:45.000 今のところこれが私たちが行っているやり方です 00:02:45.000 --> 00:02:48.000 物理学に革命を及ぼすようなものを選択するためには 00:02:48.000 --> 00:02:55.000 このように膨大な量のデータを持つ必要があります 00:02:55.000 --> 00:02:59.000 そしてデータをすべて詳細に把握する必要があります 00:02:59.000 --> 00:03:02.000 なぜなら探しているものが他のすべてのものと比較して 少しだけ珍しいものだからです 00:03:02.000 --> 00:03:07.000 すべてのものを完璧に理解できなければ 何も分かったことになりません 00:03:07.000 --> 00:03:13.000 SLACのATLAS選別システムが組み込まれている ラックの1つを見ています 00:03:13.000 --> 00:03:16.000 ATLASはスイスジュネーブにある 大型ハドロン衝突型加速器(LHC)です 00:03:16.000 --> 00:03:22.000 これは室温で持っているエネルギーの何兆倍で 00:03:22.000 --> 00:03:27.000 とても光速に近い速さで移動させることで 00:03:27.000 --> 00:03:30.000 自然の基本的な構成要素である陽子を衝突させます 00:03:30.000 --> 00:03:33.000 一度に非常に多くの衝突が起こせます 00:03:33.000 --> 00:03:39.000 そして数兆ものデータチャネルを読み出す 巨大な機械です 00:03:39.000 --> 00:03:42.000 最終的にはこの膨大な量のデータ つまりぺタバイトのデータを持つことになります 00:03:42.000 --> 00:03:48.000 その内部にある特定のレアなサインを探す 分析をしなければなりません 00:03:48.000 --> 00:03:53.000 多くのエネルギーを持ち たくさんの珍しい粒子を同時に有する何かである 00:03:53.000 --> 00:03:56.000 レアなサインを探したい場合 00:03:56.000 --> 00:04:00.000 この機械に保存するものは何兆にもなります 00:04:00.000 --> 00:04:06.000 十分な時間の中でそれを見つけ出すためには 同時にたくさんの調査をしなければいけません 00:04:06.000 --> 00:04:10.000 コンピュータ上のすべてのコアを 使用する必要があります 00:04:10.000 --> 00:04:14.000 十分な時間で行えるように機械の何百ものコアが 00:04:14.000 --> 00:04:18.000 同時にフルスピードですべてを実行します 00:04:18.000 --> 00:04:22.000 これは現在検索エンジンが行っていることとは 少し違います 00:04:22.000 --> 00:04:28.000 検索エンジンはテキスト文字列を探し このように何らかの方法で見つけた 00:04:28.000 --> 00:04:31.000 あらゆるテキスト文字列をインデックス化しています 00:04:31.000 --> 00:04:34.000 これは実に構造的です 00:04:34.000 --> 00:04:36.000 これらのデータの構造が分かります 00:04:36.000 --> 00:04:41.000 このようなデータに取り入れたいと思うものは 何でも入手できる方法が分かっています 00:04:41.000 --> 00:04:46.000 なぜならすべてが一緒にリンクされていて とても分かりやすいからです 00:04:46.000 --> 00:04:48.000 物事は常に間違った方向に向かいます 00:04:48.000 --> 00:04:51.000 ディスクからデータが失われないとは仮定できません 00:04:51.000 --> 00:04:55.000 1つのコンピュータセンターから別のところへ ネットワークを通じてデータを送ります 00:04:55.000 --> 00:04:57.000 ダメージなく送られるとは仮定できませんし 00:04:57.000 --> 00:05:01.000 計算中にコンピュータが壊れないとも仮定できません 00:05:01.000 --> 00:05:07.000 すべてのことが悪い方向へ進む可能性があり LHCのために行うコンピューティングでは 00:05:07.000 --> 00:05:11.000 エラー修正や再試行がよく起きます 00:05:11.000 --> 00:05:14.000 基本的な不具合率はとても高いものがあります 00:05:14.000 --> 00:05:18.000 しかしすべてが自動的に再試行され エラーが修正されている時には 00:05:18.000 --> 00:05:23.000 高い処理能力と高い成功率が得られています