We're here at SLAC National Accelerator Lab,
and we're going to see how they use computing to understand the mysteries of the universe.
[Spencer Gessner:] We're standing in the klystron gallery, formerly the longest building in the world.
[Richard Mount:] You're here at SLAC National Accelerator Laboratory.
This is a 50-year-old laboratory, as all the flags on the lampposts around the lab are telling you.
It was founded to build a 2-mile-long linear accelerator.
SLAC is an accelerator laboratory still.
Its main science is based on accelerating particles and creating new states of matter
or exploring the nature of matter with the accelerated particles.
This always has generated a lot of data, a lot of information.
It's very data-intensive experimental science.
From the earliest days of SLAC computing
to analyze data has been a major part of the activity here.
You really can only study the cosmos by studying it in a computer.
You get one chance to look at it,
but to understand how it evolved into the state it is now,
you have to do all this in the computer.
There are massive computations going on for that sort of simulation,
massive computations in catalysis and material science
and massive data analysis going on here as well.
The particular particle physics experiment
that I am involved in right now has some 300 petabytes of disk space--
some 300,000 terabytes, some 300 million gigabytes of disk space
around the world to do this analysis.
Of course, we are far from understanding everything about the universe,
but this is probably one of the most data-intensive activity in science today.
The raw data rate coming out of the ATLAS detector that I'm involved in
is about a petabyte a second.
That's 1 million gigabytes a second.
You can't store that with any budget known to man,
so most of it is inspected on the fly and reduced to a much smaller, but still large, storable amount of data.
Right now we are sifting through these many, many petabytes of data
to look for signals of the Higgs boson, as no doubt people have heard in the news.
There are tantalizing hints that I'm not holding my breath about at all right now,
but this is the way we do it.
You need to have those vast amounts of data
just to pick out the things that will really revolutionize physics in there,
and you need to understand all of it in detail, because what you're looking for
is something slightly unusual compared with everything else.
If you don't understand everything else perfectly then you don't understand anything.
[Max Swiatlowski:] We're looking at one of the racks that contains
the ATLAS proof buster at SLAC.
ATLAS is an experimental Large Hadron Collider in Geneva, Switzerland,
that collides protons, fundamental building blocks of nature,
traveling at very, very, very close to the speed of light
with trillions of times the energy that they have at room temperature.
You get many and many of these collisions happening at once
and this enormous machine that reads out trillions of data channels.
At the end of the day, you have this enormous amount of data--petabytes of data--
that you have to analyse looking for very rare, very particular signatures inside of that.
If I want to look for a rare signature--something that had a lot of energy
and a lot of really strange particles at once--
there are trillions and trillions of these events stored on this machine.
To look for them in any reasonable amount of time,
I have to do many searches at once.
I have to use all the cores on the computers--
the hundreds of cores on the machine all running at full-speed at the same time--
to have any hope of doing it in any reasonable amount of time.
[Richard Mount:] This isn't the sort of thing that search engines currently do.
They're looking for text strings and indexing all the text strings that they find
in some way like this.
What we have is very, very structured.
We know the structure of these data.
We know exactly how to go to anything that we want to get to in these data,
because the way in which everything is linked together is very well understood.
Things will go wrong all the time.
You cannot assume you won't lose data from the disk.
You send it by network from one computer center to another.
You cannot assume it arrives undamaged.
You cannot assume your computers don't die in the middle of calculations.
Everything can go wrong, so the computing we do for the LHC
has many layers of error correction and retry.
Some of the basic failure rates are quite high,
but by the time everything has been fairly automatically retried
and errors have been corrected, we get high throughput and a high success rate.
今SLAC国立加速器研究所にいます
宇宙の謎を解明するためにコンピューティングが
どのように活用されているか見ていきます
クライストロンギャラリーにいます
ここは以前世界で一番長いビルでした
あなたは今SLAC国立加速器研究所にいます
築50年の研究所です 研究所の周りの街灯柱に
それを示す旗がつけられています
ここは約3.2キロメートルの直線加速装置を
開発するために設立されました
SLACはまだ加速器の研究所です
主なサイエンスは加速粒子、新しい物質の状態の生成
または加速粒子を使った物質の性質を
調査することに基づいています
ここからたくさんのデータや
たくさんの情報が必ず生まれてきました
これはデータ集約型実験サイエンスです
初期のSLACのコンピューティングから
データの分析までがここの主要業務になっています
宇宙について研究するには
コンピュータが不可欠です
調べる機会を得てもそれがどのように進化して
現在の状態になったか理解するために
すべての作業をコンピュータで行わなければなりません
そのシミュレーションを行うために
大量のコンピューティングを行います
触媒作用や物質科学に関する大量のコンピューティング
そして膨大な量のデータ分析も行われます
現在私が携わっている粒子物理学実験は
約300ぺタバイトのディスク領域があります
この分析を行うために
世界には約30万テラバイトや約3億ギガバイトの
ディスク領域があります
もちろん宇宙について
すべてを把握するにはまだ程遠いですが
おそらくこれが今日の科学において
最も一般的なデータ集約型作業になります
私が携わっている
ATLAS検出器から出される生データ率は
1秒当たり約1ぺタバイトです
これは1秒当たり100万ギガバイトに相当します
世の中に知られている
一般的な保存量ではそれを保存できません
そのため生データの大部分は急いで調査され
十分な量が保存可能なデータ量に縮減されます
ヒッグス粒子はニュースで知っていると思いますが
現在ヒッグス粒子の信号を探すために
非常に多くのぺタバイトのデータを
ふるいにかけています
すぐに結果が出るとは思っていませんが
期待が持てそうな兆しも出てきています
今のところこれが私たちが行っているやり方です
物理学に革命を及ぼすようなものを選択するためには
このように膨大な量のデータを持つ必要があります
そしてデータをすべて詳細に把握する必要があります
なぜなら探しているものが他のすべてのものと比較して
少しだけ珍しいものだからです
すべてのものを完璧に理解できなければ
何も分かったことになりません
SLACのATLAS選別システムが組み込まれている
ラックの1つを見ています
ATLASはスイスジュネーブにある
大型ハドロン衝突型加速器(LHC)です
これは室温で持っているエネルギーの何兆倍で
とても光速に近い速さで移動させることで
自然の基本的な構成要素である陽子を衝突させます
一度に非常に多くの衝突が起こせます
そして数兆ものデータチャネルを読み出す
巨大な機械です
最終的にはこの膨大な量のデータ
つまりぺタバイトのデータを持つことになります
その内部にある特定のレアなサインを探す
分析をしなければなりません
多くのエネルギーを持ち
たくさんの珍しい粒子を同時に有する何かである
レアなサインを探したい場合
この機械に保存するものは何兆にもなります
十分な時間の中でそれを見つけ出すためには
同時にたくさんの調査をしなければいけません
コンピュータ上のすべてのコアを
使用する必要があります
十分な時間で行えるように機械の何百ものコアが
同時にフルスピードですべてを実行します
これは現在検索エンジンが行っていることとは
少し違います
検索エンジンはテキスト文字列を探し
このように何らかの方法で見つけた
あらゆるテキスト文字列をインデックス化しています
これは実に構造的です
これらのデータの構造が分かります
このようなデータに取り入れたいと思うものは
何でも入手できる方法が分かっています
なぜならすべてが一緒にリンクされていて
とても分かりやすいからです
物事は常に間違った方向に向かいます
ディスクからデータが失われないとは仮定できません
1つのコンピュータセンターから別のところへ
ネットワークを通じてデータを送ります
ダメージなく送られるとは仮定できませんし
計算中にコンピュータが壊れないとも仮定できません
すべてのことが悪い方向へ進む可能性があり
LHCのために行うコンピューティングでは
エラー修正や再試行がよく起きます
基本的な不具合率はとても高いものがあります
しかしすべてが自動的に再試行され
エラーが修正されている時には
高い処理能力と高い成功率が得られています
我们现在在斯坦福直线加速器中心(SLAC) 国家加速器实验室,
我们将去看看他们如何使用计算,了解宇宙的奥秘。
[斯潘塞格斯纳:]我们就站在速调管走廊,以前世界上最长的建筑。
[理查德 · 装载:]你现在在SLAC 国家加速器实验室。
这是一个有50 多年历史的实验室,实验室周围灯杆上的所有标志都说明了这一点。
实验室的建立是为了建一个2 英里长的直线加速器。
SLAC仍然是一个加速器实验室。
其主要的科学是基于加速粒子,发明新的物态,
或用加速粒子探索物质的性质的基础之上。
这总能生成大量的数据,大量的信息。
这是数据密集型实验科学。
从SLAC早期的计算,
到分析数据,已成为了这里的主要活动。
你真的只能在计算机中研究宇宙。
你有一次机会去看看宇宙,
去了解宇宙如何进化成现在的状态,
你必须在计算机中进行。
这里有进行模拟的大规模计算,
催化和材料科学的大规模计算,
以及大量的数据分析。
我正在参与的特殊粒子物理实验
有一些300pb的磁盘空间
一些300,000tb和300 万gb的磁盘空间,
我们在世界各地做这种分析。
当然,我们还远远不了解宇宙的一切,
但这可能是今天科学领域数据最密集的活动之一。
我所参与的ATLAS 探测器的原始数据速率
是每秒钟1pb。
也就是每秒100万gb。
任何人都不能存储如此多数据,
大多数数据都是被飞速检查,数据虽大幅减少,但仍是大量可存储的数据。
现在 我们在筛选很多pb的数据,
寻找希格斯玻骰子的信号,无疑大家在新闻中有听说过。
这些诱人提示,让我无法屏住呼吸,
但这是我们运用的方法。
你需要有那些大量的数据,
为了挑选将物理真正革命化的东西,
您需要了解所有的细节,因为你在寻找的
和其他一切比较起来 有点不寻常。
如果你不完全了解其他一切,那么你什么都不懂。
[Max Swiatlowski:]我们正在看的机架
推翻了在SLAC的ATLAS所产生的数据。
ATLAS 是瑞士日内瓦的实验大型强子对撞机,
碰撞质子,大自然的基本构成物,
其速度非常接近光速,
其能量是在室温中的数万亿倍。
你立刻可以看到许多这类的碰撞,
这台庞大的机器读出数万亿的数据通道。
在一天结束时,你有庞大的数据——数pb的数据——
你要分析在里面寻找非常罕见,非常特别的签名。
如果我想要寻找罕见的签名--有很多能量的东西,
马上有很多奇异粒子——
这是存储在此机器上的无数的事件。
在任何合理时间内寻找它们,
我必须马上进行很多的搜索。
我需要使用计算机上所有的内核——
机器上数百个内核同时在全速运行——
希望在任何合理时间内完成。
[理查德 · 装载:]这不是搜索引擎目前正在做的事情。
他们正在寻找文本字符串和索引他们找到的所有文本字符串,
通过像这样的方式。
我们有的非常有结构。
我们知道这些数据的结构。
我们知道如何找到我们想要的数据,
因为我们非常了解的一切连接的方式。
事情一直会出错。
你不能假设您不会从磁盘中丢失数据。
您通过网络从一个计算机中心向另一个发送数据。
您不能假定数据会完好无损到达目的地。
你不能假定您的计算机在计算的过程中不会死机。
一切都会出错,所以我们为LHC 做的计算
有多层的错误纠正和重试。
一些基本的失败率是相当高的,
但当一切都已自动重试,
纠正已经被纠正之后,我们会得到高吞吐量和高成功率。
我們目前在 SLAC 國家加速器實驗室
我們將去看看他們如何使用計算,了解宇宙的奧秘
[Spencer Gessner] 我們就站在速調管 (klystron) 走廊,
曾經是世界上最長的建築
[Richard Mount] 你現在在 SLAC 國家加速器實驗室
這是一個 50 多年歷史的實驗室,
實驗室周圍燈桿上的所有標誌都說明了這一點
它的建立是為了建一個 2 英里長的直線加速器
SLAC 仍然是一個加速器實驗室
其主要的科學是基於加速粒子,創造新的物態
或用加速粒子來探索物質的性質
它一直在產生大量的資料,大量的資訊
這是資料密集的實驗科學
從 SLAC 早期的計算
到分析資料,已成為了這裡的主要活動
你真的只能在電腦中研究宇宙
你有一次機會去看看宇宙
去了解宇宙如何進化成現在的狀態
你必須在電腦中進行
這裡有進行模擬的大規模計算
催化和材料科學的大規模計算
這裡也有大量的資料分析
我現在也參與了
特別的粒子物理實驗,有一些 300 petabytes 的磁碟空間
也就是 300,000 terabytes
或 300 萬 gigabytes 的磁碟空間
在世界各地做這種分析
當然,我們距離了解宇宙的一切還很遙遠
但這可能是今天科學領域中,資料最密集的活動之一
我所參與的 ATLAS 探測器的原始資料速率
是每秒鐘 1 petabyte
也就是每秒 100 萬 gigabytes
任何人的預算,都不能儲存這麼多的資料
大多數資料都是飛速地檢查,減少到小很多,
但仍是很大的可儲存的資料
現在,我們在篩選很多、很多 petabytes 的資料
尋找希格斯玻色子 (Higgs boson) 的信號,
無疑地大家在新聞中有聽說過
這些誘人的提示,讓我無法屏住呼吸
但這是我們做的方法
你必須有那些大量的資料
只是為了挑選將物理真正革命化的東西
你需要了解所有的細節,因為你在尋找的
和其他一切比較起來,有點不尋常
如果你不完全了解其他一切,那麼你什麼都不懂
[Max Swiatlowski] 我們正在看其中一個機架,包含
在 SLAC 的 ATLAS proof buster
ATLAS 是瑞士日內瓦的實驗大型強子對撞機
它碰撞質子,大自然的基本構成物
質子移動的速度非常接近光速
其能量是在室溫中的數兆倍
你立刻可以看到很多、很多這類的碰撞
這台龐大的機器讀出數萬億的資料通道 (data channel)
在一天結束時,你有龐大的資料,petabytes 資料
你必須分析,
在裡面尋找非常罕見,非常特別的特徵 (signatures)
如果我想要立即尋找罕見的特徵 (signatures),
有很多能量的東西
以及很多奇異粒子
在這機器中,儲存了上兆 (trillions) 的事件
為了在合理的時間內尋找它們
我必須馬上進行很多的搜尋
我需要使用電腦上所有的核心
機器上,數百個核心同時全速運行
希望在合理的時間內完成
[Richard Mount] 這不是搜尋引擎這類程式
目前做的事情
他們尋找文字的字串,和索引他們找到的所有文字字串
像這樣的方式
我們所做的非常、非常有結構
我們知道這些資料的結構
我們確實知道如何在這些資料中,找到想要的資料
因為我們已經非常了解,每件事連結在一起的方式
事情總是會出錯
你不能假設,你在磁碟中不會丟失資料
你藉由網路,從一個電腦中心向另一個電腦中心,
發送資料
你不能假設資料會完好無損地到達目的地
你不能假設電腦在計算的過程中不會死當
一切都可能出錯,所以我們為 LHC 做的計算
有許多層的錯誤糾正 (error correction) 和重試 (retry)
一些基本的失敗率是相當高的
但當一切都完全地自動重試
錯誤被修正之後,我們會得到高產出量 (throughput)
以及高成功率