Chinese, Simplified subtitles

← SLAC and Big Data

Get Embed Code
4 Languages

Showing Revision 3 created 06/03/2012 by sunli542342.

  1. 我们现在在斯坦福直线加速器中心(SLAC) 国家加速器实验室,
  2. 我们将去看看他们如何使用计算,了解宇宙的奥秘。
  3. [斯潘塞格斯纳:]我们就站在速调管走廊,以前世界上最长的建筑。
  4. [理查德 · 装载:]你现在在SLAC 国家加速器实验室。
  5. 这是一个有50 多年历史的实验室,实验室周围灯杆上的所有标志都说明了这一点。
  6. 实验室的建立是为了建一个2 英里长的直线加速器。
  7. SLAC仍然是一个加速器实验室。
  8. 其主要的科学是基于加速粒子,发明新的物态,
  9. 或用加速粒子探索物质的性质的基础之上。
  10. 这总能生成大量的数据,大量的信息。
  11. 这是数据密集型实验科学。
  12. 从SLAC早期的计算,
  13. 到分析数据,已成为了这里的主要活动。
  14. 你真的只能在计算机中研究宇宙。
  15. 你有一次机会去看看宇宙,
  16. 去了解宇宙如何进化成现在的状态,
  17. 你必须在计算机中进行。
  18. 这里有进行模拟的大规模计算,
  19. 催化和材料科学的大规模计算,
  20. 以及大量的数据分析。
  21. 我正在参与的特殊粒子物理实验
  22. 有一些300pb的磁盘空间
  23. 一些300,000tb和300 万gb的磁盘空间,
  24. 我们在世界各地做这种分析。
  25. 当然,我们还远远不了解宇宙的一切,
  26. 但这可能是今天科学领域数据最密集的活动之一。
  27. 我所参与的ATLAS 探测器的原始数据速率
  28. 是每秒钟1pb。
  29. 也就是每秒100万gb。
  30. 任何人都不能存储如此多数据,
  31. 大多数数据都是被飞速检查,数据虽大幅减少,但仍是大量可存储的数据。
  32. 现在 我们在筛选很多pb的数据,
  33. 寻找希格斯玻骰子的信号,无疑大家在新闻中有听说过。
  34. 这些诱人提示,让我无法屏住呼吸,
  35. 但这是我们运用的方法。
  36. 你需要有那些大量的数据,
  37. 为了挑选将物理真正革命化的东西,
  38. 您需要了解所有的细节,因为你在寻找的
  39. 和其他一切比较起来 有点不寻常。
  40. 如果你不完全了解其他一切,那么你什么都不懂。
  41. [Max Swiatlowski:]我们正在看的机架
  42. 推翻了在SLAC的ATLAS所产生的数据。
  43. ATLAS 是瑞士日内瓦的实验大型强子对撞机,
  44. 碰撞质子,大自然的基本构成物,
  45. 其速度非常接近光速,
  46. 其能量是在室温中的数万亿倍。
  47. 你立刻可以看到许多这类的碰撞,
  48. 这台庞大的机器读出数万亿的数据通道。
  49. 在一天结束时,你有庞大的数据——数pb的数据——
  50. 你要分析在里面寻找非常罕见,非常特别的签名。
  51. 如果我想要寻找罕见的签名--有很多能量的东西,
  52. 马上有很多奇异粒子——
  53. 这是存储在此机器上的无数的事件。
  54. 在任何合理时间内寻找它们,
  55. 我必须马上进行很多的搜索。
  56. 我需要使用计算机上所有的内核——
  57. 机器上数百个内核同时在全速运行——
  58. 希望在任何合理时间内完成。
  59. [理查德 · 装载:]这不是搜索引擎目前正在做的事情。
  60. 他们正在寻找文本字符串和索引他们找到的所有文本字符串,
  61. 通过像这样的方式。
  62. 我们有的非常有结构。
  63. 我们知道这些数据的结构。
  64. 我们知道如何找到我们想要的数据,
  65. 因为我们非常了解的一切连接的方式。
  66. 事情一直会出错。
  67. 你不能假设您不会从磁盘中丢失数据。
  68. 您通过网络从一个计算机中心向另一个发送数据。
  69. 您不能假定数据会完好无损到达目的地。
  70. 你不能假定您的计算机在计算的过程中不会死机。
  71. 一切都会出错,所以我们为LHC 做的计算
  72. 有多层的错误纠正和重试。
  73. 一些基本的失败率是相当高的,
  74. 但当一切都已自动重试,
  75. 纠正已经被纠正之后,我们会得到高吞吐量和高成功率。