Return to Video

Dough Cutting: The Origins of Hadoop

  • 0:00 - 0:06
    まずHadoopの成り立ちをお話しします
  • 0:06 - 0:10
    2003年頃私はNutchというオープンソースの
  • 0:10 - 0:13
    Webサーチエンジンを開発していました
  • 0:13 - 0:20
    私たちは大容量に対応できるものが必要だと考えました
  • 0:20 - 0:23
    Webには膨大なデータが存在し
  • 0:23 - 0:26
    テラバイト、ペタバイトといった量のデータを
  • 0:26 - 0:28
    処理する必要があるからです
  • 0:28 - 0:32
    私たちは努力を続けましたが
    大変な仕事でした
  • 0:32 - 0:35
    4~5台のマシンを使いましたが
  • 0:35 - 0:38
    うまくいきませんでした
  • 0:38 - 0:42
    その頃Googleがある論文を発表しました
  • 0:42 - 0:46
    分散型ファイルシステム(TFS)についてと
  • 0:46 - 0:51
    処理、構成、MapReduceについての論文です
  • 0:53 - 0:58
    私は当時のプロジェクトのパートナーと
  • 0:58 - 1:03
    Google以外の人がそれを利用できるように
  • 1:03 - 1:07
    オープンソースとして再実装しようとしました
  • 1:07 - 1:10
    数年後私たちはNutchを発表しました
  • 1:10 - 1:13
    20台~40台のマシンで稼働したものの
  • 1:13 - 1:18
    完璧なレベルではありませんでした
  • 1:18 - 1:21
    信頼性は低いですが動いていたので
  • 1:21 - 1:24
    私には確信がありました
  • 1:24 - 1:27
    もし何千台ものマシンで処理すれば
  • 1:27 - 1:30
    要求される性能を満たし
  • 1:30 - 1:33
    人員を増員やすことになるだろうと
  • 1:33 - 1:36
    その頃YahooがNutchに興味を持ち
  • 1:36 - 1:38
    私に連絡をよこしました
  • 1:38 - 1:42
    そこで2006年に私はYahooで働くことにしました
  • 1:43 - 1:47
    まず私はYahooでNutchの一部を使い
  • 1:47 - 1:49
    分散処理システムを作りました
  • 1:49 - 1:53
    それが新プロジェクトとなりHadoopと命名されます
  • 1:55 - 1:59
    それから数年はYahooや他の支援を得て
  • 1:59 - 2:04
    Hadoopを数千台のプロセッサで稼働しました
  • 2:04 - 2:06
    容量はペタバイトの域にまで達し
  • 2:06 - 2:12
    信頼性も高まりました
  • 2:12 - 2:16
    Hadoopはインターネット業界を中心に企業へ配布され
  • 2:16 - 2:19
    とても成功しました
  • 2:19 - 2:24
    その後私たちは
    関連するプロジェクトをスタートしました
  • 2:24 - 2:29
    Hadoopはビッグデータ処理システムの
  • 2:29 - 2:33
    基幹技術に成長を遂げました
  • 2:33 - 2:37
    MapReduceプログラムが簡単に書ける
  • 2:37 - 2:41
    ツールが完成したのです
  • 2:41 - 2:47
    SQLやPigと呼ばれるデータフロー言語で開発できます
  • 2:47 - 2:50
    さらに高度なレベルのツールもあります
  • 2:50 - 2:55
    Imparaによる双方向SQLやSearchなどです
  • 2:55 - 3:00
    我々はこの開発をデータ処理のための
  • 3:00 - 3:03
    汎用プラットフォームと位置付けています
  • 3:04 - 3:06
    機能はさらに拡張され
  • 3:06 - 3:11
    より一層柔軟性が増しています
Cím:
Dough Cutting: The Origins of Hadoop
Leírás:

more » « less
Video Language:
English
Team:
Udacity
Projekt:
ud617 - Intro to Hadoop and Mapreduce
Duration:
03:12

Japanese subtitles

Felülvizsgálatok