[Script Info] Title: [Events] Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text Dialogue: 0,0:00:00.00,0:00:02.00,Default,,0000,0000,0000,,[セバスチャン スラン]検索エンジンの構築方法についてどう考えますか? Dialogue: 0,0:00:02.00,0:00:03.00,Default,,0000,0000,0000,,以前構築したんでしょう? Dialogue: 0,0:00:03.00,0:00:06.00,Default,,0000,0000,0000,,[セルゲイ ・ ブリン - Google共同創設者]そうだよ。検索エンジンを構築する上で Dialogue: 0,0:00:06.00,0:00:08.00,Default,,0000,0000,0000,,最も重要なのは Dialogue: 0,0:00:08.00,0:00:12.00,Default,,0000,0000,0000,,始めに十分なコーパス(大量の言語データ)を用意することだと思う Dialogue: 0,0:00:12.00,0:00:19.00,Default,,0000,0000,0000,,我々の場合 いまより遥かに小規模だった world wide web を使った Dialogue: 0,0:00:19.00,0:00:21.00,Default,,0000,0000,0000,,でも当時は最先端で新鮮だった Dialogue: 0,0:00:21.00,0:00:23.00,Default,,0000,0000,0000,,予想もしなかったことがいろいろあったよ Dialogue: 0,0:00:23.00,0:00:26.00,Default,,0000,0000,0000,,[デビッド ・ エバンス]というわけで最初の3ユニットの目標はコーパスの構築です Dialogue: 0,0:00:27.00,0:00:30.00,Default,,0000,0000,0000,,ウェブ上を漁って 検索エンジン用のコーパスを構築したいのです Dialogue: 0,0:00:30.00,0:00:32.00,Default,,0000,0000,0000,,それをするのがウェブクローラです Dialogue: 0,0:00:32.00,0:00:36.00,Default,,0000,0000,0000,,ウェブクローラとは ウェブ上のコンテンツを収集するプログラムです Dialogue: 0,0:00:36.00,0:00:40.00,Default,,0000,0000,0000,,ブラウザーで閲覧するウェブページといえば、このようなものを思いつくでしょう Dialogue: 0,0:00:40.00,0:00:43.00,Default,,0000,0000,0000,,ウェブページの例としてudacityのサイトをあげることにします Dialogue: 0,0:00:43.00,0:00:47.00,Default,,0000,0000,0000,,サイトには画像・テキスト等 大量のコンテンツがあります Dialogue: 0,0:00:47.00,0:00:51.00,Default,,0000,0000,0000,,これらは全て あなたがページを要求するとあなたのブラウザにやって来ます Dialogue: 0,0:00:51.00,0:00:53.00,Default,,0000,0000,0000,,重要なのはリンクです Dialogue: 0,0:00:53.00,0:00:57.00,Default,,0000,0000,0000,,リンクとは、他のページに移動するものです Dialogue: 0,0:00:57.00,0:01:00.00,Default,,0000,0000,0000,,なので私達は よくある質問へのリンクや Dialogue: 0,0:01:00.00,0:01:02.00,Default,,0000,0000,0000,,CS101のページへのリンクを設けています。 Dialogue: 0,0:01:02.00,0:01:04.00,Default,,0000,0000,0000,,ページには他にもいくつかリンクがあります。 Dialogue: 0,0:01:04.00,0:01:07.00,Default,,0000,0000,0000,,リンクは下線付きで表示されるかもしれないし Dialogue: 0,0:01:07.00,0:01:09.00,Default,,0000,0000,0000,,ブラウザーの設定によってはされないかもしれません Dialogue: 0,0:01:09.00,0:01:11.00,Default,,0000,0000,0000,,しかしリンクの重要な点は Dialogue: 0,0:01:11.00,0:01:13.00,Default,,0000,0000,0000,,他のウェブページへのポインタとなるということです Dialogue: 0,0:01:13.00,0:01:16.00,Default,,0000,0000,0000,,そしてその他のウェブページにもリンクがあるので Dialogue: 0,0:01:16.00,0:01:19.00,Default,,0000,0000,0000,,このページにも別のリンクがあることになります Dialogue: 0,0:01:19.00,0:01:23.00,Default,,0000,0000,0000,,私の名前があるので、多分私のホームページへ行けるでしょう Dialogue: 0,0:01:23.00,0:01:26.00,Default,,0000,0000,0000,,私達のウェブクローラで見つけられるページは全て Dialogue: 0,0:01:26.00,0:01:29.00,Default,,0000,0000,0000,,リンクを辿ることによって発見されます Dialogue: 0,0:01:29.00,0:01:31.00,Default,,0000,0000,0000,,なのでクローラはウェブ上の全てのページを見つけるわけではないが Dialogue: 0,0:01:31.00,0:01:33.00,Default,,0000,0000,0000,,開始地点(シード)となるページが良ければ Dialogue: 0,0:01:33.00,0:01:35.00,Default,,0000,0000,0000,,多くのページを見つけられるでしょう。 Dialogue: 0,0:01:35.00,0:01:37.00,Default,,0000,0000,0000,,クローラが行うのは あるページから開始し Dialogue: 0,0:01:37.00,0:01:41.00,Default,,0000,0000,0000,,そのページの全てのリンクを発見し 他のページへ辿ります Dialogue: 0,0:01:41.00,0:01:45.00,Default,,0000,0000,0000,,その他のページ上でまたリンクを辿り Dialogue: 0,0:01:45.00,0:01:48.00,Default,,0000,0000,0000,,更に別のページを見つけます。これらのページ上にはさらに多くのリンクがあるでしょう Dialogue: 0,0:01:48.00,0:01:51.00,Default,,0000,0000,0000,,最終的にウェブ上にある大量のページを収集するのです Dialogue: 0,0:01:51.00,0:01:54.00,Default,,0000,0000,0000,,これがウェブクローラを構築するにあたってしたいことです Dialogue: 0,0:01:54.00,0:01:56.00,Default,,0000,0000,0000,,ある開始地点(シード)ページから Dialogue: 0,0:01:56.00,0:01:59.00,Default,,0000,0000,0000,,ページ上のリンクを抽出し Dialogue: 0,0:01:59.00,0:02:01.00,Default,,0000,0000,0000,,リンクを辿って他のページ群へ行き Dialogue: 0,0:02:01.00,0:02:03.00,Default,,0000,0000,0000,,そのページ群のリンクを収集 Dialogue: 0,0:02:03.00,0:02:05.00,Default,,0000,0000,0000,,またリンクを辿って、全部集めたい。 Dialogue: 0,0:02:05.00,0:02:07.00,Default,,0000,0000,0000,,やることが多いように思えますが Dialogue: 0,0:02:07.00,0:02:09.00,Default,,0000,0000,0000,,最初のクラスで全部やるつもりはありません Dialogue: 0,0:02:09.00,0:02:12.00,Default,,0000,0000,0000,,この最初のユニットで扱うのは リンクの抽出だけです。 Dialogue: 0,0:02:12.00,0:02:14.00,Default,,0000,0000,0000,,まずはテキスト群に注目します Dialogue: 0,0:02:14.00,0:02:17.00,Default,,0000,0000,0000,,その中にはURLを持ったリンクがあるでしょう Dialogue: 0,0:02:17.00,0:02:19.00,Default,,0000,0000,0000,,そのURLを見つけたいのです Dialogue: 0,0:02:19.00,0:02:21.00,Default,,0000,0000,0000,,そうすればの次のページを要求できます。 Dialogue: 0,0:02:21.00,0:02:23.00,Default,,0000,0000,0000,,第2ユニットでの目標は Dialogue: 0,0:02:23.00,0:02:25.00,Default,,0000,0000,0000,,抽出を続行できるようにすることです Dialogue: 0,0:02:25.00,0:02:28.00,Default,,0000,0000,0000,,あるページに大量のリンクがあったら、それらを全て見つけたいですよね Dialogue: 0,0:02:28.00,0:02:30.00,Default,,0000,0000,0000,,これがユニット2でやることです Dialogue: 0,0:02:30.00,0:02:32.00,Default,,0000,0000,0000,,全てのリンクを抽出するために、抽出作業を続ける方法を見つけるのです Dialogue: 0,0:02:32.00,0:02:36.00,Default,,0000,0000,0000,,ユニット3では 1つのページから他のページへ飛びます Dialogue: 0,0:02:36.00,0:02:40.00,Default,,0000,0000,0000,,なのでユニット2が終わる頃には、あるページ上の全てのリンクをプリント(表示)できるようになります Dialogue: 0,0:02:40.00,0:02:44.00,Default,,0000,0000,0000,,ユニット3では、探索を続行するために、これら全てのリンクを収集し Dialogue: 0,0:02:44.00,0:02:47.00,Default,,0000,0000,0000,,最終的にクローラの助けで大量のページを収集したいのです Dialogue: 0,0:02:47.00,0:02:50.00,Default,,0000,0000,0000,,なのでユニット3の終わりまでに、私たちはウェブクローラを構築します Dialogue: 0,0:02:50.00,0:02:52.00,Default,,0000,0000,0000,,コーパスを構築する方法もあります。 Dialogue: 0,0:02:52.00,0:02:57.00,Default,,0000,0000,0000,,残りの3つのユニットでは 実際にクエリに応答する方法を見ていきます。 Dialogue: 0,0:02:57.00,0:03:01.00,Default,,0000,0000,0000,,なのでユニット4 では 上手い応答のさせ方について理解します Dialogue: 0,0:03:01.00,0:03:08.00,Default,,0000,0000,0000,,キーワードを検索した際に そのキーワードが現れるページのリストを Dialogue: 0,0:03:08.00,0:03:10.00,Default,,0000,0000,0000,,応答として得たいのです。 Dialogue: 0,0:03:10.00,0:03:15.00,Default,,0000,0000,0000,,ユニット5でその方法を理解します。コーパスが大規模なら 合わせて大きくなります Dialogue: 0,0:03:15.00,0:03:19.00,Default,,0000,0000,0000,,ユニット6でやりたいのは 単にリストを見つけることではありません Dialogue: 0,0:03:19.00,0:03:21.00,Default,,0000,0000,0000,,最高のリストを見つけたいのです Dialogue: 0,0:03:21.00,0:03:24.00,Default,,0000,0000,0000,,よってキーワードが出現する全てのページをランク付けする方法を考えます Dialogue: 0,0:03:24.00,0:03:27.00,Default,,0000,0000,0000,,というわけで少し先の見通しを説明しました Dialogue: 0,0:03:27.00,0:03:30.00,Default,,0000,0000,0000,,ただユニット1で行うのは Dialogue: 0,0:03:30.00,0:03:32.00,Default,,0000,0000,0000,,ページからのリンク抽出方法を理解することだけです Dialogue: 0,0:03:32.00,0:03:35.00,Default,,0000,0000,0000,,私達が最終的に組み立てる検索エンジンは Dialogue: 0,0:03:35.00,0:03:37.00,Default,,0000,0000,0000,,実際に機能するものになるでしょう Dialogue: 0,0:03:37.00,0:03:40.00,Default,,0000,0000,0000,,Googleのような検索エンジンと同様の主要要素を備えるでしょう Dialogue: 0,0:03:40.00,0:03:43.00,Default,,0000,0000,0000,,たしかにGoogleほど強力にはならないでしょう Dialogue: 0,0:03:43.00,0:03:44.00,Default,,0000,0000,0000,,シンプルにしたいからです Dialogue: 0,0:03:44.00,0:03:46.00,Default,,0000,0000,0000,,コードを少し書くつもりです Dialogue: 0,0:03:46.00,0:03:48.00,Default,,0000,0000,0000,,私達の本来の目的は Dialogue: 0,0:03:48.00,0:03:50.00,Default,,0000,0000,0000,,検索エンジンの構築ではなく Dialogue: 0,0:03:50.00,0:03:52.00,Default,,0000,0000,0000,,検索エンジン構築を目標に進む過程で Dialogue: 0,0:03:52.00,0:03:55.00,Default,,0000,0000,0000,,コンピューター科学について学び Dialogue: 0,0:03:55.00,0:03:56.00,Default,,0000,0000,0000,,プログラミングについて学んでいくことなのです Dialogue: 0,0:03:56.00,0:03:58.00,Default,,0000,0000,0000,,そうすることで私達が学習することは Dialogue: 0,0:03:58.00,9:59:59.99,Default,,0000,0000,0000,,多くの問題を解決することを可能にしてくれるでしょう