WEBVTT 00:00:06.070 --> 00:00:07.120 やあ、僕はジョン 00:00:07.510 --> 00:00:10.140 Googleで リサーチ&マシンラーニングチームを率いている 00:00:12.130 --> 00:00:14.230 世界中の人たちが検索エンジンを使って 00:00:14.230 --> 00:00:16.214 ささいな疑問や驚くほど 00:00:16.215 --> 00:00:18.730 重要な疑問を調べてるのって 00:00:18.730 --> 00:00:20.930 かなり刺激的なものだと思う 00:00:20.930 --> 00:00:23.030 だから出来る限り最適な答えを 00:00:23.030 --> 00:00:24.864 彼らに提示することは とても大きな責任だと思っている 00:00:26.710 --> 00:00:30.610 こんにちは、私はアクシャヤ Bing検索チームで働いているわ 00:00:30.910 --> 00:00:33.190 人工知能やマシンラーニングを 00:00:33.190 --> 00:00:35.800 見始めるような時はたくさんあるけど、 00:00:35.830 --> 00:00:39.010 ユーザーがどうやって使用していくのかについて 議論する必要があるわ 00:00:39.140 --> 00:00:42.390 だって、一日の終わりには 社会に何らかの影響を与えていたいもの 00:00:43.780 --> 00:00:45.400 単純な質問をしてみましょう 00:00:45.820 --> 00:00:48.070 火星へ行けるまではどのくらいかかる? 00:00:49.330 --> 00:00:50.950 これらの検索結果はどこから来たもので 00:00:51.370 --> 00:00:54.100 なぜ他の回答よりも これらが最初にリスト化されているのか? 00:00:55.700 --> 00:00:58.150 まずはどうやって検索エンジンが あなたの検索に対して 00:00:58.150 --> 00:00:59.860 結果を出しているのかを見てみようか 00:01:00.690 --> 00:01:03.360 検索を行う時に まず始めに知らなくちゃいけないことは 00:01:03.430 --> 00:01:06.480 実際、検索エンジンは リアルタイムであなたの検索ワードを 00:01:06.480 --> 00:01:08.010 ワールドワイドウェブ上で 作動させているのではないこと 00:01:08.140 --> 00:01:10.610 それゆえ、10億以上のウェブサイトが インターネット上にあって 00:01:10.610 --> 00:01:14.140 数百以上のウェブサイトが 1分ごとに作られているってこと 00:01:14.140 --> 00:01:16.210 だから、もしあなたの求めている結果を見つけるために 00:01:16.240 --> 00:01:18.690 検索エンジンがこれら全てのサイトを 見て回らなくちゃならなければ 00:01:18.690 --> 00:01:20.120 永遠に時間はかかるよね 00:01:20.500 --> 00:01:21.940 検索結果を素早く出すために 00:01:21.970 --> 00:01:24.940 事前に検索エンジンは定期的に ウェブをスキャニングしていて 00:01:25.420 --> 00:01:28.560 後であなたの検索に 役立つような情報を記録している 00:01:28.930 --> 00:01:31.270 こうすることで、「火星へ行く」ことに ついて検索をかける場合、 00:01:31.630 --> 00:01:33.240 検索エンジンはリアルタイムで 00:01:33.240 --> 00:01:35.728 あなたにその答えを出せるようなものを 既に持っているというわけ 00:01:36.250 --> 00:01:37.540 どのように作動しているかを見てみましょう 00:01:37.900 --> 00:01:42.010 インターネットは、それぞれが ハイパーリンクで繋がっているページのウェブね 00:01:42.400 --> 00:01:45.920 これらのウェブページを横切るスパイダーという プログラムがあるんだけど、 00:01:45.920 --> 00:01:47.380 情報を集めるために検索エンジンは、 00:01:47.380 --> 00:01:49.040 そのスパイダーを定期的に作動させている 00:01:49.780 --> 00:01:51.550 ハイパーリンクを見つけるたびに 00:01:52.090 --> 00:01:55.000 全てのページを訪問するまで付いて行って、 00:01:55.030 --> 00:01:57.240 全体のインターネット上で見つけることができるようになる 00:01:57.335 --> 00:01:59.170 スパイダーが訪問する各ページにおいて 00:01:59.200 --> 00:02:02.320 検索に必要かもしれない情報を記録するために 00:02:02.500 --> 00:02:05.650 検索インデックスと呼ばれる特別なデータベースへ その情報を追加する 00:02:07.166 --> 00:02:09.530 では、先程の検索に戻って 00:02:09.590 --> 00:02:11.990 どのように検索エンジンが結果をもってくることが 00:02:11.990 --> 00:02:13.333 できるのかを見てみよう 00:02:13.640 --> 00:02:16.460 「火星に行くにはどのくらいかかる?」と質問した時 00:02:16.640 --> 00:02:18.860 検索エンジンは、検索インデックスにある それらの単語一つ一つを探して 00:02:18.920 --> 00:02:21.410 その単語が含まれているインターネット上の 00:02:21.410 --> 00:02:24.500 全てのページのリストを素早くゲットする 00:02:24.890 --> 00:02:26.870 だけど、これらの単語を検索するだけだと 00:02:26.870 --> 00:02:28.760 数百万ものページが出てきてしまうので 00:02:28.760 --> 00:02:31.110 検索エンジンは、まず始めに どの結果が一番あなたに見せるのに 00:02:31.110 --> 00:02:33.120 適しているのかを決める必要がある 00:02:33.340 --> 00:02:36.010 この部分がトリッキーなんだけど だって、検索エンジンは 00:02:36.010 --> 00:02:38.040 あなたが何を探しているのかを 推測しなくちゃならないからね 00:02:38.930 --> 00:02:41.360 それぞれの検索エンジンは 独自のアルゴリズムを使っていて 00:02:41.360 --> 00:02:44.230 あなたがほしいと思っているものをベースにして ページをランク付ける 00:02:44.930 --> 00:02:47.660 検索エンジンのランキングアルゴリズムは 00:02:47.990 --> 00:02:50.360 検索ワードがページのタイトルに 表示されているかをチェックして 00:02:50.900 --> 00:02:53.820 その隣同士に全ての単語が 並んでいるのかどうかをチェックしたり 00:02:54.520 --> 00:02:57.510 あるいはどのページをあなたが見たがっていて どれを見たがっていないのかを 00:02:57.510 --> 00:02:59.430 決められるような他の計算をする 00:02:59.430 --> 00:03:01.420 数字を求めたりする 00:03:02.960 --> 00:03:04.960 Googleは一番有名なアルゴリズムを開発したんだけど 00:03:04.960 --> 00:03:08.530 それはどのくらい他のウェブページが そのページにリンクされているかを 00:03:08.560 --> 00:03:11.230 考慮することで 一番関連のある検索結果を選ぶ 00:03:11.830 --> 00:03:14.140 アイデアとしては 多くのウェブサイトがそのウェブサイトを 00:03:14.140 --> 00:03:15.660 面白いものだと思っているのであれば 00:03:15.660 --> 00:03:17.940 それはもしかしたら あなたが探しているものである可能性が高い 00:03:18.190 --> 00:03:20.020 「ページランク」と呼ばれるこのアルゴリズムは 00:03:20.590 --> 00:03:22.330 ウェブページをランク付けするからではなく、 00:03:22.570 --> 00:03:25.210 その発明者、ラリー・ページに由来している 00:03:25.480 --> 00:03:27.333 Google設立者の一人だね 00:03:27.940 --> 00:03:30.520 大体の場合、訪問されることで ウェブサイトはお金を稼ぐことができるので 00:03:30.820 --> 00:03:32.950 スパムの発信者は どうやって検索アルゴリズムを操作できるのか 00:03:32.950 --> 00:03:35.741 定期的にその方法を探っている。そうすれば 00:03:35.742 --> 00:03:37.931 検索結果でより高い位置に リストされることが可能になるからね 00:03:38.260 --> 00:03:40.750 検索エンジンは 定期的にアルゴリズムを更新することで 00:03:40.750 --> 00:03:44.296 結果の上部に信ぴょう性のないサイトや フェイクサイトが来ないようにしている 00:03:44.680 --> 00:03:47.550 最近では これらのページに信ぴょう性がないかどうかは 00:03:47.550 --> 00:03:50.490 ウェブアドレスを見て 信頼できるソースであるのかどうかを決めるのは 00:03:50.490 --> 00:03:52.990 あなた次第でもあるんだけど 00:03:53.680 --> 00:03:55.390 検索プログラムは、アルゴリズムを改善するために 常に進化し続けている 00:03:55.420 --> 00:03:58.420 そうすることで、他の競合社よりも素早く より良い結果を 00:03:58.540 --> 00:04:00.460 もたらすことができるようにね 00:04:01.000 --> 00:04:03.100 今日の検索エンジンは、検索を絞り込むのに 00:04:03.100 --> 00:04:06.820 明確に提示していないような情報さえも 使用することができる 00:04:07.150 --> 00:04:10.120 だから例えば、「ドッグ・パーク」へ検索をかけた場合、 00:04:10.240 --> 00:04:12.190 多くの検索エンジンでは あなたの近くにある全てのドッグ・パークを 00:04:12.190 --> 00:04:13.840 検索結果して表示するだろう 00:04:14.080 --> 00:04:16.260 あなたが自分の位置情報を入力していなくてもね 00:04:17.800 --> 00:04:20.530 現代の検索エンジンは、ページにある単語以上のことを 00:04:20.530 --> 00:04:22.060 理解できるようになっているけど 00:04:22.300 --> 00:04:24.970 それはあなたが探しているものに対して 00:04:24.970 --> 00:04:26.750 最適な結果を表示するためなの 00:04:27.130 --> 00:04:29.980 例えば、「速いピッチャー」の検索をかける場合 00:04:30.280 --> 00:04:32.300 検索エンジンはあなたがアスリートを 探しているのだということが分かっている 00:04:32.500 --> 00:04:34.450 だけど、もし「大きいピッチャー」という検索をかけたら 00:04:34.450 --> 00:04:36.730 キッチン用品のオプションを表示するかもしれない 00:04:38.420 --> 00:04:41.910 単語をより良く理解するためにも マシンラーニングというものを使っている 00:04:41.910 --> 00:04:43.985 人工知能の一種だよ 00:04:43.985 --> 00:04:46.050 これによって検索アルゴリズムが ページ内の単語や個別の文字だけじゃなく 00:04:46.090 --> 00:04:48.400 単語の基本的な意味を理解して 00:04:48.400 --> 00:04:51.280 検索をかけることができるようになる 00:04:53.690 --> 00:04:55.850 インターネットは指数関数的に成長しているけど 00:04:56.210 --> 00:04:59.810 検索エンジンをデザインするチームが 的確な仕事を行うことで 00:05:00.080 --> 00:05:04.090 あなたが知りたい情報が常に一番に あがってくるようにすることができるのよ