Return to Video

21-02 Language Models

  • 0:00 - 0:03
    言語モデルの話から始めます
  • 0:03 - 0:07
    AIの分野の歴史を見てみると自然言語理解には
  • 0:07 - 0:10
    2種類の有名なモデルがあります
  • 0:10 - 0:16
    1つは文字や語の並び順と関係があります
  • 0:16 - 0:20
    このタイプのモデルは
    文字や語の順序を論じる際に
  • 0:20 - 0:24
    確率論的になる傾向があります
  • 0:24 - 0:30
    また扱うのは表面的な語や
    文字そのものであるという点で
  • 0:30 - 0:33
    語中心と言えます
  • 0:33 - 0:37
    ただし扱っているのは
    根底にあるエッセンスではなく
  • 0:37 - 0:39
    目の前にあるデータです
  • 0:39 - 0:44
    こうしたモデルは主にデータから学習したものです
  • 0:44 - 0:50
    対照的なのがもう1つのタイプで
    皆さんも知っているかもしれません
  • 0:50 - 0:54
    それは主として木構造や抽象構造を扱います
  • 0:54 - 1:01
    例えばここに名詞句と動詞句から成る
    文章があります
  • 1:01 - 1:07
    名詞句は“サム”というような人の名前で
  • 1:07 - 1:14
    動詞句は“眠った”であるとします
  • 1:14 - 1:16
    非常に簡単な文章です
  • 1:16 - 1:20
    2つのモデルの性質は異なります
  • 1:20 - 1:25
    右のモデルは確率論的というより
    論理的な傾向があります
  • 1:25 - 1:32
    一方左のモデルは語系列の確率に注目しています
  • 1:32 - 1:40
    右のモデルは一組の文章を取り上げて
    言語を定義します
  • 1:40 - 1:44
    対象言語の中にこの文章が
    あるかないかのどちらかです
  • 1:44 - 1:50
    確率論的な識別というより
    ブーリアン型の識別です
  • 1:50 - 1:57
    このモデルは木構造やカテゴリといった
    抽象化に基づいています
  • 1:57 - 2:02
    カテゴリとは名詞句や動詞句や
    このような木構造のようなものです
  • 2:02 - 2:08
    実際それは表層形式
    つまり観察できる単語レベルでは現れません
  • 2:08 - 2:12
    エージェントは“サム”や“眠った”という
    単語を観察できても
  • 2:12 - 2:19
    “眠った”は動詞でこの木構造の一部であることを
    直接には観察できません
  • 2:19 - 2:25
    従来からこうしたアプローチは主に
    ハンドコーディングで行われてきました
  • 2:25 - 2:29
    つまりこうした構造を
    データから学習するのではなく
  • 2:29 - 2:35
    言語学者など外部の専門家に
    ルールを書いてもらって学んだのです
  • 2:35 - 2:39
    今ではこうした区別は不要です
  • 2:39 - 2:45
    木構造モデルや確率論的モデルを自由に採用して
  • 2:45 - 2:48
    どちらでも学べます
  • 2:48 - 2:53
    私たちは両モデルを自由に行き来できますが
    従来はこのような区別がありました
タイトル:
21-02 Language Models
Video Language:
English
Team:
Udacity
プロジェクト:
CS271 - Intro to Artificial Intelligence
Duration:
02:54

Japanese subtitles

改訂