Return to Video

Unit 10 2 Successes.mp4

  • 0:00 - 0:03
    Na przykład, w świecie złożonym z 3x4 kratek
  • 0:03 - 0:08
    cóż mamy czynić, jeśli nie wiemy, gdzie znajdują się nagrody +1 i -1, ani skąd zaczynamy?
  • 0:08 - 0:13
    Agent uczący się ze wzmocnieniem może nauczyć się eksplorować terytorium
  • 0:13 - 0:15
    odkryć, gdzie są te nagrody
  • 0:15 - 0:17
    i następnie nauczyć się optymalnej strategii.
  • 0:17 - 0:19
    Podczas gdy program oparty na procesach decyzyjnych Markowa mógłby to zrobić tylko
  • 0:19 - 0:22
    gdyby wiedział dokładnie, gdzie znajdują się nagrody.
  • 0:22 - 0:27
    Idea swobodnej włóczęgi i znalezienia +1 albo -1
  • 0:27 - 0:32
    jest analogiczna do wielu rodzajów gier, takich jak Backgammon
  • 0:32 - 0:35
    i oto przykład: Backgammon jest grą stochastyczną,
  • 0:35 - 0:38
    w której na koniec albo wygrywasz, albo przegrywasz.
  • 0:38 - 0:40
    W latach 90. XX wieku Gary Tesauro z IBM
  • 0:40 - 0:43
    napisał program grający w Backgammona.
  • 0:43 - 0:49
    Jego pierwszym podejściem była próba nauczenia programu użyteczności stanu Gry, U od S
  • 0:49 - 0:53
    w oparciu o przykłady, które były oznaczone przez ludzkich ekspertów od Backgammona.
  • 0:53 - 0:55
    Była to jednak żmudna praca dla ekspertów
  • 0:55 - 0:58
    zatem dość niewielka liczba stanów została oznaczona.
  • 0:58 - 1:00
    Program próbował uogólnić te dane
  • 1:00 - 1:02
    w oparciu o uczenie z nadzorem,
  • 1:02 - 1:04
    co jednak również nie dawało zadowalajacych wyników.
  • 1:04 - 1:11
    Druga próba Tesaura nie używała ludzkiej ekspertyzy ani nadzoru.
  • 1:11 - 1:14
    Zamiast tego, kazał jednej kopii programu grać przeciwko drugiej
  • 1:14 - 1:18
    i pod koniec gry zwycięzca otrzymywał pozytywną nagrodę,
  • 1:18 - 1:20
    a przegrany negatywną.
  • 1:20 - 1:22
    Używał zatem uczenia ze wzmocnieniem;
  • 1:22 - 1:25
    zachował wiedzę zdobytą w trakcie gry
  • 1:25 - 1:27
    i był w stanie sformułować funkcję
  • 1:27 - 1:30
    która nie musiała opierać się na informacji wprowadzonej przez ludzi
  • 1:30 - 1:32
    a mimo to był w stanie grać
  • 1:32 - 1:35
    na poziomie najlepszych graczy na świecie.
  • 1:35 - 1:41
    Był w stanie to robić, ucząc się na przykładach około 200 000 gier.
  • 1:41 - 1:43
    Może się to wydawać dużo
  • 1:43 - 1:46
    ale stanowi zaledwie jedną trylionową
  • 1:46 - 1:49
    całkowitej przestrzeni stanów w Backgammonie.
  • 1:49 - 1:51
    A oto kolejny przykład:
  • 1:51 - 1:54
    to jest zdalnie sterowany helikopter,
  • 1:54 - 1:56
    który został wytrenowany przez profesora Andrew Ng ze Strafordu
  • 1:56 - 1:58
    przy użyciu uczenia ze wzmocnieniem
  • 1:58 - 2:00
    tenże helikopter--och, jejku, przepraszam--
  • 2:00 - 2:04
    ale ze mnie głupek--umieściłem zdjęcie do góry nogami
  • 2:04 - 2:08
    otóż helikopter wytrenowany przez Ng
  • 2:08 - 2:11
    był w stanie wykonywać najdziwniejsze manewry--takie jak lot do góry nogami.
  • 2:11 - 2:15
    Robił to na podstawie zaledwie kilku godzin
  • 2:15 - 2:18
    danych treningowych zebranych od zawodowych pilotów helikopterów
  • 2:18 - 2:20
    którzy używali zdalnego sterowania
  • 2:20 - 2:23
    żeby pilotować helikopter, a wszystko to było nagrywane
  • 2:23 - 2:27
    a następnie dostawał nagrody, kiedy zrobił cos dobrego
  • 2:27 - 2:29
    albo kiedy zrobił coś złego;
  • 2:29 - 2:32
    profesor Ng potrafił użyć uczenia ze wzmocnieniem
  • 2:32 - 2:34
    żeby zbudować automatycznego pilota helikoptera
  • 2:34 - 2:36
    tylko na podstawie tych danych trenujących.
  • 2:36 - 2:39
    Tenże automatyczny pilot również potrafił robić tricki
  • 2:39 - 2:43
    które wcześniej umieli wykonać jedynie najzdolniejsi ludzie.
  • 2:43 - 2:49
    Jednak dość tych zdjęć--obejrzyjmy na filmie, jak helikoptery Nga sprawdzają się w praktyce.
  • 2:49 - 2:52
    [Autonomiczny Helikopter Uniwersytetu Stanforda]
  • 2:52 - 3:05
    [dźwięk lecącego helikoptera][chaos]
  • 3:05 -
    [Autonomiczny Helikopter Uniwersytetu Stanforda]
Title:
Unit 10 2 Successes.mp4
Description:

Unit 10 2 Successes.mp4

more » « less
Team:
Udacity
Project:
CS271 - Intro to Artificial Intelligence
Duration:
03:11
Amara Bot added a translation

Polish subtitles

Revisions