WEBVTT 00:00:00.000 --> 00:00:03.000 Na przykład, w świecie złożonym z 3x4 kratek 00:00:03.000 --> 00:00:08.000 cóż mamy czynić, jeśli nie wiemy, gdzie znajdują się nagrody +1 i -1, ani skąd zaczynamy? 00:00:08.000 --> 00:00:13.000 Agent uczący się ze wzmocnieniem może nauczyć się eksplorować terytorium 00:00:13.000 --> 00:00:15.000 odkryć, gdzie są te nagrody 00:00:15.000 --> 00:00:17.000 i następnie nauczyć się optymalnej strategii. 00:00:17.000 --> 00:00:19.000 Podczas gdy program oparty na procesach decyzyjnych Markowa mógłby to zrobić tylko 00:00:19.000 --> 00:00:22.000 gdyby wiedział dokładnie, gdzie znajdują się nagrody. 00:00:22.000 --> 00:00:27.000 Idea swobodnej włóczęgi i znalezienia +1 albo -1 00:00:27.000 --> 00:00:32.000 jest analogiczna do wielu rodzajów gier, takich jak Backgammon 00:00:32.000 --> 00:00:35.000 i oto przykład: Backgammon jest grą stochastyczną, 00:00:35.000 --> 00:00:38.000 w której na koniec albo wygrywasz, albo przegrywasz. 00:00:38.000 --> 00:00:40.000 W latach 90. XX wieku Gary Tesauro z IBM 00:00:40.000 --> 00:00:43.000 napisał program grający w Backgammona. 00:00:43.000 --> 00:00:49.000 Jego pierwszym podejściem była próba nauczenia programu użyteczności stanu Gry, U od S 00:00:49.000 --> 00:00:53.000 w oparciu o przykłady, które były oznaczone przez ludzkich ekspertów od Backgammona. 00:00:53.000 --> 00:00:55.000 Była to jednak żmudna praca dla ekspertów 00:00:55.000 --> 00:00:58.000 zatem dość niewielka liczba stanów została oznaczona. 00:00:58.000 --> 00:01:00.000 Program próbował uogólnić te dane 00:01:00.000 --> 00:01:02.000 w oparciu o uczenie z nadzorem, 00:01:02.000 --> 00:01:04.000 co jednak również nie dawało zadowalajacych wyników. 00:01:04.000 --> 00:01:11.000 Druga próba Tesaura nie używała ludzkiej ekspertyzy ani nadzoru. 00:01:11.000 --> 00:01:14.000 Zamiast tego, kazał jednej kopii programu grać przeciwko drugiej 00:01:14.000 --> 00:01:18.000 i pod koniec gry zwycięzca otrzymywał pozytywną nagrodę, 00:01:18.000 --> 00:01:20.000 a przegrany negatywną. 00:01:20.000 --> 00:01:22.000 Używał zatem uczenia ze wzmocnieniem; 00:01:22.000 --> 00:01:25.000 zachował wiedzę zdobytą w trakcie gry 00:01:25.000 --> 00:01:27.000 i był w stanie sformułować funkcję 00:01:27.000 --> 00:01:30.000 która nie musiała opierać się na informacji wprowadzonej przez ludzi 00:01:30.000 --> 00:01:32.000 a mimo to był w stanie grać 00:01:32.000 --> 00:01:35.000 na poziomie najlepszych graczy na świecie. 00:01:35.000 --> 00:01:41.000 Był w stanie to robić, ucząc się na przykładach około 200 000 gier. 00:01:41.000 --> 00:01:43.000 Może się to wydawać dużo 00:01:43.000 --> 00:01:46.000 ale stanowi zaledwie jedną trylionową 00:01:46.000 --> 00:01:49.000 całkowitej przestrzeni stanów w Backgammonie. 00:01:49.000 --> 00:01:51.000 A oto kolejny przykład: 00:01:51.000 --> 00:01:54.000 to jest zdalnie sterowany helikopter, 00:01:54.000 --> 00:01:56.000 który został wytrenowany przez profesora Andrew Ng ze Strafordu 00:01:56.000 --> 00:01:58.000 przy użyciu uczenia ze wzmocnieniem 00:01:58.000 --> 00:02:00.000 tenże helikopter--och, jejku, przepraszam-- 00:02:00.000 --> 00:02:04.000 ale ze mnie głupek--umieściłem zdjęcie do góry nogami 00:02:04.000 --> 00:02:08.000 otóż helikopter wytrenowany przez Ng 00:02:08.000 --> 00:02:11.000 był w stanie wykonywać najdziwniejsze manewry--takie jak lot do góry nogami. 00:02:11.000 --> 00:02:15.000 Robił to na podstawie zaledwie kilku godzin 00:02:15.000 --> 00:02:18.000 danych treningowych zebranych od zawodowych pilotów helikopterów 00:02:18.000 --> 00:02:20.000 którzy używali zdalnego sterowania 00:02:20.000 --> 00:02:23.000 żeby pilotować helikopter, a wszystko to było nagrywane 00:02:23.000 --> 00:02:27.000 a następnie dostawał nagrody, kiedy zrobił cos dobrego 00:02:27.000 --> 00:02:29.000 albo kiedy zrobił coś złego; 00:02:29.000 --> 00:02:32.000 profesor Ng potrafił użyć uczenia ze wzmocnieniem 00:02:32.000 --> 00:02:34.000 żeby zbudować automatycznego pilota helikoptera 00:02:34.000 --> 00:02:36.000 tylko na podstawie tych danych trenujących. 00:02:36.000 --> 00:02:39.000 Tenże automatyczny pilot również potrafił robić tricki 00:02:39.000 --> 00:02:43.000 które wcześniej umieli wykonać jedynie najzdolniejsi ludzie. 00:02:43.000 --> 00:02:49.000 Jednak dość tych zdjęć--obejrzyjmy na filmie, jak helikoptery Nga sprawdzają się w praktyce. 00:02:49.000 --> 00:02:52.000 [Autonomiczny Helikopter Uniwersytetu Stanforda] 00:02:52.000 --> 00:03:05.000 [dźwięk lecącego helikoptera][chaos] 00:03:05.000 --> 99:59:59.999 [Autonomiczny Helikopter Uniwersytetu Stanforda]