Polish subtitles

← Unit 10 2 Successes.mp4

Unit 10 2 Successes.mp4

Get Embed Code
3 Languages

Showing Revision 1 created 11/28/2012 by Amara Bot.

  1. Na przykład, w świecie złożonym z 3x4 kratek
  2. cóż mamy czynić, jeśli nie wiemy, gdzie znajdują się nagrody +1 i -1, ani skąd zaczynamy?
  3. Agent uczący się ze wzmocnieniem może nauczyć się eksplorować terytorium
  4. odkryć, gdzie są te nagrody
  5. i następnie nauczyć się optymalnej strategii.
  6. Podczas gdy program oparty na procesach decyzyjnych Markowa mógłby to zrobić tylko
  7. gdyby wiedział dokładnie, gdzie znajdują się nagrody.
  8. Idea swobodnej włóczęgi i znalezienia +1 albo -1
  9. jest analogiczna do wielu rodzajów gier, takich jak Backgammon
  10. i oto przykład: Backgammon jest grą stochastyczną,
  11. w której na koniec albo wygrywasz, albo przegrywasz.
  12. W latach 90. XX wieku Gary Tesauro z IBM
  13. napisał program grający w Backgammona.
  14. Jego pierwszym podejściem była próba nauczenia programu użyteczności stanu Gry, U od S
  15. w oparciu o przykłady, które były oznaczone przez ludzkich ekspertów od Backgammona.
  16. Była to jednak żmudna praca dla ekspertów
  17. zatem dość niewielka liczba stanów została oznaczona.
  18. Program próbował uogólnić te dane
  19. w oparciu o uczenie z nadzorem,
  20. co jednak również nie dawało zadowalajacych wyników.
  21. Druga próba Tesaura nie używała ludzkiej ekspertyzy ani nadzoru.
  22. Zamiast tego, kazał jednej kopii programu grać przeciwko drugiej
  23. i pod koniec gry zwycięzca otrzymywał pozytywną nagrodę,
  24. a przegrany negatywną.
  25. Używał zatem uczenia ze wzmocnieniem;
  26. zachował wiedzę zdobytą w trakcie gry
  27. i był w stanie sformułować funkcję
  28. która nie musiała opierać się na informacji wprowadzonej przez ludzi
  29. a mimo to był w stanie grać
  30. na poziomie najlepszych graczy na świecie.
  31. Był w stanie to robić, ucząc się na przykładach około 200 000 gier.
  32. Może się to wydawać dużo
  33. ale stanowi zaledwie jedną trylionową
  34. całkowitej przestrzeni stanów w Backgammonie.
  35. A oto kolejny przykład:
  36. to jest zdalnie sterowany helikopter,
  37. który został wytrenowany przez profesora Andrew Ng ze Strafordu
  38. przy użyciu uczenia ze wzmocnieniem
  39. tenże helikopter--och, jejku, przepraszam--
  40. ale ze mnie głupek--umieściłem zdjęcie do góry nogami
  41. otóż helikopter wytrenowany przez Ng
  42. był w stanie wykonywać najdziwniejsze manewry--takie jak lot do góry nogami.
  43. Robił to na podstawie zaledwie kilku godzin
  44. danych treningowych zebranych od zawodowych pilotów helikopterów
  45. którzy używali zdalnego sterowania
  46. żeby pilotować helikopter, a wszystko to było nagrywane
  47. a następnie dostawał nagrody, kiedy zrobił cos dobrego
  48. albo kiedy zrobił coś złego;
  49. profesor Ng potrafił użyć uczenia ze wzmocnieniem
  50. żeby zbudować automatycznego pilota helikoptera
  51. tylko na podstawie tych danych trenujących.
  52. Tenże automatyczny pilot również potrafił robić tricki
  53. które wcześniej umieli wykonać jedynie najzdolniejsi ludzie.
  54. Jednak dość tych zdjęć--obejrzyjmy na filmie, jak helikoptery Nga sprawdzają się w praktyce.
  55. [Autonomiczny Helikopter Uniwersytetu Stanforda]
  56. [dźwięk lecącego helikoptera][chaos]
  57. [Autonomiczny Helikopter Uniwersytetu Stanforda]