Italian subtitles

← MaxEnt 3 The Maximum Entropy Method

Get Embed Code
3 Languages

Showing Revision 3 created 04/17/2017 by Marzio Di Feo.

  1. Messa a fuoco la formula per il maxent
  2. nel secondo passo, anzitutto, si vuole che
  3. la distribuzione di probabilità la soddisfi
  4. sui valori medi del tempo di attesa;
  5. e, poi, che la particolare distribuzione
  6. di probabilità abbia la massima entropia
  7. Per massimizzare la funzione p log p
  8. dimentico sempre il segno negativo.
  9. Infatti, stiamo massimizzando la funzione
  10. negativa somma su tutti gli stati del sistma
  11. p log p. Gli stati del sistema
  12. qui rappresentano l'attesa di un particolare
  13. taxi. O piuttosto, l'attesa dal tempo
  14. esato dal quale aveto iniziato ad aspettarlo.
  15. Ecco qui un problema complicato, o
  16. almeno non facilissimo. Di fronte ad
  17. un elementare calcolo, si è davvero bravi a massimizzare
  18. le funzioni. Immaginate in particolare...
  19. e userò un esempio semplice
  20. di una funzione su uno spazio bidimensionale
  21. Assi x1 e x2 con alcune funzioni.
  22. Ne segnerò
  23. i termini generali.
  24. Ecco, farò in modo che
  25. ci sarà un solo massimo nello spazio.
  26. Edi questo parleremo in una delle appendici,
  27. se avremo tempo, perché possiamo
  28. provre che la funzione di entropia ha solo
  29. un massimo persino con questa funzione.
  30. Per ora, prendete per buono
  31. l'unicità della soluzione al problema.
  32. Qui la funzione con un unico punto
  33. di massimo, la funzione f.
  34. Con le vostre grandionse capacità di calcolo
  35. il punto di massimo di f è definito come
  36. il punto delle derivate rispetto a x
  37. uguale a 0. Si tratta di vettore
  38. per cui df/dx1 è 0 e
  39. df/dx2 è 0. Ora potreste raggiungere
  40. per sbaglio un minimo, controllate
  41. bene come fareste.
  42. Non possiamo ora più considerare
  43. l'intero spazio. Ma restringiamo ad alcuni
  44. sottospazi, nello specifico ad alcune
  45. funzioni. Come trovare, dunque,
  46. il punto di massimo della funzione,
  47. non globale, ma che soddisfi una serie
  48. di condizioni, disegnate come linee
  49. nello spazio. Un punto è un valido
  50. argomento per la funzione f
  51. ma non soddisfa la condizione
  52. specifica. Pertanto, la definiremo
  53. come g(x) = c, dove c è un numero
  54. particolare. E per essere chiari
  55. sarebbe meglio scrivere g(p)
  56. uguale a 4 minuti.
  57. La nostra particolare condizione è che
  58. la funzione g sia ugiale a 4.
  59. É un esempio generale. Dobbiamo ora
  60. trovare il punto di massimo, la cima della
  61. montagna. Vogliamo trovare il punto che
  62. rappresenti il massimo lungo questa linea
  63. g(x) = c
  64. In maniera intuitiva, immaginate che
  65. un treno percorra una zona di montagna
  66. andate giù, lungo i contorni
  67. della funzione f. In questo caso, salite
  68. - la funzione cresce - toccando
  69. dei punti che non rappresentano
  70. il punto massimo della funzione
  71. lungo la linea, se aspettate un po'
  72. di più, arrivate qui e avete di già
  73. superato il controno. Qui, salite.
  74. Scendete poi lungo la montagna
  75. Superate la linea di contorno
  76. in altro modo, ben sapete
  77. che il pinto di massimo non può essere qui
  78. perché avete toccato punti più alti.
  79. Quindi, in qualche parte tra questi punti
  80. c'è il punto di massimo - nel mezzo
  81. arrivatee in cima, quando cioè i contorni
  82. della funzione f sono paralleli al percorso dei binari
  83. dove c'è un punto di tangenza tra il contorno
  84. e la direzione del treno.
  85. Sappiano come procedono le direzioni
  86. dei contorni della funzione f - questi sono solo
  87. il gradiente della funzione...è un vettore, ricordatelo.
  88. E questi sono uguali alla perpendicolare
  89. dei binari. Se questa è parallela
  90. alla perpendicolare dei contorni,
  91. la direzione dei contorni è parallela
  92. alla direzione dei binari.
  93. Se le due perpendicolari sono
  94. parallele, sono i due vettori d'origine.
  95. La prossima domanda sarà
  96. come ottenere la perpendicolare ai binari.
  97. Immaginate che questo sia il percorso del
  98. treno per g(x) = c, e questo per
  99. g(x) = c' e così via. Qui un altro insieme
  100. di contorni definito come funzione g e
  101. vogliamo trovare le sue perpindicolari
  102. parallete ai contorni per f
  103. le perpendicoali per i contorni di f.
  104. Questo gradiente, qui - queste frecce
  105. e, in particolare, queste frecce qui -
  106. sono uguali al numero reale lambda volte
  107. il gradiente. QUando questa equazione
  108. è soddisfatta, significa che questi contorni
  109. sono esattamente paralleli a questi contorni.
  110. Per massimizzare la funzione f soggetta
  111. ad una serie di condizioni, non risolvetela qui.
  112. Non risolvete questo problema, ma quest'altro.
  113. E scoprirete questo misterioso valore lambda.
  114. Questo è chiamato il moltiplicatore di Langrange.
  115. Proveremo a trovare una soluzione
  116. dove i gradiente siano paralleli tra di loro.
  117. In altri temrini, questo può essere trasformato
  118. in altro lungo i fattori costanti degli assi.
  119. Il motivo intuititvo per la soluzione
  120. a determinate condizioni quando ne avete
  121. solo una. Ora, troviamo il punto
  122. di allineamento dei due gradienti.
  123. É come una piega.
  124. Sembra che abbiamo una sola condizione da rispettare
  125. cioè che questa funzione sia uguale a 4. Ma
  126. abbiamo 2 condizioni. L'altra è
  127. la normalizzazione generale, cioè
  128. che la funzione p venga normalizzata per 1
  129. Se sommate le probabilità dei tempi
  130. di arrivo, saranno uguali a 1.
  131. Ora p è la probabilità
  132. e sappiamo che dev'essere vera. Non lo
  133. sappiamo esplicitamente, ma quando
  134. andiamo nella funzione - dove xs diventano ps,
  135. manipoliamo le probabilità
  136. vogliamo esplicitare la condizione che
  137. la somma sia uguale a 1 quando consideriamo
  138. il punto massimo della funzione f. Vogliamo
  139. spaziare nello spazio intero, per esempio,
  140. dove tutte le probabilità siano 0.
  141. E poi vogliamo imporre
  142. la condizione di normalizzazione. Abbiamo così
  143. 2 condizioni, non 1 soltanto.