Italian subtitles

← MaxEnt 4 MaxEnt Applied to the Taxicab Example, Part 1

Get Embed Code
3 Languages

Showing Revision 2 created 04/17/2017 by Marzio Di Feo.

  1. Ricordiamoci di avere due condizioni
  2. una, il valore atteso di x, media di attesa
    di 4 minuti
  3. l'altro è la probabilità che la somma
    sia 1
  4. Queste le nostre condizioni,
    e ora rendiamo
  5. massima l'entropia di una distribuzione,
    soggetta a queste condizioni.
  6. Ok? S sarà la nostra funzione di entropia
  7. e non avremo 1 g ma 2 g, ok?
  8. Una g questa funzione,
    l'altra g questa. Ok?
  9. Come la rendiamo massima
    sotto queste condizioni
  10. per più di una condizione?
    Intuitivamente,
  11. come possiamo raggiungere non
    una condizione
  12. ma due?
  13. Vi darò la risposta,
  14. essendo assai più complicata operare
    con condizioni multiple
  15. ma è una risposta intutitiva, sempre
    la peggiore da ricordare
  16. e se volete lavorarci
  17. ci sono una serie di posti dove trovare
    la risposta.
  18. Qui come risolvere i moltiplicatori di Lagrange
  19. il metodo dei moltiplicatori di Lagrange,
    ricordate il moltiplicatore di Lagrange
  20. è il termine lambda, okay? E quindi,
    da questo deriva anche l'origine del suo nome
  21. vogliamo massimizzare la funzione f
  22. soggetta ad una serie di condizioni, ora,
  23. e chiameremo queste condizioni,
    g sub i, g1, g2, fino a
  24. n condizioni
  25. e il modo di operare è impostare
    il gradiente della funzione uguale ad
  26. una combinazione lineare dei gradienti
    delle condizioni.
  27. Questo quando hai n condizioni.
  28. Questo è, in generale, il metodo dei
    moltiplicatori di Lagrange,
  29. per massimizzare la funzione soggetta
    a n condizioni,
  30. impostare il gradiente della funzione f uguale
    ad una combinazione lineare
  31. del gradiente della funzione g, e
    il problema
  32. è come trovare g. Quello che sappiamo
    è, il punto di massimo
  33. è tale che si possono aggiungere insieme tutti
    questi gradienti,
  34. con un misura per riprodurre il gradiente
    originale dei contorni.
  35. Ok? E, ora il problema è, cosa
    sono queste L, o quali sono queste lambda,
  36. proveremo a risolverlo insieme,
    il problema della massima
  37. entropia, usando questa formula,
    anche se ora sembra una cosa oscura,
  38. alla fine, non la sarà affatto.
  39. Girate le manopole
  40. finché non ottenete la lambda in modo che
  41. queste lamnda soddisfino una particolare
    condizione di un valore che avete in mente.
  42. Proviamo a massimizzare non un'arbitraria
    funzione f, ma l'entropia,
  43. e le nostre condizione saranno la condizione
    della media, e
  44. una condizione sulla normalizzazione. La derivata
    di S
  45. rispetto a p_i, passo dopo passo nel vettore,
  46. vogliamo che sia uguale alla labda1,
    per la derivata di g1rispetto a p_1,
  47. più lambda 2 per la derivata di g2
    rispetta a p_i. Ok?
  48. Ricordate, S è l'entropia
    della distribuzione,
  49. S è uguale a meno la somma di
    tutti i possibili tempi di attesa.
  50. Di nuovo, per convenienza,
    parlerlò di un caso discreto,
  51. potete prendere i limiti, se potete
    impostare misure esatte,
  52. e poi farli diventare integrali,
    e da questo degli integrali
  53. e così quest'altro.
  54. Ma è più facile concettualmente, parlare
    dapprima di un caso discreto.
  55. Quinid, g1, ricordate, la funzione di p,
    è un vettore qui, ok?
  56. g1 è la somma i da 0 a infinito, ok,
    di p_i volte i.
  57. E uso i invece di x
  58. perchè più facile da scrivere. Ok?
  59. Questa è la funzione della condizione, ok,
    che lega il valore medio.
  60. E vogliamo alla fine g1(p) uguale
    a 4 minuti.
  61. g2(p) è la condizione di normalizzazione
    in modo che la funzioni sia la somma
  62. di tutti i valori di p, e alla fine
    prenderemo g2 = 1.
  63. E precedentemente abbiamo definito qui
    l'entropia.
  64. Quindi, cosa accadrebbe se la derivata dell'entropia,
    rispetto ad una particolare probabilità,
  65. giusto, una particolare probabilità di una
    particolare configurazione, ok?
  66. Spostiamolo qui, S è uguale al negativo
    p_i log p_i da 0 a infinito,
  67. ok? dS/d(p_i), uguali, l'unico termine
    che rimarrà è
  68. dova avete p_i in questo, e poi
    abbiamo la derivata di p_i log p_i,
  69. questi hanno due termini: log p_i,
    e poi l'altro p_i per la derivata di
  70. log p_i, la derivata di log p_i è 1/p_i,
    infatti avete +1.
  71. Sulla sinistra dell'equazione del vostro
    moltiplicatore di Lagrange.
  72. Ricordate, abbiamo impostato la base
    del log ad e.
  73. Ora prendiamo la derivata di
    g1 rispetto a p_i,
  74. ok? Di nuovo, prendiamo la derivata di
    questa somma rispetto a p_i,
  75. e troverete,
    dg1/d(p_i) = i,
  76. e infine, dg2/d(p_i) = 1.
  77. C'è solo un termine della somma che non
    sarà distrutto dalla derivata.
  78. Mettiamoli insieme,
  79. abbiamo meno log p_i - 1 uguale a
    lambda1, per la derivata di g_1,
  80. rispetto a p_i, che è i, più la
    derivata di g2 rispetto a p_i,
  81. per lambda2, ecco la nostra equazione, ok,
    che soddisfa
  82. il tentativo di massimizzare l'entropia,
    proviamo a massimizzare questa funzione,
  83. soggetta a queste condizione, per alcuni
    valori della condizione.
  84. Risolviamo per p_i. Spostiamo un po'
    di cose
  85. e abbiamo meno 1 meno lambda1 i,
    meno lambda 2, uguale a log p_i,
  86. eleviamo entrambi i lati a potenza,
    capovolgiamoli, e abbiamo
  87. p_i uguale a -1 meno lambda1 i,
    meno lambda 2. Ok?
  88. E, in maniera più succinta
    possiamo scrivere così
  89. e alla lambda1 i diviso per Z,
  90. dove Z è uguale a e a 1 più lambda2.
  91. La probabilità di attesa di un certo
    tempo i è uguale a e a meno
  92. lambda1 per i, distribuzione
    esponenziale dei tempi di attesa.
  93. Ora, non resta che descrivere
    cosa rappresenta lambda1,
  94. e Z.
  95. Trasformiamo, descriviamo, cioè,
    il valore
  96. impostato a lambda1
  97. per soddisfare un particolare valore della
    condizione,
  98. e questo particolare valore della
    condizione. Così,
  99. la forma della funzione della
    distribuzione,
  100. e ora descriviamo i parametri
    di quella funzione.
  101. Ci saranno due parametri.
  102. La prima cosa che sappiamo è
  103. che la probabilità è normalizzata,
    ovvero,
  104. ok?
  105. inseriamo nella funzione, e ora
    possiamo risolvere per Z
  106. in termini di lambda1. Eliminiamo la
    prima variabile Z, è facile.
  107. Possiamo impostare Z uguale alla somma i da 0
    a infinito, e da meno lambda1 i
  108. ok? Abbiamo già eliminato
    una variabile.
  109. e ora, dobbiamo risolvere
    per questa condizione. Ok?
  110. In particoalre, scriviamo qui
  111. In particolare, abbiamo la somma da i con 0 a
    infinito per e a meno lambda1 i
  112. i, su Z, uguale a 4.