Spanish subtitles

← MaxEnt 3 The Maximum Entropy Method

Get Embed Code
3 Languages

Showing Revision 7 created 05/26/2017 by Matias Agelvis.

  1. Hemos reducido nuestra descripción
    de máxima entropía
  2. En dos simples pasos.
  3. Lo primero que queremos es que
  4. la distribución de probabilidad
  5. satisfaga esta restricción
  6. el valor promedio del tiempo de espera.
  7. y lo segundo que queremos
  8. es que esa distribución de probabilidad
  9. tenga la máxima entropía, para maximizar
  10. la función p log p
  11. siempre olvido el signo negativo
  12. de hecho, queremos maximizar
    la función negativa
  13. sumatoria sobre
    todos los estados del sistema p log p.
  14. Y recuerden,
    los estados del sistema aquí
  15. corresponden a cuanto tiempo
    espero un taxi en particular
  16. O mas bien, el tiempo que esperó desde
  17. el momento en particular
    en el que deicidio empezar a esperar.
  18. Entonces,
    este resulta ser un problema difícil,
  19. o al menos un problema no trivial.
  20. Si ha estudiado un poco de calculo
  21. y es realmente bueno
    maximizando funciones...
  22. Bien, vamos a empezar aquí
  23. imaginemos en particular...
  24. y uso este simple ejemplo
  25. de maximización de funciones
  26. en un espacio bidimensional
  27. Vamos a llamar estos los ejes x1 y x2.
  28. Entonces tengo alguna función.
  29. Voy a dibujar los contornos para usted
  30. así que aquí vamos,
    y lo que voy a hacer es
  31. forzar que tenga un solo máximo
    en este espacio
  32. Y vamos a hablar acerca de esto
    en uno de los apéndices
  33. si tenemos tiempo es
    porque podemos probar que
  34. la función de entropía
    tienen un único máximo
  35. incluso cunado se somete
    a estas restricciones.
  36. Por ahora, puede aceptar con fe que
  37. de hecho, este problema
    tiene una solución única.
  38. Entonces, aquí tenemos una función,
    le he dado
  39. un único máximo,
    y vamos a llamar esta función f.
  40. Así, usando sus increíbles
    habilidades de calculo,
  41. sabe que el máximo de esta función
  42. esta definido como
  43. el punto donde la derivada de f
  44. con respecto de x es 0.
  45. Y recuerde que esto es un vector
  46. lo que significa es df/dx1 es 0
    y df/dx2 es cero.
  47. Ahora, si, tal vez alcanzo
    por accidente un mínimo
  48. así que para estar seguros que
    de verdad no es un mínimo
  49. eso es lo que usted haría.
  50. Entonces ahora el problema es que
  51. no tenemos permitido
    acceder a todo el espacio.
  52. Estamos restringidos a un sub-espacio.
  53. Estamos limitados en particular
  54. por una restricción, aqui.
  55. Así que
  56. ¿Como podemos hallar
    el máximo de la función?
  57. No el máximo global,
  58. sino el máximo que
    también satisface
  59. un conjunto de restricciones,
  60. y lo que voy a hacer es
    dibujar esas restricciones
  61. como una linea en este espacio.
  62. Un punto aquí
  63. es un argumento valido para la función f,
  64. pero este no satisface esta restricción,
  65. y lo que haré es definir esta
  66. restricción de la siguiente manera.
  67. Diré que esta restricción
    es g(x) = c, donde c
  68. es algún numero.

  69. Y solo para dejarlo claro,
    para nosotros g(x)
  70. De hecho es mejor para
    nosotros escribir g(p) es...
  71. lo hacemos 4 minutos.
  72. Eso es para recordarle
  73. que nuestra restricción particular
  74. es que la función g(p) es igual a 4.
  75. Este aquí es el caso general.
  76. Así que lo que queremos hacer
    ahora no es encontrar el punto máximo,
  77. la cúspide de la montaña,
  78. queremos encontrar el punto
  79. que es el máximo a lo largo de esta linea
  80. esta linea definida por g(x) = c.
  81. Déjeme darle una pequeña pista
  82. de como puede hacer esto.
  83. Imagine que esta viajando en tren
  84. por un paisaje montañoso,
  85. a medida que avanza, aquí abajo,
  86. estará cruzando
    los contornos de la función f.
  87. En este caso usted esta
    yendo cuesta arriba,
  88. la función esta incrementando, así que
  89. sabe que un punto allí
  90. no es el máximo de la función
  91. a lo largo de esta linea,
    porque si espera un poco mas
  92. llegara a este punto aquí, y usted
    ya ha cruzado el contorno,
  93. entonces aquí esta subiendo,
    note que aquí, esta bajando
  94. por el otro de la montaña, esta cruzando
  95. los contornos en el otro sentido, así,
  96. usted sabe que de hecho el máximo
    no puede estar por aquí.
  97. Porque usted ya estuvo mas alto por aquí.
  98. Así que en algún lugar entre aquí
    y aquí esta el máximo,
  99. Usted va subiendo y después va bajando
  100. la función es continua
  101. en algún lugar
    en el medio alcanzo el pico.
  102. y en particular
  103. y dependiendo de su imaginación visual
  104. Usted alcanzo el pico cuando
  105. los contornos de la función f
  106. son paralelos a las vías que esta usando,
  107. allí donde hay un punto tangente
    entre los contornos
  108. y la dirección de su
    movimiento en el tren ficticio.
  109. que viaja sobre la restricción
  110. Entonces, sabemos como
    conseguir la dirección
  111. de los contornos de la función f,
  112. esos son, en efecto, solo el
  113. gradiente de la función...
  114. Esto es un vector, recuérdelo.
  115. Y vamos a decir que estas son iguales a
  116. las perpendiculares de las vías del tren.
  117. Así que
  118. si las perpendiculares al
    contorno son paralelos a
  119. las perpendiculares de las vías del tren,
  120. eso significa
  121. que la dirección del contorno es
    paralelo a la dirección
  122. de las vías del tren.
    Si dos perpendiculares
  123. son paralelas también los son
    los vectores originales.
  124. Así, la siguiente pregunta es
  125. ¿como puedo conseguir la perpendicular
    a las vías del tren?
  126. Lo que quiero que hagan
    es que imaginen que esta
  127. es la vía del tren para g(x) = c,
  128. y aquí esta la vía del tren para g(x) = c'
  129. y así sucesivamente, entonces
  130. aquí esta un grupo de
    contornos definido por la función g
  131. y queremos que las perpendiculares
    a estos contornos
  132. sean paralelas a los contornos para f,
  133. las perpendiculares a los contornos de f.
  134. Lo que esto significa es que
    este gradiente de aquí,
  135. esta flechas aqui, y en particular,
  136. estas flechas justo aquí
  137. son iguales a algún numero real
    'lambda' veces
  138. el gradiente de la restricción.
  139. Cuando esta ecuación se satisface,
  140. cuando esta ecuación de aquí se satisface,
  141. significa que estos contornos aquí
  142. son precisamente paralelos a
    estos contornos de aquí.
  143. Así que para poder maximizar
    la función f sujeta
  144. a un grupo de restricciones,
    no resuelva esto de aquí,
  145. no resuelva este problema,
  146. resuelva este problema.
  147. Y ahora usted notara que
    tiene este misterioso
  148. valor lambda,
  149. este se conoce como
    multiplicador de Lagrange.
  150. Entonces lo que haremos sera
  151. tratar de encontrar una solución
  152. donde los gradientes
    sean paralelos entre si.
  153. En otras palabras,
    que uno pueda ser transformado
  154. en el otro re-escalándolo por un factor
  155. constante en todos los ejes.
  156. Entonces esta es la
    motivación intuitiva original
  157. de como resolver el problema de
  158. la maximización sujeto a restricciones
  159. cuando usted tiene solo una restricción.
  160. Lo que hacemos es encontrar un punto
  161. en el cual estos dos
    gradientes se alineen.
  162. Pero hay un giro,
  163. el giro es el siguiente,
  164. parece que solo tenemos solo
  165. una restricción aquí
  166. y que nuestra restricción es
  167. solo esta función que es igual a 4,
  168. pero realmente tenemos 2 restricciones.
  169. Nuestra segunda restricción
  170. es la normalización global
  171. y dice lo siguiente,
  172. queremos que esta función p de aquí...
  173. se normalice a 1.
  174. Si usted suma todas las
    probabilidades de tiempo de llegada
  175. tienen que ser iguales a 1.
  176. Ahora, claro, p es una probabilidad,
  177. así que sabemos que tiene que ser cierto,
  178. no hablamos de eso explícitamente,
  179. pero cuando empezamos a vagar por
  180. el espacio de funciones,
    cuando esta xs de aquí
  181. se convierte en ps,
  182. empezamos a manipular las probabilidades
  183. lo que queremos es ser
    capaces de relajar la restricción
  184. de que tienen que sumar 1
    cuando consideramos
  185. maximizar esta función f,
  186. queremos ser capaces
    de movernos sobre
  187. todo el espacio, incluyendo,
    por ejemplo,
  188. puntos donde todas las probabilidades,
    todas las ps, son 0.
  189. Y después lo que haremos es imponer
  190. las restricciones de normalización.
  191. Así que en realidad tenemos
    dos restricciones y no solo una.