YouTube

Got a YouTube account?

New: enable viewer-created translations and captions on your YouTube channel!

Spanish, Argentinian subtitles

← abm 6 3 summary graph

Get Embed Code
1 Language

Download

Showing Revision 8 created 05/30/2018 by diego diaz.

  1. La última vez estuvimos hablando acerca de
    como resumir la información y entender los
  2. resultados de corridas múltiples
  3. esta vez vamos a hablar de una forma
    diferente de hacerlo, que es el uso de
  4. gráficos
  5. Los gráficos, para analizar los resultados
    nos brindan una forma visual de resumir
  6. los datos
  7. no voy a decir si son mejores o peores,
    sino que son diferentes, algunas personas
  8. prefieren resumir los datos en forma
    textual, algunos piensan que los gráficos
  9. son mejores, muchas veces hay más
    información en los gráficos
  10. pero a veces es difícil interpretarlos
  11. y hay muchos tipos diferentes de gráficos
    que pueden ser creados
  12. yo siempre encontré que es útil volver a
    mirar, no únicamente los resúmenes sino
  13. ver todos los datos
  14. eso es entonces lo primero que vamos a
    hacer, vamos a ver todos los datos y otra
  15. vez, esto es algo que es fácil de hacer en
    R, así que vamos a ver eso y voy a hablar
  16. de como hacer esto en R
  17. volvemos al R, vemos la ventana de la
    izquierda, si recuerdan
  18. ya pusimos toda la información, la
    resumimos y vimos los resultados
  19. estadísticos
  20. de hecho, tenemos una pieza, vimos las
    diferencias mínimas significativas entre
  21. 150 y 200
  22. en las próximas líneas de estas porciones
    de código
  23. es que vamos a graficar los datos
  24. en R, hay un comando estándar que se llama
    plot y donde la primer entrada es lo que
  25. queremos que vaya al eje de las X, en este
    caso la cantidad de gente, que viene de
  26. los datos originales en el eje de las X
  27. y en el eje de las Y queremos ver la
    variable de salida que en este caso es el
  28. último tick
  29. también le damos un título, que en este
    caso es "Tiempo para infectar al 100% vs
  30. la población inicial", ponemos una
    etiqueta en el eje de las X que es "Número
  31. inicial de personas" y una etiqueta en el
    eje de las Y
  32. y lo hacemos en el comando de las
    respuestas
  33. obtenemos este lindo gráfico, donde
    podemos ver la dispersión de los datos
  34. y como pueden ver
  35. hay una gran dispersión en 50, es más
    estocástico y va para abajo a lo largo del
  36. tiempo, pero en 200 y en 150, están muy
    cerca uno del otro en términos de
  37. los valores medios, o en términos de la
    dispersión total de los datos
  38. si queremos ver, esto se llama ventana de
    quartz en R, escribimos quartz.save
  39. y ponemos donde queremos salvarlos
  40. y salvamos los datos en un archivo, así
    luego lo puedo pegar en un documento word
  41. o donde quiera, powerpoint, etc.
  42. así es como podemos mirar toda la data
  43. pero a veces lo que queremos hacer es
    mostrar algunos gráficos con resúmenes de
  44. esos datos, usando estos promedios y
    desvíos estándar para poder analizarlos
  45. ahí podemos usar el comando plot, que es
    un comando de R, que nos permite agregar
  46. barras a esos gráficos
  47. y aquí mostramos una desviación estándar
  48. aquí ponemos el valor de X, que es el
    número inicial de personas
  49. el valor de Y que es el del último tick y
    luego tenemos que decirle qué área debe
  50. estar debajo y cual debe estar arriba de
    ese valor de Y
  51. entonces quedará como el último tick,
    perdón es arriba y no abajo, el último
  52. tick más el desvío estándar y luego el
    último tick menos el desvío estándar
  53. y otra vez, podemos etiquetarlo, tanto el
    eje de las X como el de las Y y en este
  54. caso en vez de graficar, dejamos afuera
    este comando, sólo queremos graficar el
  55. punto, podemos decirle que los conecte con
    una línea, porque estamos aumentando el
  56. valor y ese valor es una variable continua
    y entonces podemos graficar con una línea
  57. entre ellos
  58. luego de ello, por alguna razón en R
    tenemos que poner este comando
  59. pero si ponemos el comando title y ponemos
    la media podemos graficar
  60. aplicamos estos dos comandos
  61. y vemos en la ventana de R de gráficos
  62. podemos ver este lindo gráfico
  63. que muestra las relaciones
  64. si estamos interesados en mirar
  65. la otra variable y escribir una sentencia,
    de qué manera es la correcta?
  66. pero en vez de ello, podemos querer ver
    como comparar la media de estas variables
  67. diferentes y observar si se solapan
  68. entonces necesitamos no utilizar el desvío
    estándar, sino el error estándar
  69. el error estándar es la desviación
    estándar dividida por el cuadrado de los
  70. puntos y lo que eso significa es que a
    medida que incrementamos los puntos y los
  71. acumulamos obtenemos mayor confianza
    acerca de lo que significa
  72. entonces lo que hice aquí es definir
    primero el número de corridas porque eso
  73. es lo que tenemos que saber, ya que es el
    número de puntos, tomo la medida del
  74. conjunto original de datos y lo divido por
    la medida del conjunto de datos agregados
  75. a medida que vemos que los datos agregados
    tienen la misma cantidad de
  76. representaciones en el conjunto de datos
  77. eso nos dirá el número de corridas
  78. y entonces tomo el último tick y lo divido
    por el cuadrado del número de corridas
  79. para obtener el error estándar
  80. ahora podemos volver a graficar con el
    mismo comando que antes, pero en vez de
  81. usar el último tick, la desviación
    estándar, usaremos el error estándar
  82. como mi barra
  83. y cuando lo hicimos
  84. esto indica que aún cuando la variación es
    alta, podemos tener confianza en que los
  85. valores subrayados de la media de
    cualquier población que tomemos allí
  86. estará
  87. ustedes pueden notar que la confianza es
    más alta para 200 mientras que los otros
  88. valores son menores
  89. debo mencionar que podemos tener una
    inspección visual si estas barras se
  90. solapan, podremos saber como un hecho
    que no son estadísticamente significativas
  91. pero el hecho de que no se solapen, no nos
    provee de una confianza perfecta
  92. de que son estadísticamente significativos
    en términos de sus diferencias
  93. debemos correr algún test como el de la T
    de Student o algo así para comparar los
  94. datos relevantes, para ver si esos valores
    son estadísticamente significativos pero
  95. usando el error estándar nos brinda una
    buena medida de cuanta confianza podemos
  96. tener en las diferencias entre dos medias
    que usando el desvío estándar
  97. entonces aquí estamos, tenemos este
    gráfico que resume los datos de nuestros
  98. resultados iniciales, parece indicar que
    es definitivamente el caso que si la
  99. densidad de la población crece, el tiempo
    para que se infecten decrece
  100. pero es una relación no lineal
  101. y parece que las diferencias comienzan a
    colapsar entre estas medias, aún cuando no
  102. son muy diferentes unas de otras, o
    parecen ser diferentes y por eso el test
  103. para averiguarlo, aquí estamos estas son
    las respuestas a nuestra investigación
  104. inicial