We've talked about information as bits,
measuring information
we've talked about counting, so we can use
bits to count 0 0 0 1, 1 0 1 1,
counting from zero up to three, modulo two.
We've talked as bits as labeling,
that we can use barcodes which are just
bits to label things.
And finally we've talked about how bits are
physical,
that all bits that we have in computers, all
the bits of information that I'm conveying
via the vibrations of my vocal chords and
the vibrations of the air
are actually physical systems, physical
manifestations of information.
And then we also talked about a discovery
which is 150 years old,
that all physical systems carry information,
and that amount of information can be quantified.
So number of bits is the logarithm to the base two
of the number of possibilities,
a result which ironically is inscribed on Boltzmann's
grave.
So now I'd like to give you another aspect
of bits, and this a very 20th century aspect
of bits of information.
And that is the relationship between information
and probability.
So probability is something that we're all
familiar with and all confused by,
and I'm always confused by probability.
Human beings are known to have a very bad
intuitive sense of probability,
we overestimate the probability of truly
awful events,
we underestimate the probability of fine,
nice, normal events.
Of course, from an evolutionary standpoint,
overestimating the probability of some event
like a sabretooth tiger dropping out of this
tree and sinking his teeth into your neck,
this is probably a good thing, which might
be why.
But there's a simple idea of probability,
and let me try to demonstrate them right here.
So let's take the example of heads and tails.
I have here a nice shiny, new nickel that's
been given to me by a member of the Santa Fe
Institute, she didn't ask me to give it back
either so I'm five cents ahead.
So it can either be heads or tails.
What do you think? What's the probability that
it's head or that it's tails?
Well I claim it's fifty-fifty. But why?
Why is it one half? The probability that it's
heads or tails.
It was tails, I swear.
So there are two notions of probability for
heads and tails.
So one notion is - and I claim that this is the kind
of nicest, most intuitive notion - when I just
flip it like this, I wasn't watching it on the
air, I didn't know how hard I flipped it,
I didn't see it before I put it down there.
I have no reason for preferring heads over
tails.
Heads over tails are just a priori they have
equal weight.
Heads. It was heads by the way, now the
probability is one that it was heads,
that's the funny thing about probabilities.
First you don't know and you have ones that
are probabilities.
These are called prior or a priori probabilities.
So probability of heads is equal to the
probability of tails is one-half,
because there is no reason to prefer heads
over tails. This is a good argument.
So this is the prior probabilities of heads
or tails, it's 50 percent.
But there's another argument about why
the probability of heads and tails would be 50 percent.
So let me just try it like this, let me just
this coin a bunch of times.
Tails.
Heads.
Heads.
Heads.
Tails.
Heads.
Tails.
Heads.
Heads.
So I actually got seven heads and three tails
out of ten tosses.
That was kind of dull, this is the problem.
With probability it's dull and confusing
and to figure out what's going on,
you have to do it many times.
Because I don't think that you're going to
agree that this shiny new United States nickel
really has a probability of having seven out
of ten of having heads and three out of ten of
having tails.
It was just the luck of the draw,
or the luck of the toss.
It just so happens that there were seven
heads and three tails, which, if you're flipping
a coin ten times, is pretty reasonable.
So if I were to flip this coin a whole bunch
more times,
which I'm not going to do because I know it
will be dull, you would be very bored by this.
So if I flip a coin, and I should say a fair coin,
I should note that in my classes at MIT,
the students all start out seeming to
believe what I say, but after a few lectures,
they become very distrustful.
I don't know why this is, I seem like a
trustworthy person.
Anyway, I flip a fair coin m times and we
look at the number of heads and the number of tails
and the sum of the number of heads plus the
number of tails is equal to m.
I just flipped it ten times.
And we're going to call the frequency,
or the frequency of heads
is just equal to the number of heads divided
by m.
So I flipped it ten times, I got seven heads,
frequency is 0.7.
Frequency of tails, as you may very well guess,
is the number of tails over m,
and that's equal to one minus the number of heads
divided by m.
Now what we expect, just from personal
experience, is that if we just keep flipping
the coin many many many times.
Well, if I flip it 100 times, I certainly don't
expect to get exactly 50 heads,
which would be a frequency of exactly 0.5,
matching the probability.
But I would expect to get something a little
better than 0.7, seven-tenths.
That seems, you know, very unlikely, that
if I flip it a hundred times I'm going to get 70 heads.
It's perfectly possible, why not.
So I will just give you the formula for this.
So the expected number of heads, which is
also the expected number of tails, because
there's nothing to choose between them,
is equal to 50 percent.
I flip it 100 times, for example, m is equal to 100.
Then m over two is equal to 50.
So I'd expect to get it roughly 50, and then
I'm going to use this notation, plus or minus,
I'll explain what this is in a moment, plus
one-half times the square root of m.
So actually what you would expect means
well it's roughly in this interval.
I flip it 100 times, the square root of 100
is 10.
I expect it to be roughly within five, might
be a few more, might be seven or eight more
but I'd be really kind of surprised if there
were seventy heads and thirty tails.
I would think it'd be more likely, you know
60 heads, 40 tails, but probably more like
55 and 45.
And that's actually what you can do.
So let's actually ask why is this so.
So if I look at all different possible sequences
H H T T H H H T H H H T
you may notice that the first ten of these
are pretty much what I got for when
I was flipping the coin.
Dot dot dot, which is a way of meaning
et cetera.
Just keeps on going, and then we're going
to have n of these,
and we're going to count the number of
possible sequences
with exactly m_h heads and m_t tails.
Of course, because it's got to be heads or
tails,
at least unless it lands on its side, which
I don't think it's going to do,
this has got to add up to m.
So I'm going to count the number of possible
sequences with exactly m_h heads, m_t tails,
the two have to add up to m.
And what we're going to find out, well there's not so
many sequences which are heads heads heads...
tails.
So there's going to be a very small number
of sequences that have almost all heads and
a few tails.
There's similarly going to be very small
number of sequences that have almost all
tails and a few heads, and there's going to
be humongous number of sequences that have
roughly the same number of heads and of tails.
So you can see, to relate this to information
theory,
each sequence is like a sequence of zeros
and ones.
You can call heads zero and tails one,
this is just a long long long bit string.
And so we can relate ideas of information,
numbers of possible sequences with a
particular pattern,
in this case a particular number of heads and
of tails
to probability.
Hemos hablado sobre la información
como bits que miden la información,
hemos hablado sobre contar, de forma que
podemos usar bits para contar 00, 01, 10, 11,
contando desde cero hasta tres, módulo 2.
Hemos hablado de los bits como formas
de etiquetar,
de que podemos usar códigos de barras,
que son sólo bits para etiquetar cosas.
Y finalmente hemos hablado de cómo los
bits son algo físico,
que todos los bits que tenemos en las
computadoras, todos los bits de información
que estoy transmitiendo
a través de las vibraciones de mis
cuerdas vocales y las vibraciones
del aire son, de hecho, sistemas físicos,
manifestaciones físicas de la información.
Y también hablamos de un descubrimiento
hecho hace 150 años,
de que todos los sistemas físicos llevan
información,
y que esa cantidad de información
se puede cuantificar.
Entonces el número de bits es el logaritmo
en base dos del número de posibilidades,
un resultado que irónicamente está
inscrito en la tumba de Boltzmann.
Entonces ahora quisiera hablar de otro
aspecto de los bits, un aspecto de los
bits de información muy característico
del siglo 20.
Y se trata de la relación entre información
y probabilidad.
Entonces, la probabilidad es algo que nos
resulta a la vez familiar y confuso,
yo siempre me confundo con la probabilidad.
Los seres humanos son conocidos por tener
un muy mal sentido intuitivo sobre la probabilidad.
Sobreestimamos la probabilidad de eventos
verdaderamente desagradables,
mientras que subestimamos la probabilidad
de eventos agradables y normales.
Por supuesto, desde un punto de vista
evolutivo, sobreestimar la probabilidad de
un evento como un tigre dientes de sable
saltando desde este árbol e incrustando
sus dientes en tu cuello, es probablemente
algo bueno, lo cual podría ser la razón.
Pero hay una idea simple de la
probabilidad, que intentaré demostrar aquí.
Tomemos el ejemplo de las caras
y las cruces.
Aquí tengo una bonita y brillante
moneda de 5 centavos, que me dio
un miembro del Instituto Santa Fé, que
no me pidió que se la devolviera,
por lo que tengo 5 centavos más.
Entonces, puede ser cara o cruz.
¿Qué creen ustedes? ¿cuál es la probabilidad
de que sea cara o de que sea cruz?
Bueno, yo digo que es 50-50. Pero, ¿porqué?
¿Porqué es una mitad? la probabilidad de
sea cara o cruz.
Fue cruz, lo juro.
Entonces hay dos nociones de probabilidad
para cara y cruz.
Una noción es - y yo digo que esta es la
noción más intuitiva - cuando yo sólo
la lanzo de esta forma, no estaba viéndola
en el aire, no sé qué tan fuerte la lancé,
No la ví antes de ponerla ahí.
No tengo razón para preferir cara
sobre cruz.
Cara sobre cruz tienen, a priori,
el mismo peso.
Cara. Era cara, por cierto, ahora la
probabilidad es uno de que era cara,
y esto es lo que es gracioso acerca
de las probabilidades.
Primero uno no sabe, y además hay
unos que son probabilidades.
Estos son llamados probabilidades previas
o a priori.
Entonces la probabilidad de caras es igual
a la probabilidad de cruces, que es un medio,
ya que no hay ninguna razón para preferir
caras sobre cruces. Este es un buen argumento.
Entonces esta es la probabilidad previa
de caras o cruces, es 50 por ciento.
Pero hay otro argumento sobre porqué la
probabilidad de caras o cruces debe ser 50 por ciento.
Dejenme intentar sólo así, dejenme lanzar
esta moneda varias veces.
Cruz.
Cara.
Cara.
Cara.
Cruz.
Cara.
Cruz.
Cara.
Cara.
Entonces obtuve siete caras y tres
cruces, en 10 lanzamientos.
Esto fue un poco aburrido, ese es el
problema.
Con las probabilidades es aburrido
y confuso entender qué está pasando,
hay que hacerlo muchas veces.
Ya que no creo que estarán de acuerdo
en que esta moneda nueva y brillante
de cinco centavos de los Estados Unidos
realmente tiene una probabilidad
de 7 de 10 de caer en cara
y 3 de 10 de caer en cruz.
Fue sólo la suerte
del lanzamiento.
Sucede que había siete caras y
tres cruces, lo cual, si estás lanzando
una moneda 10 veces, es bastante
razonable.
Entonces si lanzara esta moneda
muchas veces más,
lo cual no voy a haber porque sé que
sería aburrido, ustedes se aburrirían.
Si lanzara una moneda, digamos una
moneda sin sesgos
(debo notar que en mis clases en el MIT,
los estudiantes siempre empiezan
creyendo lo que digo, pero después de
algunas clases, se vuelven muy desconfiados,
no sé porqué, si parezco una persona
confiable).
Bueno, lanzo una moneda sin sesgos m
veces y observamos el número de caras
y de cruces y la suma del número de caras
más el número de cruces es igual a m.
Sólo la lancé diez veces.
y vamos a definir la frecuencia,
o la frecuencia de caras
como el número de caras dividido entre m.
Entonces si la lancé 10 veces y obtuve
7 caras, la frecuencia de caras es 0.7
La frecuencia de cruces, como pueden
adivinar, es el número de cruces entre m,
y eso es igual a 1 menos el número de
caras dividido entre m.
Ahora, lo que esperamos, solo por
experiencia previa, es que si seguimos
lanzando la moneda muchas, muchas
muchas veces.
Bueno, si la lanzo 100 veces, ciertamente
no espero obtener exactamente 50 caras,
lo cual sería una frecuencia de
exactamente 0.5, igual a la probabilidad.
Pero si esperaría obtener algo un poco
mejor que 0.7, o 7 décimos.
Parecería muy poco probable que si lanzo
una moneda 100 veces obtendré 70 caras.
Es perfectamente posible, porqué no.
Pero, en fin...
Entonces echemos un vistazo. Les daré
una fórmula para esto.
El número esperado de caras, que además
es el número esperado de cruces, porque
no hay nada que nos ayude a escoger entre
ellas,
es igual al 50 por ciento.
Si lanzo la moneda 100 veces, por ejemplo,
m es igual a 100. Entonces m entre 2 es 50.
Entonces esperaría obtener alrededor de 50,
y utilizaré esta notación, más menos,
que explicaré en un momento, más la mitad
de la raíz cuadrada de m.
Entonces lo que esperaríamos significa,
bueno, estará dentro de este intervalo.
Si lanzo la moneda 100 veces, la raíz
cuadrada de 100 es 10.
Espero que el resultado esté entre 5,
puede ser un poco más, 7 u 8 más,
pero estaría bastante sorprendido si
hubiera 70 caras y 30 cruces.
Uno pensaría que es más probable, bueno,
60 caras, 40 cruces, pero más probable aún
55 y 45.
Y de hecho, eso es lo que ustedes pueden
hacer.
Vamos a preguntarnos porqué esto es así.
Si tomo todas las posibles secuencias
H H T T H H H T H H H T
podemos notar que las primeras diez de
estas son básicamente lo que obtuve cuando
lancé la moneda.
. . . que es una manera de decir "etcétera".
Y sigue así, hasta que tengamos n de estas,
y podremos contar el número de secuencias
posibles
con exactamente m_h caras y m_t cruces.
Por supuesto, dado que tiene que ser
cara o cruz,
(a menos que la moneda caiga parada,
que no creo que vaya a suceder)
esto tiene que sumar m.
Entonces voy a contar el número de
secuencias posibles con exactamente m_h
caras, m_t cruces, y ambas tienen que
sumar m.
Entonces averiguamos, bueno, no hay
muchas secuencias que son cara cara
cara ... cruz.
Habrá un número muy pequeño de
secuencias con casi puras caras y muy
pocas cruces.
Igualmente, habrá un número muy
pequeño de secuencias que tienen
casi puras cruces y pocas caras, y habrá
un número inmenso de secuencias
con números similares de caras y cruces.
Pueden ver, entonces, para relacionar
todo esto con la teoría de la información,
que cada secuencia es como una
secuencia de ceros y unos.
podemos llamar cero a las caras y uno
a las cruces,
y esto será simplemente una cadena
muy muy muy larga de bits.
Podemos relacionar estas ideas sobre la
información,
el número de secuencias posibles con un
patrón particular,
y en este caso el número de caras
y cruces,
con la probabilidad.