There are a couple of things to observe here.
One is in general the fake data pulls everything towards 0.5.
Where you go to extremes over here, we are less extreme in this case.
0.33 is further away from 0.5 than 0.4.
So, all these numbers get moved towards 0.5.
This is somewhat smoother.
We also see that these two outcomes--the first and the last--
on the division model gives us the same extreme estimate,
but the more data we get in our new estimator, the more we are willing to move away from 0.5.
One observation of heads gave us 0.667, two of them 0. 75.
I can promise you in the limit, as you only see heads for infinitely many,
we will finally approach 1. Now, this is really cool.
We added fake data, and I will tell you that I generally think these are better estimates in practice.
The reason why is it's really reckless after a single coin flip to assume that all coins come up positive.
I think it's much more moderate to say, well, we already have some evidence
that heads might be more likely, but we're not quite convinced yet.
The not quite convinced is the same as having a prior.
There's an entire literature that talks about these priors.
They have a very cryptic name.
They're called Dirichlet priors.
But, more importantly, the method of adding fake data is called a Laplacian estimator.
When there is plenty data, Laplacian estimator gives about the same results
as the maximum likelihood estimator.
But when data is scarce, this works usually much, much, much better
than the maximum likelihood estimator.
It's a really important lesson in statistics.
Hay un par de cosas para observar aquí
Una es que en general, los datos jalan todo hacia 0.5
Cuando vas a casos extremos como el de aquí, son menos extremos en este caso
0.33 es más lejos de 0.5 que 0.4
Entonces todos los números se mueven hacían 0.5
De algún modo más suaves
También vemos estos dos resultados -- el primero y el último --
En el modelo de división nos dio un estimador extremo
Pero entre más datos tenga nuestro nuevo estimador, más nos vamos a mover de 0.5
Una observación de cara nos da 0.667, dos de éstas nos da 0.75
Te puedo prometer que en el límite, conforme veas caras de forma infinita
Finalmente nos vamos a acercar a 1. Esto es realmente cool
Agregamos datos falsos y quiero decirte que generalmente pienso que esto estimadores son mejores en la practica
La razón es que es realmente imprudente, después de un sólo giro, el poder asumir que todas las monedas son positivas
Pienso que es mucho más moderado de decir que tenemos algo de evidencia
De que la cara pueda ser más probable pero no estamos realmente convencidos
El no estar convencido es lo mismo que tener un previo
Hay literatura entera que habla sobre estos previos
Tienen un nombre muy críptico
Se llama previos de Dirichlet
Pero lo más importante es el método para agregar datos falsos, se llama estimador de Laplace
Cuando hay una gran cantidad de datos, el estimador de Laplace nos da el mismo resultado
Que el estimador de máxima verosimilitud
Pero cuando los datos son escasos, este trabajo mucho, pero mucho, pero mucho mejor
Que el estimador de máxima verosimilitud
Es una lección realmente importante en estadística
いくつか注目すべき点があります
1つは偽のデータの確率が
0.5に近い値になるということです
こちらが極端な場合でも
こちらは極端な数になっていません
0.33は0.4と比べると0.5から離れています
しかしこれらの値はすべて0.5に近づいています
こちらの方が値は滑らかです
さらにこの最初と最後の2つの結果では
それぞれ同じ確率が出ていますが
新しい推定値にデータを加えると
さらに0.5から遠ざかっています
1回表が出ると確率は0.667になり
2回出ると確率が0.75です
もし無限に表が出続けるとしたら
確率1に限りなく近づいていくでしょう
私は偽のデータを加えた方が
より実用的な推定値が得られると思います
たった1回のコイン投げが表だったからと言って
常に表だと断言するのは適当ではないからです
表が出やすいという証拠があったとしても
やはり完全には言い切れないと思います
完全には言い切れないというのは
事前分布がある時と同じことです
統計学の文献ではこの事前分布のことを
ディリクレ事前分布という
謎めいた名で呼んでいます
それより重要なのは偽データを加える方法です
これはラプラシアン推定値と呼びます
十分なデータがある時 ラプラシアン推定値は
おおよそ最大推定値と同じ値です
しかしデータが十分でない時は
最大推定値よりもはるかによい推定値を与えます
これは統計学では非常に重要です