Let's first discuss what would seem to be the
easiest way to impute a missing value in our data
set. Just take the mean of our other data
points and fill in the missing values. So, for example,
let's say that Ichiro Suzuki and Babe Ruth are
missing values for weight in our baseball data set. Well,
okay, no problem. We can just take the mean
of all other players weights and assign that value to
Ichiro and Babe Ruth. In this case, we
would assign Ichiro and Babe Ruth both a weight
of 191.67. Wow, that seems really easy, right?
There's gotta be a catch. Well, let's first discuss
what's good about this method. We don't change
the mean of the height across our sample, That's
good. But let's say we were hoping to
study the relationship between weight and birth year. Or
height and weight. Just plugging the mean height into a bunch of our
data points lessens the correlation between
our imputed variable and any other variable.
لنناقش أولاً ما يبدو أنه الطريقة
الأسهل لتقدير قيمة مفقودة في
مجموعة البيانات. فقط خذ متوسط نقاط البيانات الأخرى
،واملأ البيانات المفقودة. على سبيل المثال
لنفترض أن قيمتي الوزن الخاصتين بكل من Ichiro Suzuki وBabe Ruth مفقودتان
،في مجموعة بيانات كرة القاعدة. حسنًا
لا مشكلة. يمكن أن نأخذ متوسط
أوزان جميع اللاعبين الآخرين وتعيين تلك القيمة لكل من
Ichiro وBabe Ruth. في هذه الحالة، سنعين
لكل من Ichiro وBabe Ruth قيمة
الوزن 191.67. رائع، يبدو هذا سهلاً للغاية، أليس كذلك؟
سيكون هذا صيدًا سهلاً. حسنًا، لنناقش أولاً
ما الجيد في هذا الأسلوب. إننا لا نغير
،متوسط الوزن عبر العينة
هذا جيد. ولكن لنفترض أننا نريد أن ندرس
العلاقة بين الوزن وسنة الميلاد. أو
الطول والوزن. مجرد إدخال متوسط الطول في مجموعة من
نقاط البيانات لدينا يقلل العلاقة المتبادلة بين
.المتغير المقدر وأي متغير آخر
まず データの欠損値を補完する
最も簡単な方法を紹介しましょう
欠損値以外の値の平均値を使って
欠損値を補完するという方法です
例えばイチローとベーブ・ルースの体重が
この野球のデータセットに含まれていないとしましょう
でも大丈夫です
他の全選手の体重の平均値を
イチローとベーブ・ルースの体重として代入するのです
この例ではイチローとベーブ・ルースの体重を
191.67ポンドとします
この方法はとても簡単ですね
何か落とし穴があるはずですが
まずはこの方法の利点を考えてみましょう
標本全体の平均値が変わらないのは利点です
しかし 体重と生まれた年の関係や
体重と身長の関係について調べたい場合は?
欠損値の部分に単に平均値を代入すると
補完された変数と他の変数との相関関係が
弱くなってしまいます
Vamos falar primeiro sobre o que parece ser a
maneira mais fácil de imputar um valor faltando em nosso
conjunto de dados. Basta tirar a média dos nossos outros
pontos de dados e preencher os valores que estão faltando. Por exemplo,
vamos dizer que Ichiro Suzuki e Babe Ruth sejam os
valores faltando para peso no conjunto de dados de beisebol. OK.
Sem problemas. Podemos apenas tirar a média
de todos os outros pesos dos jogadores e atribuir o valor para
Ichiro e Babe Ruth. Neste caso, nós
atribuiríamos Ichiro e Babe Ruth a um peso
de 191.67. Uau, isso parece muito fácil, certo?
Deve ser uma pegadinha. Bem, vamos falar primeiro
do que é bom sobre este método. Não mudamos
a média da altura em toda a nossa amostra. Isso é
bom. Mas vamos dizer que estávamos esperando
estudar a relação entre peso e ano de nascimento. Ou
altura e peso. Apenas colocar a altura média a um monte dos
pontos de dados diminui a correlação entre
nossa variável imputada e qualquer outra variável.