In scenarios where we don't have very much data, or
where removing our missing values would compromise the representativeness of
our sample, it might not make sense to throw away
a bunch of our entries just because they're missing values.
This could severely impact the statistical power of whatever analysis
we were trying to perform. In this case, it likely
makes sense to make an intelligent guess at the missing
values in our data. The process of approximating these missing
values is referred to as imputation. There are many
different ways to impute missing values. And different techniques
are constantly being developed. I want to quickly discuss
some relatively simple ways to impute missing values in our
data. Let's note that imputation is a really hard
problem. Each of the methods we'll discuss introduce a
certain biases or inaccuracies into your data set. We're
discussing some of the most simple ways to impute data,
but much more sophisticated and robust methods are out there.
،في السيناريوهات التي لا نمتلك فيها الكثير من البيانات
أو أن إزالة القيم غير الموجودة ستخل بتمثيل
العينات لدينا، ليس من المعقول أن نطرح
.حزمة من الإدخالات لمجرد أنها تحتوي على قيم غير موجودة
فقد يؤثر هذا بدرجة بالغة على القوة الإحصائية للتحليل
الذي نحاول القيام به. في هذه الحالة، من المحتمل
أن يكون التخمين الذكي للقيم
المفقودة في البيانات أمرًا معقولاً. يشار إلى عملية التحديد التقريبي للقيم المفقودة
باسم تقدير البيانات المفقودة. هنا العديد من الطرق
المختلفة لتقدير القيم المفقودة. ويتم تطوير الأساليب
المختلفة باستمرار. أريد أن أناقش سريعًا
بعض الطرق البسيطة نسبيًا لتقدير القيم المفقودة
في البيانات. دعونا نقر بملاحظة أن تقدير البيانات المفقودة يعد
مسألة صعبة حقًا. كل واحد من الأساليب التي سنناقشها يقدم
انحرافات معينة أو عدم دقة في مجموعة البيانات. إننا نناقش
،بعض الطرق الأكثر بساطة لتقدير البيانات المفقودة
.ولكن هناك بعض الأساليب الأكثر تعقيدًا وقوة
データがあまり多くない場合や
欠損値を除去すると標本の代表性が損なわれる場合は
欠損値を含むデータ群を除去する方法は
適切ではないでしょう
解析の統計的な有効性に
大きな影響を及ぼす可能性があるためです
そのような場合は データ中の欠損値を
科学的に推測する方法が適切でしょう
欠損値を概算するこの方法は補完と呼ばれています
欠損値を補完するには様々な方法があります
新たな手法も次々に開発されています
ここでは欠損値を補完する
比較的簡単な方法を紹介しましょう
補完は非常に難しい手法です
これから紹介する方法ではそれぞれ
データセットに
ある程度のバイアスや不正確さが生じます
ここではごく簡単な補完方法を紹介しますが
もっと複雑で妥当性の高い方法も存在します
Em cenários em que não temos muitos dados ou
nos quais a remoção de valores ausentes pode comprometer a representatividade de
nossa amostra, talvez não faça sentido descartar
várias de nossas entradas apenas por que elas não possuem um valor.
Isso poderia causar um impacto severo no poder estatístico de qualquer análise
que tentemos realizar. Nesse caso, é provável
que faça sentido fazer uma suposição inteligente sobre os valores
ausentes em nossos dados. O processo de aproximar esses valores
ausentes é chamado de imputação. Existem muitas
maneiras diferentes de imputar valores ausentes. E técnicas diferentes
estão constantemente sendo desenvolvidas. Gostaria de abordar rapidamente
algumas maneiras relativamente simples de imputar valores ausentes em nossos
dados. Devemos observar que a imputação é um problema
muito difícil. Cada um dos métodos que vamos abordar introduz
determinadas tendências ou imprecisões ao conjunto de dados. Estamos
discutindo algumas das maneiras mais simples de imputar dados,
mas existem métodos muito mais sofisticados e robustos por aí.