Welcome to the mini project on outliers.
As you saw in the last lesson,
having large outliers can have a big effect on your regression result.
So in the first part of this mini project,
you're going to implement the algorithm that Sebastian has suggested to us.
So what that means is you take the 10% or
so of data points that have the largest residuals, relative to your regression.
You remove them, and then you refit the regression, and
you see how the result changes.
You'll be implementing that algorithm in this mini project.
The second thing we'll do is take a closer at the Enron data.
This time with a particular eye towards outliers.
You'll find very quickly that there are some data points that fall
far outside of the general pattern.
So we'll talk about these explicitly, and whether this means they should be
removed or they should be given extra special or extra heavy consideration.
It's really cool and I think you will really enjoy it.
مرحبًا بكم في المشروع الصغير على القيم الخارجية.
،كما رأيتم في الدرس الماضي
.يمكن أن يُشكل وجود قيم خارجية كبيرة تأثيرًا كبيرًا على نتيجة الانحدار
،لذلك، في الجزء الأول من هذا المشروع الصغير
.ستقومون بتنفيذ الخوارزمية التي اقترحها علينا Sebastian
وما يعنيه ذلك هو أنكم ستأخذون نسبة 10% أو
.نحو ذلك من نقاط البيانات التي لها أكبر قدر من الأخطاء المتبقية المتصلة بالانحدار
،وتقومون بحذفها ثم إعادة ملاءمة الانحدار
.وترون كيف تتغير النتيجة
.ستقومون بتنفيذ هذه الخوارزمية في هذا المشروع الصغير
.والشيء الثاني الذي سنقوم به هو إلقاء نظرة فاحصة على بيانات Enron
.ولكن هذه المرة بعين خاصة تجاه القيم الخارجية
وستعرفون بسرعة أن هناك بعض نقاط البيانات التي تقع
.خارج النمط العام بكثير
لذلك، سنتحدث عن هذه النقاط صراحة، وما إذا كان ذلك يعني أنه ينبغي حذفها
.أم أنه ينبغي توليتها اعتبارًا إضافيًا خاصًا أو كبيرًا
.وهذا رائع جدًا وأعتقد أنكم ستستمتعون بذلك جدًا
Bem-vindo ao miniprojeto sobre exceções.
Como você viu na última lição,
ter grandes exceções pode causar um grande efeito no resultado de sua regressão.
Então, na primeira parte deste miniprojeto,
você irá implementar o algoritmo sugerido por Sebastian para nós.
Isso significa que você obtém os 10%, mais ou menos,
de pontos de dados que têm os maiores residuais, relativos à sua regressão.
Você os remove e, em seguida, ajusta novamente a regressão e
verifica a mudança no resultado.
Você implementará esse algoritmo neste miniprojeto.
A segunda coisa que faremos será olhar com mais atenção os dados da Enron.
Desta vez, com um olhar específico sobre as exceções.
Você perceberá rapidamente que existem alguns pontos de dados que
ficarão bem longe do padrão geral.
Então, falaremos sobre isso explicitamente e se isso significa que eles devem
ser removidos ou se devem receber atenção extraespecial ou mais aprofundada.
Isso é muito legal e acho que você vai realmente gostar.
欢迎来到异常值迷你项目
如上节课中你所见的一样
明显的异常值可能对回归结果有很大的影响
所以在迷你项目的第一个部分
我们会执行 Sebastian 给我们建议的算法
也就是说去除与回归线间残差最大的
10% 左右的数据点
你去除它们 再重新拟合回归
然后你会发现结果有什么变化
你会在这个迷你项目中执行这种算法
第二件事 我们要进一步观察安然公司的数据
这一次要特别注意异常值
你会很快发现一些与一般模式
相隔甚远的数据点
我们会详细地对其进行说明 然后说明这意味着
是要去除这些点 还是给予特别的或额外的注意
这个过程非常棒 我想你会喜欢的