So far we've talked about engineering new features that you
might want to add to a data set.
But it's just as important to know how to get rid of features that you
might not want.
Now it might not be clear right now why you would ever want to get
rid of a feature.
You might be like well, but
Katie that's throwing out information, that's throwing out data.
Why would I ever want to do that?
And I would propose to you that there are many very good reasons why you
might want to get rid of features.
We'll be talking about some of those in the rest of this lesson.
But I want to make you think about it on your own first.
So here are a few reasons that you might want to ignore a feature.
And I want to you to place a check next to all the ones that you think
actually sound like good reasons to ignore a feature to you.
So perhaps one problem with a feature is that it's noisy,
that it's hard to distinguish whether it's,
it's reliably measuring what you want it to be measuring.
Another thing that could potentially be happening is that a feature maybe it
is causing your model to over-fit for some reason.
Maybe you think that the feature is strongly related or
what we call highly correlated with a feature that's already present.
So it's giving you information but it's just repeating information
that's already present in the form of another feature.
And then the last possibility is that additional features maybe they
slow down the training or the testing process.
And so in order to keep things moving along quickly, you want to be working with
the bare minimum number of features that are required to get good performance.
So you tell me what you think.
Which of these are good reasons to ignore a feature?
تحدثنا حتى الآن عن تصميم ميزات جديدة قد
.ترغبون في إضافتها إلى مجموعة البيانات
ولهذا الأمر أهميته بقدر أهمية معرفة كيفية التخلص من الميزات
.التي قد لا تريدونها
والآن قد لا يكون الأمر واضحًا بشأن أسباب رغبتكم في
.التخلص من إحدى الميزات
قد يكون الأمر جيدًا، ولكن
.Katie هي التي تتجاهل المعلومات والبيانات
لماذا أريد فعل هذا؟
أود أن أقترح عليكم العديد من الأسباب الجيدة للغاية لتبرير
.أسباب رغبتكم في التخلص من الميزات
.سوف نتحدث عن بعض تلك الأسباب في الجزء المتبقي من هذا الدرس
.ولكني أريد منكم التفكير بشأن ذلك اعتمادًا على أنفسكم
.إذن، هنا بعض الأسباب التي ربما تريدون بسببها تجاهل ميزة ما
وأريد منكم وضع علامة بجوار جميع الخيارات التي تظنون
.أنها تبدو أسبابًا جيدة لتجاهل ميزة ما
،لذا، ربما مشكلة واحدة مع ميزة ما وهي كونها مزعجة
لذا من الصعب التمييز بين كونها
.قادرة على قياس ما تريد قياسه
الشيء الآخر الذي يحتمل حدوثه هو أن الميزة قد
.تسبب الملاءمة الزائدة في النموذج لديكم لبعض الأسباب
ربما تفكرون أن الميزة مرتبطة بشكل قوي أو
.متصلة بميزة موجودة بالفعل
لذلك، فهي تعطيكم معلومات، ولكنها تكرر المعلومات
.الموجودة بالفعل في هيئة ميزة أخرى
والاحتمالية الأخيرة أن الميزات الإضافية قد تبطئ
.عملية التدريب أو عملية الاختبار
وللحفاظ على سرعة وتيرة مرور الأشياء، يلزمكم استخدام
.الحد الأدنى المطلق من عدد الميزات اللازمة للحصول على أداء جيد
.لذا أخبروني ما هو رأيكم
أي من هذه الأسباب تكون جيدة لتجاهل ميزة ما؟
Até agora, falamos sobre os novos recursos de engenharia que você
pode desejar adicionar a um conjunto de dados.
Mas também é importante saber como se livrar de recursos que você
pode não desejar.
Pode não estar claro neste momento: porque você desejaria se
livrar de um recurso?
Você pode estar pensando: mas,
Katie, isso é jogar informações fora, isso é jogar dados fora.
Por que eu desejaria fazer isso?
E eu diria a você que há muitas razões muito boas de porque você
pode desejar se livrar de recursos.
Falaremos sobre algumas dessas razões no restante desta lição.
Mas quero fazer você pensar sobre isso por si mesmo primeiro.
Aqui estão algumas razões pelas quais você pode desejar ignorar um recurso.
Quero que você coloque uma marca de verificação em todas as que você acha
que realmente parecem boas razões para ignorar um recurso.
Portanto, talvez um problema com um recurso seja ele ser ruidoso,
ser difícil de distinguir se
é confiável para medir o que você quer medir.
Potencialmente, outra coisa que pode estar acontecendo é que um recurso, talvez,
esteja fazendo com que seu modelo sobreajuste por alguma razão.
Talvez, você acredite que o recurso esteja fortemente relacionado ou
o que chamamos de altamente correlacionado com um recurso que já esteja presente.
Portanto, ele está fornecendo informações a você, mas apenas repetindo informações
que já estão presentes na forma de outro recurso.
E a última possibilidade é que recursos adicionais talvez tornem
o processo de treinamento ou de testes lento.
E, portanto, para manter as coisas acontecendo rapidamente, você queira trabalhar com
o número mínimo de recursos necessários para obter bom desempenho.
Portanto, diga-me o que você acha.
Quais destas são boas razões para ignorar um recurso?
我们之前介绍了怎么生成
你想要加入数据集的新特征
但同样重要的是 你要知道怎么删除
你不想要的特征
现在可能你还不太清楚为什么
你会想要删除特征
你可能会觉得
Katie 这样的话就是丢弃信息 丢弃数据
我为什么要这么做?
这里我要向你展示很多好的原因
为什么你想要删除特征
接下来我们要讲讲这些原因
但我希望你能自己先想想
这里是你可能想要删除特征的一些原因
请你在你认为听上去能算是删除特征的
好理由的选项前面勾选选框
可能有一个问题就是特征太杂乱了
很难分辨它是否能
可靠地帮助你测量你想测量的东西
另外一种可能出现的情况就是
由于某种原因 特征可能会导致你的模型过度拟合
可能你认为这个特征与当前已经存在的特征
密切关联或高度相关
所以它只是在不停地向你提供重复的信息
是当前其它特征也有提供的信息
最后一种可能性是新特征可能会
拖慢训练或测试过程
为了让所有东西能快速地运转
你想要只保留最低的必要的特征数量 以达到更好的效果
所以告诉我你怎么认为
哪些是你忽视某特征的合理原因?