Welcome to the mini project for feature selection.
In one of the earlier videos in this lesson I told you about when I was working
with the e-mail data, that there was a word that was effectively serving as
a signature on the e-mails and I didn't initially realize it.
Now, the mark of a good machine learner doesn't mean that they never make any
mistakes or that their features are always perfect.
It means that they're on the lookout for ways to check this and
to figure out if there is a bug in there that they need to go in and fix.
So in this case it would mean that there's a type of signature word,
that we would need to go in and remove in order for
us to, to feel like we were being fair in our supervised classification.
So this was a really big learning experience for me.
So I want to share it with you in this mini project.
I'm going to sort of take you into my head as I was trying to
figure out what was going on that I couldn't over fit this decision tree.
And how I figured out that there was one feature or
a couple features that were responsible for that.
And then, specifically,
how I figured out what words they were and how I removed them.
So that's what you'll be doing in this mini project.
.مرحبًا بكم في المشروع الصغير لاختيار الميزات
في أحد مقاطع الفيديو السابقة في هذا الدرس، أخبرتكم عندما كنت أستخدم
بيانات البريد الإلكتروني، أنه كانت ثمة كلمة كانت تعمل بشكل فعال عمل
.التوقيع في رسائل البريد الإلكتروني ولم أدرك ذلك في بادئ الأمر
والآن، لا تعني علامة المتعلم الآلي الجيد أنه لا تحدث أية
.أخطاء أو أن الميزات تكون مثالية دائمًا
إنها تعني أنه على المتعلم البحث عن طرق للتحقق من هذا
.ولاكتشاف ما إذا كان ثمة عطل في هذا يحتاج إلى الفحص والإصلاح
،لذا في هذه الحالة، قد تعني أن هناك نوع من كلمة التوقيع
نحتاج إلى فحصها وإزالتها لكي نتمكن من
.الشعور أننا نتسم بالعدل في التصنيف الخاضع للإشراف
.لذا تعد هذه تجربة تعلم كبيرة بحق لي
.لذا أريد مشاركتها معكم في هذا المشروع الصغير
وسوف آخذكم في جولة لما أفكر فيه حيث أحاول
.اكتشاف ما يجري حيث لا أتمكن من تجاوز ملاءمة شجرة القرار هذه
وتتمثل طريقة اكتشافي لذلك في أنه ثمة ميزة واحدة
.أو ميزات مزدوجة مسؤولة عن ذلك
،وحينئذ، وبشكل خاص
.طريقتي لاكتشاف ماهية الكلمات وكيف أزلتها
.وهذا ما ستفعلونه في هذا المشروع الصغير
Bem-vindo ao miniprojeto para seleção de recursos.
Em um dos vídeos anteriores nesta lição, falei que quando eu estava trabalhando
com os dados de email, havia uma palavra que estava efetivamente servindo como
uma assinatura nos emails, e que inicialmente eu não percebi isso.
Agora, a marca de um bom aprendiz de máquina não significa que ele nunca comete
erros ou que seus recursos sejam sempre perfeitos.
Significa que ele está à procura de maneiras de verificar isso e de
descobrir se há um bug lá que precisa ser corrigido.
Portanto, neste caso, significa que há um tipo de palavra de assinatura
que precisamos remover para
sentirmos que estamos sendo justos em nossa classificação supervisionada.
Portanto, essa foi uma experiência realmente grande para mim.
E eu gostaria de compartilhá-la com você neste miniprojeto.
Vou fazer você pensar como eu quando eu estava tentando
descobrir o que estava acontecendo que eu não conseguia sobreajustar essa árvore de decisão.
E como eu descobri que havia um recurso ou
alguns recursos que eram responsáveis por isso.
E então, especificamente,
como eu descobri quais eram as palavras e como as removi.
Então, isso é o que você vai fazer neste miniprojeto.
欢迎来到特征选择迷你项目
在本课之前的一个视频中 我曾告诉大家我处理
邮件数据时 实际上有个词
在邮件中是一个鲜明的特征 我一开始并没有注意到这一点
现在 一个好的机器学习研究员的标志不是说他们从来不犯错
或其特征总是完美的
而是他们一直在寻找检查的方法
并确定其中是否有错误 他们是否需要找出并改正
在这个案例中 有一种特征词
我们可能需要找到并删除
从而在监督分类中位于公平地位
这对我而言真的是一次很重要的学习经验
所以我想在这个迷你项目中跟大家分享
我想让你知道 我在努力寻找有什么问题
防止决策树的过拟合时 脑子里有些什么想法
如何找出造成这个情况的一个或
两个特征
然后 具体点
我是如何找出这些特征是什么 我如何将其删除的
这就是我们在这个迷你项目中要做的事情