In the case where you're using lots of features to get the most tightly fitting
regression or,
or a classifier that you can, that's a classic high variance situation.
You want to be careful that you're not overfitting to
the data when you're doing this.
And so, another way to frame this whole discussion about the number of features
that you should be using can be phrased in terms of the bias variance dilemma,
or how many features should you be using so
that you're balancing these two concerns.
You want to have the accurate description that comes with having enough
variance to your model, you want it to be able to fit your data in a,
in an accurate and true way.
But you want to do it
with the minimum number of features that's needed to do that.
So there's this tradeoff between sort of the goodness of the fit and
the simplicity of the fit,
the number of features that you have to use to achieve that goodness of fit.
And so what that means is you want to fit an algorithm with few features.
But using the case of a regression as a large r squared or
conversely a low sum of the squared residual errors.
This is the sweet spot that you want to find.
في حالة استخدام الكثير من الميزات لاحتواء أكثر دقة
للانحدار
.أو المصنف قدر الإمكان، وهو ما يُعتبر موقف تباين كلاسيكيًا لـ Hyde
وأنتم مطالبون بأن تكونوا حذرين من تجاوز الملاءمة بالنسبة
.للبيانات عندما تنفذ ذلك
وهكذا، يمكن التعبير عن الطريقة الأخرى لصياغة هذه المناقشة ككل حول
،عدد الميزات التي ينبغي عليكم استخدامها فيما يرتبط بمعضلة الانحراف والتباين
أو كم عدد الميزات التي ينبغي عليكم استخدامها بحيث
.توازن بين هاتين المشكلتين
كما أنكم تريدون أن يكون لديكم الوصف الدقيق والذي يأتي من وجود تباين
كافٍ بالنسبة للنموذج لديكم، وذلك لتكونوا قادرين على احتواء بياناتكم بطريقة
.دقيقة ومناسبة
ولكنكم تريدون فعل ذلك
.بأقل عدد من الميزات اللازمة له
ويعد هذا الأمر مقايضة بين جودة الاحتواء
،وبساطته
.وعدد الميزات التي يتعيّن عليكم استخدامها لتحقيق جودة الاحتواء تلك
.ويعني هذا أنكم تريدون تضمين خوارزمية مع عدد قليل من الميزات
ولكن استخدام حالة الانحدار بكونها r تربيع كبير أو
.على العكس من ذلك، باستخدام مقدار قليل من الجذور التربيعية لأخطاء جول
.تلك هي النقطة المتميزة التي تريدون العثور عليها
Casos nos quais muitos recursos são usados para obter a regressão
mais bem ajustada, ou
um possível classificador, são uma clássica situação de variação de Hyde.
Você deve tomar cuidado para não sobreajustar os dados quando
estiver nessa situação.
E uma outra forma de estruturar toda essa discussão sobre o número de recursos
a ser usado pode ser expressa por meio do dilema variação de viés
ou de quantos recursos devem ser usados para que
você consiga equilibrar essas duas questões.
Você precisa ter a descrição precisa que é obtida quando você tem variação
suficiente no seu modelo. Com ela, você pode ajustar os dados
de forma precisa e genuína.
Mas você quer fazer isso
com o número mínimo de recursos necessários para a tarefa.
Há essa compensação entre o tipo de qualidade do ajuste e
a simplicidade do ajuste,
o número de recursos que você tem que usar para alcançar essa qualidade de ajuste.
Isso significa que você quer ajustar um algoritmo com novos recursos.
Mas usando o caso de uma regressão como um grande r² ou,
de modo inverso, uma soma das raízes quadradas de erros de joule.
Esse é o ponto ideal que você deve encontrar.
如果你使用很多特征来获得拟合程度最好的回归
或者
分类器 这就是一个经典的高方差情形
在这样做的时候 你要小心不要
对数据过度拟合
对于所使用特征个数的讨论 另一种方式
可采用偏差方差困境来描述
或者要使用多少个特征
才能平衡这两个考虑
你需要有准确的描述 同时对你的模型具有足够的方差
希望它能够拟合你的数据
实现准确性和真实性
但你希望操作时
需要最少个数的特征
因此在拟合的优度与简单性之间
存在某种折衷
即为实现拟合优度所需的特征个数
所以 其含义就是你希望使用很少几个特征来拟合某种算法
但是同时 就回归而言 你想要得到较大的R方
或者相反 得到很低的残余误差平方和
这就是你要寻找的最佳平衡点