In this case, the distribution on the right is going to have the larger sum of
squared errors, and it should be fairly straightforward to see why.
You can compare point by point, these would be all the errors on the left.
There's very similar sum of squared errors on the right for these data points.
But, then on the right, you have all these additional data points.
And each one of those is going to contribute a little bit of error
that we'll add to the overall sum of squared errors of the fit here.
So what that means is that the distribution on the right has a larger sum of
squared errors even though we agreed that it's probably not
doing a much worse job of fitting the data than the distribution on the left.
And this is one of the shortcomings of the sum of squared error in
general as an evaluation metric.
Is that as you add more data the sum of the squared error will almost certainly
go up, but it doesn't necessarily mean that your fit is doing a worse job.
However, if your comparing two sets of data that have different number of
points in them then this can be a big problem, because if your using the sum of
square errors to figure out which one is being fit better.
Then the sum of squared errors can be jerked around by the number of data
points that you're using, even though the fit might be perfectly fine.
So this motivates me to tell you about one other evaluation metric that's very
popular when evaluating regressions.
في هذه الحالة، يكون مجموع
.الأخطاء التربيعية الخاص بالتوزيع على الجانب الأيمن أكبر، وعندئذٍ يجب أن يتسم الأمر بالوضوح حتى نتعرف على السبب
.ويمكنكم مقارنة النقاط واحدة تلو الأخرى، وقد تكون هذه كل الأخطاء في الجانب الأيسر
.وهناك مجموع أخطاء تربيعية مشابه للغاية على الجانب الأيمن خاص بنقاط البيانات هذه
.لكن هناك نقاط بيانات إضافية، تلك التي أشير إليها
وتساهم كل نقطة من تلك السالف ذكرها بقدر بسيط في الخطأ
.الذي سنضيفه إلى مجموع الأخطاء التربيعية لنتمكن من الملاءمة هنا
إذن ما يعنيه هذا أن التوزيع على الجانب الأيمن يتميز بمجموع أكبر من
الأخطاء التربيعية، رغم أننا اتفقنا أنه قد
.لا يؤدي وظيفته الخاصة بملاءمة البيانات بشكل أسوأ مقارنة بالتوزيع على الجانب الأيسر
وبوجه عام، يعد هذا أحد عيوب مجموع الأخطاء التربيعية
.بصفته أحد قياسات التقييم
ويشبه هذا الأمر كما لو أنكم أضفتم مزيدًا من البيانات بحيث يرتفع مجموع الأخطاء التربيعية
.ولكن لا يعني هذا بالضرورة أن الملاءمة ستؤدي مهمتها بطريقة سيئة ،
ومع ذلك، قد تمثل مقارنة مجموعتين من البيانات بهما عدد مختلف
من النقاط مشكلة كبيرة، لأنكم قد تستخدمون مجموع
.الأخطاء التربيعية لاكتشاف أي المجموعتين تؤدي الملاءمة بشكل أفضل
إذن يمكن التعامل بشكل سيء مع مجموع الأخطاء التربيعية عن طريق عدد
.نقاط البيانات التي تستخدمونها، بالرغم من أن الملاءمة يمكن أن تكون مثالية
إذن، يحفزني ذلك على أن أخبركم بشأن قياس تقييم آخر مشهور
.للغاية عند تقييم الانحدارات
Neste caso, a distribuição à direita terá a soma maior dos
erros ao quadrado, e vai ser bastante óbvio ver porque.
Você pode comparar ponto por ponto. Estes serão todos os erros à esquerda.
Há uma soma muito semelhante de erros ao quadrado à direita para estes pontos de dados.
Mas, à direita, você tem todos estes pontos de dados adicionais.
E cada um deles vai contribuir com um pouco de erros
que adicionaremos à soma total dos erros ao quadrado do ajuste aqui.
Portanto, isso significa que a distribuição à direita tem uma soma maior de
erros ao quadrado, embora tenhamos concordado que isso provavelmente não está
fazendo um trabalho muito pior de ajuste dos dados que a distribuição à esquerda,
E essa é uma das desvantagens da soma de erros ao quadrado em
geral como uma métrica de avaliação.
É que ao adicionar mais dados, a soma dos erros ao quadrado irá quase que com certeza
aumentar, mas isso não significa necessariamente que seu ajuste está fazendo um trabalho pior.
No entanto, se você estiver comparando dois conjuntos de dados que têm um número diferente de
pontos, isso poderá ser um grande problema porque se você estiver usando a soma dos
erros ao quadrado para descobrir qual se ajusta melhor,
a soma dos erros ao quadrado poderá ser manipulada pelo número de pontos
de dados que você está usando, embora o ajuste possa estar perfeitamente correto.
Portanto, isso me motiva a falar sobre uma outra métrica de avaliação que é muito
popular ao avaliar regressões.
假若这样 右侧的分布会得到更大的平方偏差和
其中的原因一目了然
你可以逐点对比 这些点将是左侧的所有误差
对于这些数据点 右侧有非常相似的平方偏差和
但在右侧 你可得到这些额外的数据点
每个数据点会带来一些误差
因为我们将此处拟合的全部平方偏差和求和
它表示右侧的分布平方差和值更大
尽管我们一致认为
相对于左侧分布 它拟合的结果不会太差
通常在评价指标中
这是平方偏差和的一个不足之处
因为添加的数据越多 平方误差的和几乎必定会增加
但并不表示拟合得不好
然而 如果你对不同数量点的两个数据进行比较
如果你使用平方误差的和
来画出拟合更好的图形 会出现很大问题
平方误差的和会因为所使用的数据点的数量
出现偏差 尽管拟合得可能问题不大
这使我想告诉你在评估回归时
另一个很受欢迎的评估指标