It looks like females on average have slightly more friends
than men. Since I can see that this median line
is slightly higher. That's what this black line is. It
represents the median or the middle 50% of friend counts for
females and for males. Now this difference isn't very large.
So let's zoom in to take a closer look. This box
for females and this box for males Represents the middle
50% of values in our sample. So, I think it makes
sense that we zoom in even more to take a closer
look. We should consider any values less than 250. Now, there's no
exact choice here, I'm just choosing something that seems reasonable, since the
bulk of my data is down here. After running this code, we
can now see that the bulk of user friend count is
similar for the middle 50% of men as it is for the
middle 50% of women. Its just our females are slightly higher for
friend count. Lets look at actual values though and compare the values
to what we see in our box plot. We can look at
those values by using the by command and running a summary of
our friend count split by gender. So first, I want to include
my friend count which is the variable I want a summary of. I
want to split it over gender and I want a summary. Running this
code, I get an output of my table, which shows me the
minimum maximum values for both genders, as well as the core tiles.
The first core tile for women is 37 and that looks about right
in our graph. The third quartile or the 75%
mark is at 244 and that's all the way up
here. This means that 75% of female users have friend
counts below 244. Or another way to say this is
that 25% of female users have more than 244 friends.
Similarly for the men, we can see how the first
quartiles and the third quartiles match up to the box
plot. Now, you might have remembered that we used coord_cartesian
in the solution video from before. We did this so that
way, the table output would match our box plots. If we would
have just used the ylim parameter inside of qplot, we would have
gotten different quantiles that wouldn't match our picture. This is just a
subtle difference that you should be aware of when working in
R. Now, it's your turn to answer a different question. On average,
who initiated more friendships in our sample? Was it men or was
it women? Used some of the techniques that we just covered and
then write a few sentences explaining how you
came up with your answer. This second question won't
be automatically graded, but it's important that you
know how to communicate your analysis to other people.
يبدو أن الإناث في المتوسط يكون لديهم أصدقاء أكثر
من الرجال. لذلك يمكنني أن أرى أن
خط الوسط هذا أعلى قليلاً. وهذا ما هو عليه هذا الخط الأسود. فهو
يمثل المنتصف أو الوسط الذي يبلغ 50% من أعداد الأصدقاء
.للإناث والذكور. الآن، هذا الفرق ليس كبيرًا للغاية
فلنُكبِّر الصورة لنحصل على صورة مقربة. هذا المربع الخاص بالإناث
وهذا المربع الخاص
بالذكور يمثل الوسط 50% من القيم في العينة. لذا أعتقد أنه كان
من المنطقي أن نُكبِّر الصورة
أكثر من ذلك لنحصل على صورة مقربة. ينبغي أن نأخذ في اعتبارنا أي قيم أقل من 250، الآن، لا يوجد
،خيار محدد هنا، أنا فقط أختار شيئًا ما يبدو معقولاً
لأن مجمل البيانات يوجد هنا. بعد تشغيل هذه التعليمة البرمجية، يمكننا الآن
رؤية أن مجمل عدد أصدقاء المستخدمين يشبه بالنسبة للوسط الذي يبلغ 50% للذكور ذلك الوسط
الذي يبلغ 50%
للإناث. يتميز الإناث فقط بأنهم أعلى قليلاً من حيث
عدد الأصدقاء. دعونا نلقي نظرة على القيم الفعلية رغم ذلك ونقارن القيم بما نراه في
رسم المربع. يمكننا أن نلقي نظرة على هذه القيم باستخدام
أمر by وتشغيل ملخص عدد الأصدقاء
مقسمًا حسب الجنس. لذلك أولاً، أريد تضمين
friend_count وهو المتغير الذي أريد ملخصًا له. أريد
تقسيمه على الجنس وأريد summary. عند تشغيل
،هذه التعليمة البرمجية
.أحصل على مخرجات للجدول التي تعرض لي الحد الأدنى والأقصى للقيم لكلا الجنسين، بالإضافة إلى الأرباع الإحصائية
الربع الإحصائي الأول بالنسبة للنساء هو 37 وهذا يبدو صحيحًا
في الرسم البياني. الربع الإحصائي الثالث أو علامة 75%
عند 244 وهذا هو الأعلى
هنا. هذا يعني أن 75% من المستخدمين الإناث لديهم عدد أصدقاء أقل من 244
،أو بمعنى آخر
.25% من المستخدمين الإناث لديهم أكثر من 244 صديقًا
وبالمثل بالنسبة للرجال، يمكننا رؤية كيف أن الأرباع الإحصائية الأولى والثالثة
تطابق
الرسم المربع. قد تكونون تذكرتم الآن أننا استخدمنا coord_cartesian
،في فيديو الحل من قبل. عندما قمنا بهذا بتلك الطريقة
طابقت مخرجات الجدول الرسومات المربعة. إذا كنا قد استخدمنا
معلمة ylim فقط داخل qplot، كنا سنحصل على أرباع إحصائية مختلفة
لن تتطابق مع الصورة. هذا عبارة عن مجرد
فرق دقيق عليكم أن تكونوا على علم به عند العمل في
،R. الآن، حان دوركم للإجابة عن سؤال مختلف. في المتوسط
من الذي ضم صداقات أكثر في العينة التي معنا؟ هل كان الرجال
أم النساء؟ استخدموا بعض الأساليب التي تناولناها للتو
ثم اكتبوا بعض الجمل التي توضح كيف
توصلتم إلى إجابتكم. لن يتم إعطاء درجة على هذا السؤال الثاني
تلقائيًا ولكن من المهم أن تعرفوا كيف
.توصلوا تحليلكم إلى الأشخاص الآخرين
女性の平均友達数の方が少し多いようです
中央値の線の高さで分かります
それがこの黒い線の意味です
友達数の中央値つまり中間50%を表しています
この違いはそれほど大きくはありません
クローズアップして見てみましょう
左の箱は女性そして右の箱は男性の
中間50%の値を示しています
さらに詳しく調べましょう
250未満のすべての値を考慮します
データの大部分が下の方にあるので
妥当と思われる数値を選びました
コードを実行します
ユーザの友達数の大部分と
中間50%の値が男女でよく似ています
女性の友達数がほんの少しだけ高いようです
実際の値と箱ひげ図の値を
比べてみましょう
byコマンドを使って性別ごとに分割した友達数の
要約を実行しその値を見ていきます
まず要約の欲しい変数であるfriend_countを入れ
性別ごとに分割し要約を出します
コードを実行すると表が出力されます
両方の性別の最小値、最大値、
四分位範囲を示しています
女性の最初の四分位は37でグラフ上も正しそうです
3つ目の四分位つまり75%は
244を示しているのでここになります
女性ユーザの75%の友達数は244人以下です
言い換えると女性ユーザの25%には
244人以上の友達がいます
男性の最初と3番目の四分位が
箱ひげ図にどう当てはまるかも確認できます
前の解答ビデオではcoord_cartesianを
使用しましたがそれによって
表の出力結果が箱ひげ図に当てはまります
qplotの中にylimパラメータを使っただけでは
図に合わない四分位が出てくるでしょう
Rを使う際は気をつけましょう
それでは今度は皆さんに別の問題に答えてもらいます
より多く友達申請をしているのは男女どちらでしょう
今説明したテクニックを使いましょう
また答えの出し方を説明してください
2つ目の問題は自動採点されませんが
自分の解析方法を説明する技術は重要です
Parece que mulheres têm, em média, um pouco mais de amigos
que homens. Vejo que esta linha mediana
é um pouco mais alta. É isto que esta linha preta representa. Ela
representa a mediana ou 50º percentil da contagem de amigos para
mulheres e homens. Mas esta diferença não é muito grande.
Vamos ampliar para um olhar mais atento. Esta caixa
para mulheres e esta caixa para homens representam o 50º
percentil dos valores em nossa amostra. Dessa forma, faz
sentido aproximar ainda mais para observar mais de
perto. Devemos considerar os valores menores de 250. Não há
uma escolha exata, estou apenas escolhendo algo que parece razoável, já que a maioria dos
meus dados está aqui. Depois de executar este código,
podemos ver agora que a contagem de amigos do usuário é
semelhante para o 50º percentil de homens e para o
50º percentil de mulheres. A contagem de amigos de mulheres é
um pouco mais alta. Vamos observar os valores reais e compará-los
com o que vemos em nosso gráfico de caixa. Podemos observar
esses valores usando o comando by e executando um resumo de
nossa contagem de amigos dividida por gênero. Então, primeiro, vou incluir
friend_count, que é a variável da qual quero um resumo. Vou
dividi-la por gênero e quero um resumo. Ao executar este
código, obtenho uma saída da minha tabela, que me mostra os
valores mínimos e máximos para ambos os gêneros, assim como os quadros principais.
O primeiro quadro principal para mulheres é 37. Isso faz sentido
em nosso gráfico. O terceiro quartil ou a marca de 75%
está em 244 e isso ocorre aqui
em cima. Isso significa que 75% das usuárias têm contagens
de amigos abaixo de 244. Outra forma de dizer isso é
que 25% das usuárias têm mais de 244 amigos.
Assim como para os homens, podemos ver como os primeiros
quartis e os terceiros quartis equivalem ao gráfico
de caixa. Você deve se lembrar de que usamos coord_cartesian
no vídeo de solução de antes. Fizemos isso
para que a saída da tabela correspondesse aos nossos gráficos de caixa. Se tivéssemos
usado o parâmetro ylim dentro de qplot, teríamos obtido
quantis diferentes que não corresponderiam a nossa imagem. Esta é apenas uma
diferença sutil que você deve observar ao trabalhar no
R. Agora, é a sua vez de responder a uma pergunta diferente. Em média,
quem iniciou mais amizades em nossa amostra? Homens ou
mulheres? Use algumas das técnicas que abordamos e
escreva algumas frases explicando como você
chegou a essa resposta. A segunda pergunta não
vale nota, mas é importante que você
saiba como comunicar sua análise para outras pessoas.
看起来女性的好友数平均比男性稍多
因为我看到这个中位数线稍高一些
这就是这条黑线的含义
它代表女性和男性好友数的中位数或者中间 50%
现在这个差异不是很大
我们来放大仔细看看
这个框是女性 这个框是男性
代表我们样本中数值的中间 50%
我认为我们应该再放大仔细看看
我们应该考虑低于 250 的所有值
现在这里没有具体的选择 我只是选择看起来合乎情理的方面
因为数据的大部分都在下面
运行此代码以后 我们可以看到大部分的用户好友数
对于男性中间 50% 以及女性中间 50% 是相似的
只是我们的女性好友数稍高一些
我们来看看实际数值 将数值与我们在箱线图中看到的进行比较
通过使用 by 命令观察这些值
按照性别划分运行好友数汇总
首先 我想包含好友数
这是要进行汇总的变量
我要按照性别进行划分 然后进行汇总
运行这个代码 得到表输出 显示出两种性别的
最小和最大值 以及核心区块
女性的第一个核心区块是 37 就在我们的图形中
第三个四分位或者 75% 标记
位于 244 一直上到这里
这意味着 75% 的女性好友数低于 244
或者换一种说法就是
25% 的女性好友数大于 244 人
对于男性同样 可以看出第一个四分位
和第三个四分位符合箱线图
现在你可以还记得 我们在以前的答案视频中使用 coord_cartesian
这样做的目的就是
表输出将符合我们的箱线图
如果我们只在 qplot 中使用 ylim 参数
将得到不同的四分位 与我们的图形不符
这是你在使用 R 时应该明白的一个微妙差别
现在轮到你回答不同的问题 平均来看
我们的样本中谁发起好友数更多?男性还是女性?
使用我们刚才介绍的方法
写出你获得答案的过程
第二个问题不会自动评分
但是重要的是你要知道
如果将你的分析向别人沟通