We want you to develop a mindset of being both curious and skeptical, when
you work with data. To help you get into this mindset, I want to share
another conversation that I had with Aude. In this next video, I want you
to listen to Aude's work and look
out for how she demonstrated this exact mindset.
>> So we gathered all the home towns and current cities from the
users and I was looking at conditional probabilities given
a hometown. What is the probability that you currently live
in each different cities? Like, for example given that your
hometown is New York, what is the probability that you
live in Chicago or that you live in, that you
still live in New York or that you live in
San Francisco or Paris and so on. And what I
was expecting is that, at least, the most likely city,
where you would live right now would be the city where
your home town is. If you grew up in
Chicago, the most likely place that you're going to
be now is still Chicago. You could be moving
as well but the most likely place would remain your
hometown. But I saw a fair number of cases
where the most likely current city was different from
the home town and, and that was, was a
fairly high probability. I was really surprised. I was wondering
if I had, had a prime in my computations, If there was some issues upstream of
what I was doing. So I decided to put all the cities on a map. All the pairs of
hometowns and current cities for which the most
likely current city was different from the hometown. And
what we saw on this map was really fascinating
because it was really not what we we're expecting.
It was not a bug in the code. We were really seeing patterns arise. Here we only
plotted pairs of hometown and current city, so
there's no movement between the pairs but what we
see is that a lot of these cities for which the most likely
current city is different from the hometown arise in western Africa or in
India or in like Turkey, which we were not
necessarily expecting at the beginning. And there were a
lot of small cities all moving to the same current
city and so we decided to dig a bit
more into it. One thing that happens is that sometimes
the distribution of the current city is very flat.
Given that you grew up in, let's say Paris, maybe
you're still living in Paris but maybe you live in
like one of the thousand cities in the suburbs and
so the distribution is really flat and so we
have to decide what was considered as a coordinates
demarcation. We decided yeah, the probability to move to
that city is high enough that we're considering that.
And the other thing we have to think about is that if you look at the map at
the world scale or if you zoom to a
very specific area, you don't want to see the same things.
So,we also want it to have interactivity in the visualization. And so we
decided to use D3, which is a Javascript-based visualization framework, which
enables you to have a lot of interactivity with with your data
and enabled us to do a lot of that exploration and so on.
نريد منكم تطوير نمط تفكير يتسم بالفضول والشك، عند
التعامل مع البيانات. ولمساعدتكم على فهم نمط التفكير هذا، أريد أن أشارككم محادثة
أخرى كنت قد أجريتها مع "أود". في هذا الفيديو التالي، أريد منكم
"الاستماع إلى عمل "أود
.وملاحظة كيفية شرحها لنمط التفكير الدقيق هذا
>> إذن، فقد جمعنا كل المدن الأصلية والمدن الحالية من
المستخدمين، وكنت أبحث في الاحتمالات المشروطة
في وجود بلدة أصلية. ما هو احتمال أنك تعيش حاليًا
في كل واحدة من المدن المختلفة؟ على سبيل المثال، بفرض أن
نيويورك هي مسقط رأسك، ما هو احتمال
أن تعيش حاليًا في شيكاغو
أو أنك لا تزال تعيش في نيويورك أو أنك تعيش
في سان فرانسيسكو أو باريس وهكذا؟ وما كنت
،أتوقعه هو أن
على أقل تقدير، المدينة التي تعيش فيها حاليًا هي الأكثر احتمالاً
لتكون بلدتك الأصلية. فإذا كنت قد نشأت
في شيكاغو، فإن المكان الأكثر احتمالاً
،لتعيش به الآن لا يزال شيكاغو. ربما تقوم بالتنقل
ولكن سيظل أكثر الأماكن احتمالاً لتواجدك هو
مسقط رأسك. لكنني رأيت عددًا لا بأس به من الحالات
التي كانت فيها المدينة الحالية على الأرجح مختلفة
،عن المدينة الأصلية
وكان ذلك احتمالاً كبيرًا إلى حد ما. وقد أدهشني ذلك حقًا. وكنت أتساءل
عما إذا كان هناك عدد أولي في حساباتي، وما إذا كانت هناك بعض المسائل المتعلقة بوضع السياسات
الخاصة بما كنت أفعل. لذلك قررت وضع جميع المدن على خريطة. جميع أزواج
المدن الأصلية والمدن الحالية
التي كانت فيها المدينة الحالية الأكثر احتمالاً مختلفة عن المدينة الأصلية. وما
رأيناه على هذه الخريطة كان رائعًا حقًا
.لأنه لم يكن في الحقيقة ما كنا نتوقعه
لم يكن ذلك خطأ في التعليمات البرمجية. كنا حقًا نرى أنماطًا تظهر. نحن هنا
قد حددنا مواقع أزواج من المدن الأصلية والمدن الحالية، لذلك
ليست هناك حركة بين الأزواج، ولكن
ما نراه هو أن الكثير من المدن التي تكون فيها المدينة الحالية مختلفة عن المدينة الأصلية على الأرجح
تظهر في غرب أفريقيا
أو في الهند أو في تركيا مثلاً
وهو ما لم نكن حتمًا نتوقعه في البداية. كانت هناك
،الكثير من المدن الصغيرة التي تنتقل جميعها إلى نفس المدينة الحالية
لذلك قررنا التعمق فيها
أكثر قليلاً. أحد الأمور التي تحدث هو أنه في بعض الأحيان
.يكون توزيع المدينة الحالية ثابتًا جدًا
،بفرض أنك قد نشأت في باريس على سبيل المثال
فربما تكون لا تزال تعيش في باريس
وربما تعيش في واحدة من آلاف المدن في الضواحي
،وبذلك يكون التوزيع ثابتًا بالفعل
ويتعين علينا أن نقرر ما كان يعتبر
تخطيط الإحداثيات. وقد توصلنا إلى أن احتمال الانتقال إلى
.هذه المدينة مرتفع بما يكفي لأخذه في الاعتبار
والشيء الآخر الذي ينبغي علينا التفكير به هو أنكم إذا نظرتم إلى الخريطة
بمقياس رسم العالم أو إذا قمتم بتكبير
.مساحة محددة جدًا، فإنكم لا ترغبون في رؤية الأشياء نفسها
لذلك، فإننا نرغب أيضًا في أن يكون هناك تفاعل في التصور. ولذلك
،قررنا استخدام D3، وهو إطار تصور يستند إلى Javascript
يتيح لك الكثير من التفاعل مع البيانات
.ويمكننا من القيام بالكثير من الاستكشاف وهكذا
データの解析をする際
常に好奇心と疑いの目を持つことを意識してください
それを習慣化するために
もう1つオードの話を共有したいと思います
次のビデオではオードがこの考え方をどのように
データ解析に使っているか聞いてください
ユーザの出身地と現在住んでいる都市のデータを集め
出身地が与えられた下での条件付き確率を見ました
その出身地の人が今別の都市に
住んでいる確率はどのくらいなのでしょうか
例えばニューヨーク出身の人が
現在シカゴに住んでいる確率はどのくらいなのか
ニューヨークやサンフランシスコ
パリに住んでいる確率はどうかということです
私はほとんどの人が
現在住んでいる都市と出身地が同じだと
予想していました
もしシカゴで生まれ育ったのであれば
現在もシカゴに住んでいる可能性が高いと思ったのです
もちろん他の都市へ引っ越している可能性もありますが
出身地にとどまる可能性が高いと予想しました
しかし出身地と現在住んでいる都市が
違うことが多かったのです
驚いたことにそれはかなり高い確率でした
私の計算が間違っていたか
上流工程に問題があったかもしれないと思い
地図にデータを載せることにしました
出身地と出身地と違うと思われる
現在住んでいる都市を
すべてペアで載せていきました
すると私たちが予想していたものとは
まったく違った結果が見られました
プログラムのバグではなく
実際のパターンだったのです
この地図には出身地と現在地を
ペアで表示しているだけなので
ペア同士の動きは見えませんが多くの都市において
出身地と現在地が違うケースが見られました
現在地には当初予想していなかったアフリカ西部
インドやトルコなども含まれていました
そしてたくさんの小さな都市から
同じ都市へ移住していくケースも多く見られました
そこでさらに詳しく調べてみて分かったことは
現在地の分布がとてもフラットだったことです
パリで生まれ育って
今もパリに住んでいるかもしれませんが
何千とあるパリ郊外の都市の1つに
住んでいるかもしれません
分布が非常にフラットなので
整理する境界線を決めなければなりませんでした
私たちは郊外の他の都市に引っ越している可能性も
高いことを念頭に置くことにしました
もう1つ考えたことがあります
世界規模で地図を見た時と
どこか特定の地域をクローズアップして見た時に
同じものを見たいわけではありません
なので可視化にあたり対話性を持たせたかったのです
そこで私たちはJavascriptベースの
可視化フレームワークであるD3を使用しました
それによりデータに対話性を持たせることができ
多くの有用な探索が可能になりました
Queremos que você desenvolva uma mentalidade curiosa e cética quando
trabalhar com dados. Para ajudá-lo a ter essa mentalidade, gostaria de compartilhar
outra conversa que tive com Aude. Neste próximo vídeo, quero que você
ouça o trabalho de Aude e veja
como ela demonstrou esse mesma mentalidade.
>> Juntamos todas cidades natais e cidades atuais dos
usuários, e eu estava olhando as probabilidades condicionais devido à
cidade natal. Qual é a probabilidade de você atualmente viver
em uma cidade diferente? Por exemplo, se a cidade
natal for Nova Iorque, qual a probabilidade de você viver em
Chicago ou de
ainda viver em Nova Iorque ou de viver em
São Francisco ou Paris e assim por diante. E o que eu esperava
é que, pelo menos, a cidade mais provável,
onde você viveria agora seria
sua cidade natal. Se você cresceu em
Chicago, o lugar mais provável que você estaria
agora ainda seria Chicago. Você poderia ter
se mudado, mas a sua cidade natal ainda seria
o lugar mais provável. Mas vi um número significativo de casos
onde a cidade atual mais provável era diferente
da cidade natal e, isso era
uma probabilidade razoavelmente alta. Fiquei surpreso. Eu me perguntava
se eu tinha um principal em minhas computações, se havia alguns problemas no que
eu estava fazendo. Decidi colocar todas cidades em um mapa. Todos os pares de
cidades natais e cidades atuais para qual a cidade
atual mais provável era diferente da cidade natal. E
o que vimos neste mapa foi realmente fascinante,
porque não era o que esperávamos.
Não era um bug no código. Estávamos vendo padrões se destacando. Aqui nós apenas
traçamos pares de cidade natal e cidade atual,
não há nenhum movimento entre os pares, mas o que
vemos é que muitas dessas cidades das quais a cidade atual mais
provável é diferente da cidade natal surgem na África Ocidental ou na
Índia ou na Turquia, que não
necessariamente esperávamos no início. E houve muitas
cidades pequenas mudando para a cidade
atual e decidimos buscar um
pouco mais. Uma coisa que acontece é que às vezes,
a distribuição da cidade atual é muito plana.
Digamos que você tenha crescido em Paris, talvez
você ainda esteja morando em Paris, mas você pode estar morando
em uma das centenas de cidades nos arredores e
a distribuição é bem plana,
temos de decidir o que foi considerado como uma demarcação de
coordenadas. Decidimos que a probabilidade de mudar para
aquela cidade é tão alta que estamos considerando ela.
E a outra coisa que temos que pensar é que se você olhar no mapa na
escala mundial ou se aproximar de uma
área bem específica, você não irá querer ver as mesmas coisas.
Também queremos interação com a visualização. Decidimos
usar o D3, um framework de visualização com base em Javascript, que
possibilita a você interagir intensamente com seus dados
e permite que façamos muitas explorações e assim por diante.
我们希望你在处理数据时培养一种好奇心而敢于质疑的思维
为帮助你进入这种心态 我要分享我与 Aude 的另一场谈话
在下一个视频中 我希望
你倾听 Aude 的工作
体会她如何展示这种思维
我们从用户那里收集了其家乡及当前城市
我要查看给定家乡的条件概率
你当前在每个不同城市居住的概率是多大?
比如说 假设你的家乡是纽约
那么你在芝加哥居住的概率是多大?
或者说你仍居住在
纽约的概率有多大?
你居住在旧金山或者巴黎的概率有多大?以此类推
我期望的是 至少你当前最可能
居住的城市就是
你的家乡所在地
如果你在芝加哥长大 那么现在你最可能所在的地方
仍是芝加哥 你可能也会搬家
但最可能的地方仍会是自己的家乡
但是 我看到一定数量的案例
当前最可能的城市
并非自己的家乡 而且是
相当高的概率 我非常好奇 我在想
是否在我的计算中有一个基数 是否所做的工作的上游存在问题
所以我决定将所有城市放到地图上
对于最可能当前城市不是家乡的情况
家乡和当前城市进行对照
我在这个地图上看到的结果非常让人困惑
因为真的与我们的预期大不相同
这是代码中的缺陷 我们真正看到模式的出现
这里我们仅仅画出家乡和当前城市对照
对照之间没有移动 但我们看到的是
对于当前最可能身处的城市与家乡不同的情况
这些城市很多出现在西部非洲
或者印度 或者土耳其
而这些在开始时不一定可以预计得到
还有很多的小城市都移到当前相同的城市
所以我们决定再深挖一步
出现的一个情况就是
有时候当前城市的分布非常平坦
给出你的出生地 比如巴黎
可能你仍居住在巴黎 但是你也可能居住在
上千城市之一的市郊
所以这个分布非常平坦
所以我们得决定将什么用作坐标划界
我们确定搬到该城市的概率
足够高到我们要对其进行考虑
我们要考虑的另一件事情就是 如果你在全球范围内观察这幅地图
或者如果缩放到某个特定区域
你想要看到的情况是不一样的
所以 我们希望在可视化中有交互能力
所以我们决定使用 D3 这是基于 Javascript 的可视化框架
可让你与数据之间有很多交互能力
能让我们做很多探索 等等