Let's say a few words about types of data.
It's something that's come up in this class already, but let's make it
a little bit more explicit so that you know that it's something to look out for.
Here are a few important types of data that you should be aware of.
One is numerical.
So something like salary information would be an example of
a numerical variable, where basically the feature is a number.
Another thing that we've talked a lot about in the context of
supervised classification is categorical features.
These can take on a limited number of discrete values.
So, a cat, an example of a categorical feature would be the class label.
This would also be something like if a person is a man or
a woman, or maybe how many stars you give when you're rating a movie.
Although stars, you might argue, could also be called a numerical value.
Another one that's very important, especially in particular fields like finance,
is time series data.
This is data that has a temporal value attached to it, so this would be
something like a date or a time stamp that you can look for trends in time.
One that we're already very familiar with, text data,
which is basically just words.
A lot of the time the first thing that you do with text is you turn it
into numbers using some interesting functions that we'll,
that we'll learn about, things like the bag of words formulation.
So these are all types of data that you might encounter, and depending on
exactly the type of data, this might have some repercussions for the type of
algorithm that you can use or the type of questions that you can ask of it.
So let me get you a quiz just to practice this.
I'm going to give you a bunch of types of features you might see and
ask you what type of data that feature is.
First example is salary information.
Would you call this numerical, categorical, time series, text, or
let's put other on the list as well because this isn't a complete list.
.لنقل نبذة مختصرة عن أنواع البيانات
إنه شيء يحدث في هذا الدرس بالفعل، ولكن دعونا نتحدث
.بمزيد من الصراحة بحيث إنه كما تعرفون شيئًا تبحثون عنه
.فيما يلي عرض لبعض أنواع البيانات المهمة التي يجب أن تكونوا على دراية بها
.وأحدها رقم
إذن، يمكن أن تكون معلومات الراتب مثالاً عن
.متغير رقمي، حيث تكون الميزة هي الرقم بشكل أساسي
الشيء الآخر الذي تحدثنا عنه في سياق
.التصنيف الخاضع للإشراف هو الميزات التصنيفية
.ويمكن أن تحدث في عدد محدود من القيم المنفصلة
.إذن، القطة، هي مثال على ميزة تصنيفية يمكن أن تكون تسمية للفئة
ويمكن أن يكون هذا أيضًا شيئًا مثل إذا ما كان شخص ما رجل
.أو امرأة، أو ربما عدد النجوم التي تعطيها لأحد الأفلام عند تقييمه
.ويمكن أن تختلف معي بشأن أن النجوم قيمة رقمية
،والنوع الآخر المهم للغاية، لا سيما في حقول معينة مثل المال
.هو بيانات التسلسل الزمني
وهي البيانات التي تكون ذات قيمة مؤقتة مرتبطة بها، لذا يمكن أن تكون
.شيئًا مثل التاريخ أو الطابع الزمني حيث يمكنك البحث عن التوجهات بالنسبة للوقت
،النوع الذي نكون على دراية كبيرة به هو، البيانات النصية
.والمقصود بها مجرد الكلمات بشكل أساسي
في أثناء كثيرة، أول ما نفعله بالنص هو تحويله إلى
أرقام باستخدام بعض الدوال المثيرة
.التي سنعرفها، أشياء مثل صياغة مجموعة الكلمات
هذه هي جميع أنواع البيانات التي قد تواجهكم، واستنادًا إلى
نوع البيانات الدقيق، قد يكون لها بعض التأثير في نوع
.الخوارزمية التي يمكنكم استخدامها أو نوع الأسئلة التي يمكنكم طرحها
.لذا دعوني أعطيكم اختبارًا لممارسة ذلك
سوف أعطيكم مجموعة من أنواع الميزات التي يمكنكم ملاحظتها
.وسأسألكم عن نوع البيانات التي تتضمنها تلك الميزة
.المثال الأول هو معلومات الراتب
هل يمكنكم أن تطلقوا عليها بيانات رقمية أم تصنيفية أم تسلسل زمني أم نصية، أو
.دعونا نضيف أنواعًا أخرى في القائمة أيضًا نظرًا لأن هذه القائمة ليست كاملة
Vamos dizer algumas palavras sobre tipos de dados.
É alguma coisa que já apareceu nesta aula, mas vamos fazer isso
de uma maneira um pouco mais explícita para que você saiba que isso é algo para prestar atenção.
Aqui estão alguns tipos de dados importantes sobre os quais você deve estar ciente.
Um é numérico.
Algo como informações sobre salário seria um exemplo de
uma variável numérica, onde o recurso é basicamente um número.
Outra coisa sobre a qual falamos muito no contexto de
classificação supervisionada são os recursos categóricos.
Estes podem utilizar um número limitado de valores distintos.
Portanto, um cat..., um exemplo de um recurso categórico seria o rótulo de classe.
Isso seria também algo como se uma pessoa é um homem ou
uma mulher ou, talvez, quantas estrelas você usa ao classificar um filme.
Embora estrelas, você poderia argumentar, também são chamadas de um valor numérico.
Outro que é muito importante, principalmente em áreas específicas, como finanças,
é dados de série temporal.
São dados que têm um valor temporal conectado a eles, portanto, isso seria
algo como uma data ou um carimbo de data e hora que você pode examinar para tendências no tempo.
Um tipo com o qual você já está muito familiarizado é dados de texto
que são basicamente apenas palavras.
Muitas vezes, a primeira coisa que você faz com texto é transformá-lo
em números usando algumas funções interessantes sobre
as quais aprenderemos, coisas, como formulação de conjuntos de palavras.
Portanto, estes são todos os tipos de dados que você pode encontrar e, dependendo
exatamente do tipo de dados, isso pode ter algumas repercussões no tipo de
algoritmo que você pode usar ou o tipo de perguntas que você pode fazer a respeito.
Vou fornecer um teste só para você praticar isso.
Vou dar a você um amontoado de tipos de recursos que você pode ver e
perguntar de que tipo de dados é esse recurso.
O primeiro exemplo é informações sobre salário.
Você chamaria isso de numérico, categórico, série temporal, texto ou
vamos colocar Outro nesta lista porque esta lista não está completa.
现在我们简单谈一下数据的类型
课程中其实已经有涉及到
但现在我们更具体地说一说 这样你能有更清晰的概念
你需要注意到一些重要的数据类型
一个是数值数据
薪水信息就是数值变量的例子
基本上特征就是数字
另外一个我们在监督分类中谈及很多
是分类特征
这个包括有限数量的离散值
所以 作为分类特征的例子 猫可以是分类标签
或者是某人是男性或女性
或者你给一部电影几星评价这种内容
当然几星评价这种也可以被称为数值型
另外一种对金融等特别领域非常重要的
是时序数据
这个数据附加有一个时间值
例如是日期或时间戳 这样你能看到时间趋势
另外一个就是我们已经非常熟悉的文字数据
也就是一般的文字
对于文字 很多情况下你首先要做的是
使用一些有趣的功能将它变成数字
我们之后会学到的 比如词袋模型
这些是你可能遇见的数据的各个类型
你遇见的数据类型 可能会影响
你可以使用的算法或者是你可以问的问题
现在让我进行一个小测试 让你练习一下
我会给你各种类型的数据
然后你选择这种数据的特征是什么
首先是薪金信息
你认为它属于数值、分类、时序、文字
或者是其它 我们在这里加上 因为这个不是完整的清单