Now that we know how to create a dataframe,
why don't we talk about how we can access the data.
We can operate on specific columns by calling on them as if they were a key in
the dictionary.
For example, if we wanted just the name column of this dataframe,
I could simply type df name.
I could also grab more than one column by passing in a list of
column names as opposed to just one column name.
For example, say I wanted the name and age columns.
I could say df name, age.
I can also call on specific rows by calling the dataframe objects load
method and passing the row index as an argument.
For example, if I only wanted the row corresponding to passenger Braund,
whose index is a, I could simply say df.loc a.
We can also use true false statements regarding columns of the dataframe to
subset the dataframe.
For example let's say I wanted rows of this dataframe only
where the passenger age was greater than or equal to 30.
I could simply say, df where df age greater than or equal to 30.
You can see here that I've only picked out rows b and d,
which were the rows where our passenger is in fact older than 30.
This ability to subset our dataframe based on true false statements in
the index is not limited to the entire row.
I can also perform this operation on particular columns.
For example let's say I only wanted this survived information for
these two rows, b and d.
I can simply say, df survived df age greater than or equal to 30.
Let's pick apart what this statement is
doing since it's a little bit complicated.
First, df survived is going to
pick out only the survived column of our dataframe.
This section here says,
I basically only want the indices where df age is great than or equal to 30.
Then I say, of this array of values, give me only the values where
the indices are equal to the indices where this statement is true.
بعد أن عرفنا كيفية إنشاء dataframe،
فلم لا نتطرق إلى كيفية الوصول إلى البيانات.
يمكننا العمل على أعمدة محددة من خلال استدعائها كما لو كانت مفتاحًا في
القاموس.
فعلى سبيل المثال، إذا كنا نريد عمود الاسم فقط من dataframe هذا،
يمكنني ببساطة كتابة df name.
كما يمكنني استدعاء أكثر من عمود واحد من خلال تمرير
قائمة بأسماء الأعمدة في مقابل اسم عمود واحد فقط.
فعلى سبيل المثال، لنفترض أنني أريد العمودين الاسم والعمر.
يمكنني كتابة [[''name', 'age]] df.
يمكنني أيضًا استدعاء صفوف محددة من خلال استدعاء أسلوب تحميل كائنات dataframe
وتمرير فهرس الصف كوسيطة.
على سبيل المثال، إذا كنت أريد فقط الصف الذي يتوافق مع الراكب بروند
الذي يكون الفهرس الخاص به هو a، يمكنني أن أقول ببساطة df.loc a.
كما يمكننا أيضًا استخدام عبارات الصواب والخطأ الخاصة بأعمدة dataframe
لتكوين مجموعة فرعية لـ dataframe.
لنفرض مثلا أنني أريد صفوفًا من dataframe هذا
بحيث يكون عمر الراكب أكبر من أو يساوي 30 فقط.
يمكنني أن أقول ببساطة، df، حيث يكون df age أكبر من أو يساوي 30.
يمكنك أن ترى أنني قد اخترت الصفين b وd فقط،
وهما الصفان اللذان يوضحان أن عمر الراكب في الواقع يتجاوز الثلاثين عامًا.
هذه القدرة على تكوين مجموعة فرعية لـ dataframe بناءً على عبارات الصواب والخطأ الموجودة في
الفهرس لا تقتصر على الصف بأكمله.
يمكنني أيضًا تنفيذ هذه العملية على أعمدة بعينها.
فعلى سبيل المثال، لنفرض أنني أريد الحصول
على هذه المعلومات المتبقية فقط للصفين b وd.
يمكنني أن أقول ببساطة، df survived، بحيث يكون df age أكبر من أو يساوي 30.
لنفصِّل معنى هذه العبارة
حيث إنها عبارة معقدة إلى حد ما.
أولا، ستختار df survived
العمود المتبقي فقط من dataframe.
ويوضح هذا القسم هنا،
أنني أريد فقط الفهارس حيث يكون df age أكبر من أو يساوي 30.
عندئذٍ أقول، من صفيف القيم الحالي ، اعرض لي فقط القيم حيث تكون الفهارس
مساوية للفهارس التي تكون بها هذه العبارة صوابًا.
データフレームの作り方が分かったところで
データにアクセスする方法を見てみましょう
辞書のキーのように呼び出すことで
特定の列を操作できます
例えばnameの列だけを取り出したいなら
df[’name’]と入力します
列の名前のリストを渡せば
複数の列を取り出すこともできます
nameとageの列を取り出したい時は
df[[’name’,’age’]]と
入力すればいいのです
locというメソッドを使えば
インデックス値を引数として
特定の行を呼び出すこともできます
例えばインデックスがaのBraundという乗客の
行データが欲しいなら
df.loc[’a’]と入力します
trueとfalseのステートメントを列に使うことで
サブセットも取り出せます
例えば年齢が30歳以上の乗客の
行データだけが欲しいとします
その場合は
df [df [’age’]>=30]とすればいいのです
すると年齢が30歳以上の乗客である
bとdの行だけが取り出せました
インデックスに
true、falseのステートメントを使って
サブセットを取得する場合には
行全体ではなく
特定の列だけ操作することも可能です
例えばbとdの行から
生存状況だけを取り出したいなら
df[’survived?’][df[’age’]>=30]
と入力します
このステートメントは少し複雑なので
意味を確認しましょう
最初のdf[’survived?’]で
データフレームから生存者の列だけを取得します
この部分は年齢が30歳以上のインデックスだけを
取得するという意味です
そしてこの配列は後ろにあるステートメントが
trueになるインデックスの値だけ
取得するという意味です
Agora que sabemos como criar uma estrutura de dados,
por que não falamos sobre como podemos acessar os dados?
Podemos operar em colunas específicas, chamando-as como se fossem uma chave do
dicionário.
Por exemplo, se quiséssemos apenas a coluna de nome desta estrutura de dados,
eu poderia simplesmente digitar df name.
Também poderia obter mais de uma coluna, passando em uma lista de nomes
de coluna, e não em um nome de coluna apenas.
Por exemplo, digamos que eu quisesse as colunas de nome e idade.
Diria df name, age.
Eu também chamaria linhas específicas, chamando o método
de carga de objetos da estrutura de dados e informando o índice de linha como um argumento.
Por exemplo, se eu quisesse somente a linha correspondente ao passageiro Braund,
cujo índice é a, eu simplesmente diria df.loc a.
Também podemos usar instruções verdadeiras falsas referentes às colunas da estrutura de dados para
definir o subconjunto da estrutura de dados.
Por exemplo, digamos que eu quisesse somente linhas desta estrutura de dados
nas quais a idade do passageiro fosse maior ou igual a 30.
Eu diria simplesmente df where df age >= 30.
Aqui você pode ver que escolhi apenas as linhas b e d,
que foram as linhas em que nosso passageiro tinha, na verdade, mais de 30 anos.
Esta capacidade de definir um subconjunto da estrutura de dados com base nas instruções verdadeiras falsas no
índice não se limita à linha.
Também posso executar esta operação em colunas específicas.
Por exemplo, digamos que eu só quisesse estas informações de sobrevivência
para estas duas linhas, b e d.
Eu diria simplesmente df survived df age >= 30.
Vamos separar o que esta instrução está
fazendo, pois ela é um pouco complicada.
Primeiro, df survived vai
separar somente a coluna survived de nossa estrutura de dados.
Esta seção aqui diz
que eu basicamente só quero os índices nos quais df age >= 30.
Então, deste array de valores, forneça-me apenas os valores nos quais
os índices são iguais aos índices em que esta instrução é verdadeira.
我们已学习了如何创建数据框架
现在来学习一下如何访问数据
我们可以将特定列当做字典中的键 通过对其进行调用
针对它们执行操作
例如 如果我们仅需要这个数据框架的名称列
那么我可以仅输入 df 名称
我还可以通过传递列名称列表 而不是仅传递一个列名称
来获取多个列
例如 我需要名称和年龄列
我可以输入“df name, age”
我还可以通过调用数据框架对象加载方法
并将行索引作为参数传递 调用特定行
例如 如果我只需要乘客 Braund 对应的行
该行的索引是 a 那么我只需输入 df.loc a
我们还可以将与数据框架列有关的真假语句
用于划分数据框架子集
例如 如果我只需要此数据框架中
乘客年龄大于或等于 30 的行
那么我只需输入 df 并将 df age (年龄)设置为大于或等于 30 即可
你会发现 我只选择了 b 行和 d 行
这些是乘客年龄在 30 岁以上的行
基于索引中的真假语句划分数据框架子集的功能
并非仅适用于完整的行
我还可以在特定列上执行此操作
例如 假设我仅需要 b 和 d 两行的
幸存情况信息
那么只需输入 df 幸存情况 并将 df 年龄设置为大于或等于 30 即可
这个语句比较复杂
我们将它拆分开
首先 df survived (幸存) 将仅
挑选出数据框架的“幸存”列
这部分的意思是
我只需要 df age 大于或等于 30 的索引
这个值数组仅提供以下值
其中的索引等于这个语句为真时的索引