Hướng dẫn how do you call a column in a dataframe in python? - làm thế nào để bạn gọi một cột trong khung dữ liệu trong python?

Việc lập chỉ mục và chọn tài liệu dữ liệu đề cập rằng toán tử lập chỉ mục

>>>  df.loc[0:2, 'a':'a']
   a
0  1
1  2
2  3

>>> df.loc[:, 'a'] # use of implicit start and end
0    1
1    2
2    3
Name: a, dtype: int64
1 được cung cấp nhiều hơn để thuận tiện. Các phương thức
>>>  df.loc[0:2, 'a':'a']
   a
0  1
1  2
2  3

>>> df.loc[:, 'a'] # use of implicit start and end
0    1
1    2
2    3
Name: a, dtype: int64
2 và
>>>  df.loc[0:2, 'a':'a']
   a
0  1
1  2
2  3

>>> df.loc[:, 'a'] # use of implicit start and end
0    1
1    2
2    3
Name: a, dtype: int64
3 cung cấp các hoạt động lập chỉ mục rõ ràng hơn trên DataFrame.

Lưu ý: Chỉ mục có ý nghĩa riêng của nó trong gấu trúc. Vì vậy, khi đề cập đến chỉ mục số (như một chỉ mục mảng), tốt hơn là sử dụng vị trí interger (hoặc chỉ là vị trí). Index has its own connotation in pandas. So when referring to the numeric index (like an array index), it is better to use interger position (or just position).

>>> df
   a  b
0  1  4
1  2  5
2  3  6

>>> df['a']
0    1
1    2
2    3
Name: a, dtype: int64

Truy cập các hàng và cột theo vị trí số nguyên

>>> df.iloc[0:3, 0:1]
   a
0  1
1  2
2  3

>>> df.iloc[:, 0]  # use of implicit start and end
0    1
1    2
2    3
Name: a, dtype: int64

Truy cập hàng và cột theo nhãn

>>>  df.loc[0:2, 'a':'a']
   a
0  1
1  2
2  3

>>> df.loc[:, 'a'] # use of implicit start and end
0    1
1    2
2    3
Name: a, dtype: int64
9ROW_START_LABEL
>>>  df.loc[0:2, 'a':'a']
   a
0  1
1  2
2  3

>>> df.loc[:, 'a'] # use of implicit start and end
0    1
1    2
2    3
Name: a, dtype: int64
5ROW_END_LABEL
>>>  df.loc[0:2, 'a':'a']
   a
0  1
1  2
2  3

>>> df.loc[:, 'a'] # use of implicit start and end
0    1
1    2
2    3
Name: a, dtype: int64
6 COL_START_LABEL
>>>  df.loc[0:2, 'a':'a']
   a
0  1
1  2
2  3

>>> df.loc[:, 'a'] # use of implicit start and end
0    1
1    2
2    3
Name: a, dtype: int64
5COL_END_LABEL____
>>>  df.loc[0:2, 'a':'a']
   a
0  1
1  2
2  3

>>> df.loc[:, 'a'] # use of implicit start and end
0    1
1    2
2    3
Name: a, dtype: int64
8

Lưu ý: Trong ví dụ này, nó chỉ xảy ra rằng (các) nhãn hàng và vị trí hàng là giống nhau, là số nguyên

In [1]: import pandas as pd
4.

>>>  df.loc[0:2, 'a':'a']
   a
0  1
1  2
2  3

>>> df.loc[:, 'a'] # use of implicit start and end
0    1
1    2
2    3
Name: a, dtype: int64

Xem cách truy vấn / chọn / cắt dữ liệu để biết thêm chi tiết.

In [1]: import pandas as pd

  • Dữ liệu Titanic

    Hướng dẫn này sử dụng bộ dữ liệu Titanic, được lưu trữ dưới dạng CSV. Dữ liệu bao gồm các cột dữ liệu sau:

    • Pascetengerid: ID của mỗi hành khách.

    • Sống sót: Dấu hiệu cho dù hành khách có sống sót hay không.

      In [1]: import pandas as pd
      
      5 cho Có và
      In [1]: import pandas as pd
      
      6 cho không.

    • Trò chơi là một trong 3 lớp vé: Lớp

      In [1]: import pandas as pd
      
      6, Lớp
      In [1]: import pandas as pd
      
      8 và Lớp
      In [1]: import pandas as pd
      
      9.

    • Tên: Tên của hành khách.

    • Tình dục: Giới tính của hành khách.

    • Tuổi: Tuổi của hành khách trong nhiều năm.

    • SIBSP: Số anh chị em hoặc vợ hoặc chồng trên tàu.

    • PARCH: Số lượng cha mẹ hoặc con cái trên tàu.

    • Vé: Vé số hành khách.

    • Giá vé: Chỉ ra giá vé.

    • Cabin: Cabin Số hành khách.

    • Bắt đầu: Cảng bắt đầu.

    Để dữ liệu thô

    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    

Làm cách nào để chọn các cột cụ thể từ ________ 40?#

  • Tôi quan tâm đến tuổi của hành khách Titanic.

    In [4]: ages = titanic["Age"]
    
    In [5]: ages.head()
    Out[5]: 
    0    22.0
    1    38.0
    2    26.0
    3    35.0
    4    35.0
    Name: Age, dtype: float64
    

    Để chọn một cột duy nhất, hãy sử dụng dấu ngoặc vuông

    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    
    1 với tên cột của cột quan tâm.

Mỗi cột trong

In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
0 là
In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
3. Khi một cột duy nhất được chọn, đối tượng được trả về là một gấu trúc
In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
3. Chúng tôi có thể xác minh điều này bằng cách kiểm tra loại đầu ra:

In [6]: type(titanic["Age"])
Out[6]: pandas.core.series.Series

Và xem

In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
5 của đầu ra:

In [7]: titanic["Age"].shape
Out[7]: (891,)

In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
6 là một thuộc tính (hãy nhớ hướng dẫn về đọc và viết, không sử dụng dấu ngoặc đơn cho các thuộc tính) của một gấu trúc
In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
3 và
In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
0 chứa số lượng hàng và cột: (NROWS, NCOLumns). Một loạt gấu trúc là 1 chiều và chỉ có số lượng hàng được trả về.tutorial on reading and writing, do not use parentheses for attributes) of a pandas
In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
3 and
In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
0 containing the number of rows and columns: (nrows, ncolumns). A pandas Series is 1-dimensional and only the number of rows is returned.

  • Tôi quan tâm đến tuổi và giới tính của các hành khách Titanic.

    In [8]: age_sex = titanic[["Age", "Sex"]]
    
    In [9]: age_sex.head()
    Out[9]: 
        Age     Sex
    0  22.0    male
    1  38.0  female
    2  26.0  female
    3  35.0  female
    4  35.0    male
    

    Để chọn nhiều cột, hãy sử dụng danh sách các tên cột trong khung lựa chọn

    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    
    1.

Ghi chú

Các dấu ngoặc vuông bên trong xác định danh sách Python với tên cột, trong khi các dấu ngoặc bên ngoài được sử dụng để chọn dữ liệu từ Pandas

In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
0 như được thấy trong ví dụ trước.Python list with column names, whereas the outer brackets are used to select the data from a pandas
In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
0 as seen in the previous example.

Kiểu dữ liệu được trả về là một gấu trúc DataFrame:

In [10]: type(titanic[["Age", "Sex"]])
Out[10]: pandas.core.frame.DataFrame

>>> df.iloc[0:3, 0:1]
   a
0  1
1  2
2  3

>>> df.iloc[:, 0]  # use of implicit start and end
0    1
1    2
2    3
Name: a, dtype: int64
0

Lựa chọn đã trả về

In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
0 với 891 hàng và 2 cột. Hãy nhớ rằng,
In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
0 là 2 chiều với cả kích thước hàng và cột.

Làm cách nào để lọc các hàng cụ thể từ ________ 40?#

Hướng dẫn how do you call a column in a dataframe in python? - làm thế nào để bạn gọi một cột trong khung dữ liệu trong python?
  • Tôi quan tâm đến các hành khách trên 35 tuổi.

    >>> df.iloc[0:3, 0:1]
       a
    0  1
    1  2
    2  3
    
    >>> df.iloc[:, 0]  # use of implicit start and end
    0    1
    1    2
    2    3
    Name: a, dtype: int64
    
    1

    Để chọn các hàng dựa trên biểu thức có điều kiện, hãy sử dụng một điều kiện bên trong khung lựa chọn

    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    
    1.

Điều kiện bên trong khung lựa chọn

In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
5 Kiểm tra các hàng cột
In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
6 có giá trị lớn hơn 35:

>>> df.iloc[0:3, 0:1]
   a
0  1
1  2
2  3

>>> df.iloc[:, 0]  # use of implicit start and end
0    1
1    2
2    3
Name: a, dtype: int64
2

Đầu ra của biểu thức có điều kiện (

In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
7, nhưng cũng
In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
8,
In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
9,
In [6]: type(titanic["Age"])
Out[6]: pandas.core.series.Series
0, ________ 61, sẽ hoạt động) thực sự là một gấu trúc
In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
3 của các giá trị boolean (hoặc
In [6]: type(titanic["Age"])
Out[6]: pandas.core.series.Series
3 hoặc
In [6]: type(titanic["Age"])
Out[6]: pandas.core.series.Series
4) Một
In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
3 của các giá trị Boolean như vậy có thể được sử dụng để lọc
In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
0 bằng cách đặt nó vào giữa các dấu ngoặc chọn
In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
1. Chỉ các hàng mà giá trị là
In [6]: type(titanic["Age"])
Out[6]: pandas.core.series.Series
3 sẽ được chọn.

Chúng tôi biết từ trước đó rằng Titanic

In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
0 ban đầu bao gồm 891 hàng. Hãy để một cái nhìn về số lượng hàng đáp ứng điều kiện bằng cách kiểm tra thuộc tính
In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
5 của kết quả
In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
0
In [7]: titanic["Age"].shape
Out[7]: (891,)
3:

>>> df.iloc[0:3, 0:1]
   a
0  1
1  2
2  3

>>> df.iloc[:, 0]  # use of implicit start and end
0    1
1    2
2    3
Name: a, dtype: int64
3

  • Tôi quan tâm đến các hành khách Titanic từ Cabin Class 2 và 3.

    >>> df.iloc[0:3, 0:1]
       a
    0  1
    1  2
    2  3
    
    >>> df.iloc[:, 0]  # use of implicit start and end
    0    1
    1    2
    2    3
    Name: a, dtype: int64
    
    4

    Tương tự như biểu thức có điều kiện, hàm có điều kiện

    In [7]: titanic["Age"].shape
    Out[7]: (891,)
    
    4 trả về
    In [6]: type(titanic["Age"])
    Out[6]: pandas.core.series.Series
    
    3 cho mỗi hàng, các giá trị nằm trong danh sách được cung cấp. Để lọc các hàng dựa trên một hàm như vậy, hãy sử dụng hàm có điều kiện bên trong khung lựa chọn
    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    
    1. Trong trường hợp này, điều kiện bên trong khung lựa chọn
    In [7]: titanic["Age"].shape
    Out[7]: (891,)
    
    7 kiểm tra các hàng cột
    In [7]: titanic["Age"].shape
    Out[7]: (891,)
    
    8 là 2 hoặc 3.

Trên đây tương đương với việc lọc theo các hàng mà lớp là 2 hoặc 3 và kết hợp hai câu lệnh với toán tử

In [7]: titanic["Age"].shape
Out[7]: (891,)
9 (hoặc):

>>> df.iloc[0:3, 0:1]
   a
0  1
1  2
2  3

>>> df.iloc[:, 0]  # use of implicit start and end
0    1
1    2
2    3
Name: a, dtype: int64
5

Ghi chú

Các dấu ngoặc vuông bên trong xác định danh sách Python với tên cột, trong khi các dấu ngoặc bên ngoài được sử dụng để chọn dữ liệu từ Pandas

In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
0 như được thấy trong ví dụ trước.

  • Kiểu dữ liệu được trả về là một gấu trúc DataFrame:

    >>> df.iloc[0:3, 0:1]
       a
    0  1
    1  2
    2  3
    
    >>> df.iloc[:, 0]  # use of implicit start and end
    0    1
    1    2
    2    3
    Name: a, dtype: int64
    
    6

    Lựa chọn đã trả về

    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    
    0 với 891 hàng và 2 cột. Hãy nhớ rằng,
    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    
    0 là 2 chiều với cả kích thước hàng và cột.

Làm cách nào để lọc các hàng cụ thể từ ________ 40?#

>>> df.iloc[0:3, 0:1]
   a
0  1
1  2
2  3

>>> df.iloc[:, 0]  # use of implicit start and end
0    1
1    2
2    3
Name: a, dtype: int64
7

Tôi quan tâm đến các hành khách trên 35 tuổi.

Để chọn các hàng dựa trên biểu thức có điều kiện, hãy sử dụng một điều kiện bên trong khung lựa chọn

In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
1.handling missing data.

Điều kiện bên trong khung lựa chọn In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float64 5 Kiểm tra các hàng cột In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float64 6 có giá trị lớn hơn 35:

  • Đầu ra của biểu thức có điều kiện (

    In [4]: ages = titanic["Age"]
    
    In [5]: ages.head()
    Out[5]: 
    0    22.0
    1    38.0
    2    26.0
    3    35.0
    4    35.0
    Name: Age, dtype: float64
    
    7, nhưng cũng
    In [4]: ages = titanic["Age"]
    
    In [5]: ages.head()
    Out[5]: 
    0    22.0
    1    38.0
    2    26.0
    3    35.0
    4    35.0
    Name: Age, dtype: float64
    
    8,
    In [4]: ages = titanic["Age"]
    
    In [5]: ages.head()
    Out[5]: 
    0    22.0
    1    38.0
    2    26.0
    3    35.0
    4    35.0
    Name: Age, dtype: float64
    
    9,
    In [6]: type(titanic["Age"])
    Out[6]: pandas.core.series.Series
    
    0, ________ 61, sẽ hoạt động) thực sự là một gấu trúc
    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    
    3 của các giá trị boolean (hoặc
    In [6]: type(titanic["Age"])
    Out[6]: pandas.core.series.Series
    
    3 hoặc
    In [6]: type(titanic["Age"])
    Out[6]: pandas.core.series.Series
    
    4) Một
    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    
    3 của các giá trị Boolean như vậy có thể được sử dụng để lọc
    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    
    0 bằng cách đặt nó vào giữa các dấu ngoặc chọn
    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    
    1. Chỉ các hàng mà giá trị là
    In [6]: type(titanic["Age"])
    Out[6]: pandas.core.series.Series
    
    3 sẽ được chọn.

    >>> df.iloc[0:3, 0:1]
       a
    0  1
    1  2
    2  3
    
    >>> df.iloc[:, 0]  # use of implicit start and end
    0    1
    1    2
    2    3
    Name: a, dtype: int64
    
    8

    Chúng tôi biết từ trước đó rằng Titanic

    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    
    0 ban đầu bao gồm 891 hàng. Hãy để một cái nhìn về số lượng hàng đáp ứng điều kiện bằng cách kiểm tra thuộc tính
    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    
    5 của kết quả
    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    
    0
    In [7]: titanic["Age"].shape
    Out[7]: (891,)
    
    3:

Khi sử dụng tên cột, nhãn hàng hoặc biểu thức điều kiện, hãy sử dụng toán tử

In [10]: type(titanic[["Age", "Sex"]])
Out[10]: pandas.core.frame.DataFrame
3 ở phía trước khung lựa chọn
In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
1. Đối với cả phần trước và sau dấu phẩy, bạn có thể sử dụng một nhãn duy nhất, một danh sách các nhãn, một lát nhãn, biểu thức có điều kiện hoặc dấu hai chấm. Sử dụng đại tràng chỉ định bạn muốn chọn tất cả các hàng hoặc cột.

  • Tôi quan tâm đến các hàng 10 đến 25 và cột 3 đến 5.

    >>> df.iloc[0:3, 0:1]
       a
    0  1
    1  2
    2  3
    
    >>> df.iloc[:, 0]  # use of implicit start and end
    0    1
    1    2
    2    3
    Name: a, dtype: int64
    
    9

    Một lần nữa, một tập hợp con của cả hai hàng và cột được thực hiện trong một lần và chỉ sử dụng giá đỡ lựa chọn

    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    
    1 là không đủ nữa. Khi cụ thể quan tâm đến một số hàng và/hoặc cột dựa trên vị trí của chúng trong bảng, hãy sử dụng toán tử
    In [10]: type(titanic[["Age", "Sex"]])
    Out[10]: pandas.core.frame.DataFrame
    
    4 trước khung lựa chọn
    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    
    1.

Khi chọn các hàng và/hoặc cột cụ thể với

In [10]: type(titanic[["Age", "Sex"]])
Out[10]: pandas.core.frame.DataFrame
3 hoặc
In [10]: type(titanic[["Age", "Sex"]])
Out[10]: pandas.core.frame.DataFrame
4, các giá trị mới có thể được gán cho dữ liệu đã chọn. Ví dụ: để gán tên
>>> df.iloc[0:3, 0:1]
   a
0  1
1  2
2  3

>>> df.iloc[:, 0]  # use of implicit start and end
0    1
1    2
2    3
Name: a, dtype: int64
05 cho 3 phần tử đầu tiên của cột thứ ba:

>>>  df.loc[0:2, 'a':'a']
   a
0  1
1  2
2  3

>>> df.loc[:, 'a'] # use of implicit start and end
0    1
1    2
2    3
Name: a, dtype: int64
0

NHỚ

  • Khi chọn tập hợp con của dữ liệu, dấu ngoặc vuông

    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    
    1 được sử dụng.

  • Bên trong các dấu ngoặc này, bạn có thể sử dụng một nhãn/nhãn một cột, một danh sách các nhãn cột/hàng, một lát nhãn, biểu thức có điều kiện hoặc dấu hai chấm.

  • Chọn các hàng và/hoặc cột cụ thể bằng cách sử dụng

    In [10]: type(titanic[["Age", "Sex"]])
    Out[10]: pandas.core.frame.DataFrame
    
    3 khi sử dụng tên hàng và cột.

  • Chọn các hàng và/hoặc cột cụ thể bằng cách sử dụng

    In [10]: type(titanic[["Age", "Sex"]])
    Out[10]: pandas.core.frame.DataFrame
    
    4 khi sử dụng các vị trí trong bảng.

  • Bạn có thể gán các giá trị mới cho một lựa chọn dựa trên ________ 93/________ 94.

Làm thế nào để bạn gọi một cột cụ thể trong gấu trúc?

Để chọn một cột duy nhất, hãy sử dụng dấu ngoặc vuông [] với tên cột của cột quan tâm.use square brackets [] with the column name of the column of interest.

Làm thế nào để bạn gọi một cột trong tên DataFrame?

Để truy cập tên của DataFrame của Pandas, chúng ta có thể các cột Phương thức ().Ví dụ: nếu DataFrame của chúng tôi được gọi là DF, chúng tôi chỉ cần nhập in (cột df.columns(). For example, if our dataframe is called df we just type print(df. columns) to get all the columns of the Pandas dataframe.

Làm thế nào để bạn lấy một cột cụ thể từ DataFrame?

Nếu bạn có DataFrame và muốn truy cập hoặc chọn một vài hàng/cột cụ thể từ khung dữ liệu đó, bạn có thể sử dụng dấu ngoặc vuông hoặc các phương thức nâng cao khác như LỘC và ILOC.use square brackets or other advanced methods such as loc and iloc .

Làm cách nào để trích xuất một cột cụ thể từ một khung dữ liệu trong Python?

Trích xuất nhiều cột từ DataFrame..
Cú pháp: biến_name = dataFrame_name [Row (s), cột (s)].
Ví dụ 1: A = DF [C (1,2), C (1,2)].
Giải thích: Nếu chúng ta muốn trích xuất nhiều hàng và cột, chúng ta có thể sử dụng c () với tên hàng và tên cột làm tham số.....
Ví dụ 2: b = df [c (1,2), c (id id, tên tên)]].