Hướng dẫn how to filter data in python without pandas - cách lọc dữ liệu trong python mà không có gấu trúc

-1

Mới! Lưu câu hỏi hoặc câu trả lời và sắp xếp nội dung yêu thích của bạn. Tìm hiểu thêm.
Learn more.

Tôi có một danh sách trong Python. Tôi cần lọc một cột mà không sử dụng gấu trúc. Tôi đã thử như dưới đây. Nhưng, nó không hoạt động.

Ví dụ, tôi sẽ thực hiện một số tính toán cho quốc gia chỉ = 'canada'.

filtered = [x for x in data if data[0] == "Canada"]

Đã hỏi ngày 9 tháng 12 năm 2020 lúc 10:59Dec 9, 2020 at 10:59

Hướng dẫn how to filter data in python without pandas - cách lọc dữ liệu trong python mà không có gấu trúc

ds_dsds_dsds_ds

Phù hiệu bằng đồng 11799 bronze badges

5

OK, có vẻ như dữ liệu của bạn chỉ là một danh sách không bị phá vỡ. Nếu bạn đúng về mỗi năm từ 1960-2017, cộng với cột nhãn, sẽ có 59 mục mỗi hàng.

Tôi thực sự khuyên bạn nên thử định dạng lại dữ liệu vào danh sách danh sách hoặc một cái gì đó tương tự, nhưng hãy thử điều này trong lúc này:

# Reformat the data a little
data = [i for s in data for i in s.split('\n')]

# Filter the data
row_len = 59
filtered = list([zip(data[1:row_len], data[i+1:i+row_len]) for i in range(len(data)) if data[i] == 'Sweden'][0])

EDIT: Điều đó sẽ kết hợp năm với dữ liệu cho quốc gia (Thụy Điển trong trường hợp này).

Đã trả lời ngày 9 tháng 12 năm 2020 lúc 11:30Dec 9, 2020 at 11:30

Hướng dẫn how to filter data in python without pandas - cách lọc dữ liệu trong python mà không có gấu trúc

14

Bạn có thể cung cấp danh sách?

Từ những gì bạn đã cung cấp, nhưng sau đó tôi có vẻ như bạn đang thiếu một chỉ số. Hãy thử: Đã lọc = [x cho x trong dữ liệu nếu dữ liệu [0] [0] == 'Canada']]

Điều này giả định rằng các tiêu đề cột H của bạn không phải là một phần trong danh sách của bạn. Bạn có thể nếu họ là bạn, bạn sẽ nói rằng bạn dữ liệu [1] [0] thay vì dữ liệu [0] [0]

Đã trả lời ngày 9 tháng 12 năm 2020 lúc 11:10Dec 9, 2020 at 11:10

Try?

filtered = [x for x in data if x == "Canada"]

Đối với dữ liệu lồng nhau:

filtered = [x for x in data if x[0] == "Canada"]

Đã trả lời ngày 9 tháng 12 năm 2020 lúc 11:04Dec 9, 2020 at 11:04

Anna Semjénanna SemjénAnna Semjén

7775 Huy hiệu bạc14 Huy hiệu Đồng5 silver badges14 bronze badges

1

Hướng dẫn đầy đủ về bộ dữ liệu sạch - Phần 3

Lọc dữ liệu từ khung dữ liệu là một trong những hoạt động phổ biến nhất khi làm sạch dữ liệu. Pandas cung cấp một loạt các phương thức để chọn dữ liệu theo vị trí và nhãn của các hàng và cột. Ngoài ra, Pandas cũng cho phép bạn có được một tập hợp dữ liệu dựa trên các loại cột và để lọc các hàng với lập chỉ mục Boolean.

Trong bài viết này, chúng tôi sẽ bao gồm các hoạt động phổ biến nhất để chọn một tập hợp dữ liệu từ khung dữ liệu gấu trúc: (1) chọn một cột theo nhãn, (2) chọn nhiều cột theo nhãn, (3) chọn các cột theo kiểu dữ liệu , (4) chọn một hàng duy nhất theo nhãn, (5) chọn nhiều hàng theo nhãn, (6) chọn một hàng theo vị trí, (7) chọn nhiều hàng theo vị trí, (8) chọn đồng thời các hàng và cột, (9 ) chọn giá trị vô hướng và (10) chọn các hàng bằng lựa chọn Boolean.

Ngoài ra, chúng tôi sẽ cung cấp nhiều ví dụ mã hóa! Bây giờ, hãy để bắt đầu :)

Ảnh của Daphné Be Frenchie trên undplash

Bộ dữ liệu

Trong bài viết này, chúng tôi sử dụng một tập dữ liệu nhỏ cho mục đích học tập. Trong thế giới thực, các bộ dữ liệu được sử dụng sẽ lớn hơn nhiều; Tuy nhiên, các quy trình được sử dụng để lọc dữ liệu vẫn giữ nguyên.

Khung dữ liệu chứa thông tin về 10 nhân viên của một công ty: (1) ID, (2) Tên, (3) Họ, (4) Bộ phận, (5) Điện thoại, (6) Mức lương và (7) loại hợp đồng.

1. Chọn một cột theo nhãn

Để chọn một cột duy nhất trong gấu trúc, chúng ta có thể sử dụng cả hai. toán tử và toán tử [].a single column in Pandas, we can use both the . operator and the [] operator.

Chọn một cột theo nhãn

→ DF [Chuỗi]

Mã sau truy cập cột Mức lương bằng cả hai phương thức (ký hiệu dấu chấm và niềng răng vuông).

Như được hiển thị ở trên, khi một cột duy nhất được truy xuất, kết quả là một đối tượng Series. Để có được một đối tượng DataFrame khi chỉ chọn một cột, chúng ta cần truyền trong danh sách với một mục duy nhất thay vì chỉ một chuỗi.a single column is retrieved, the result is a Series object. To obtain a DataFrame object when selecting only one column, we need to pass in a list with a single item instead of just a string.

Ngoài ra, điều quan trọng là phải nhớ rằng chúng ta không thể sử dụng ký hiệu DOT để truy cập một cột cụ thể của khung dữ liệu khi tên cột chứa khoảng trắng. Nếu chúng ta làm điều đó, một cú pháp được nâng lên.SyntaxError is raised.

2. Chọn nhiều cột theo nhãn

Chúng tôi có thể chọn nhiều cột của khung dữ liệu bằng cách truyền trong danh sách với tên cột như sau.multiple columns of a data frame by passing in a list with the column names as follows.

Chọn nhiều cột theo nhãn

→ DF [list_of_strings]

Như được hiển thị ở trên, kết quả là một đối tượng DataFrame chỉ chứa các cột được cung cấp trong danh sách.DataFrame object containing only the columns provided in the list.

3. Chọn cột theo kiểu dữ liệu

Chúng ta có thể sử dụng pandas.dataframe.select_dtypes (bao gồm = không, loại trừ = không) để chọn các cột dựa trên các loại dữ liệu của chúng. Phương thức chấp nhận danh sách hoặc một kiểu dữ liệu duy nhất trong các tham số bao gồm và loại trừ. Điều quan trọng là phải nhớ rằng ít nhất một trong các tham số này (bao gồm hoặc loại trừ) phải được cung cấp và chúng không được chứa các yếu tố chồng chéo.pandas.DataFrame.select_dtypes(include=None, exclude=None) method to select columns based on their data types. The method accepts either a list or a single data type in the parameters include and exclude. It is important to keep in mind that at least one of these parameters (include or exclude) must be supplied and they must not contain overlapping elements.

Chọn cột theo kiểu dữ liệu

→ df.select_dtypes (bao gồm = không, loại trừ = không có)

Trong ví dụ dưới đây, chúng tôi chọn các cột số (cả số nguyên và phao) của khung dữ liệu bằng cách truyền trong đối tượng NP.Number cho tham số bao gồm. Ngoài ra, chúng ta có thể có được kết quả tương tự bằng cách cung cấp chuỗi ‘số làm đầu vào.of the data frame by passing in the np.number object to the include parameter. Alternatively, we can obtain the same results by providing the string ‘number’ as input.

Như bạn có thể quan sát, phương thức select_dtypes () trả về một đối tượng DataFrame bao gồm các dTYPE trong tham số bao gồm và loại trừ các DTYPE trong excludeparameter.select_dtypes() method returns a DataFrame object including the dtypes in the include parameter and excluding the dtypes in the exclude parameter.

Như đã đề cập trước đó, phương thức select_dtypes () có thể lấy cả hai chuỗi và các đối tượng numpy làm đầu vào. Bảng sau đây cho thấy các cách phổ biến nhất để đề cập đến các loại dữ liệu trong gấu trúc.select_dtypes() method can take both strings and numpy objects as input. The following table shows the most common ways of referring to data types in Pandas.

Nhắc nhở, chúng ta có thể kiểm tra các loại dữ liệu của các cột bằng pandas.dataframe.infomethod hoặc với thuộc tính pandas.dataframe.dtypes. Cái trước in một bản tóm tắt ngắn gọn về khung dữ liệu, bao gồm tên cột và các loại dữ liệu của chúng, trong khi phần sau trả về một chuỗi với kiểu dữ liệu của mỗi cột.pandas.DataFrame.infomethod or with pandas.DataFrame.dtypes attribute. The former prints a concise summary of the data frame, including the column names and their data types, while the latter returns a Series with the data type of each column.

4. Chọn một hàng theo nhãn

DataFrames và sê -ri không nhất thiết phải có các chỉ mục số. Theo mặc định, chỉ mục là một số nguyên biểu thị vị trí hàng; Tuy nhiên, nó cũng có thể là một chuỗi chữ và số. Trong ví dụ hiện tại của chúng tôi, chỉ mục là số ID của nhân viên. and Series do not necessarily have numerical indexes. By default, the index is an integer indicating the row position; however, it can also be an alphanumeric string. In our current example, the index is the id number of the employee.

Để chọn một hàng duy nhất theo số ID, chúng tôi có thể sử dụng trình chỉ mục .loc [] cung cấp làm đầu vào một chuỗi duy nhất (tên chỉ mục)..loc[] indexer providing as input a single string (index name).

Chọn một hàng theo nhãn

→ df.loc [chuỗi]

Mã dưới đây cho thấy cách chọn nhân viên có ID số 478.

Như được hiển thị ở trên, khi một hàng được chọn, người lập chỉ mục .loc [] trả về một đối tượng Series. Tuy nhiên, chúng ta cũng có thể có được một khung dữ liệu một hàng bằng cách chuyển một danh sách một phần tử cho phương thức .loc [] như sau. .loc[] indexer returns a Series object. However, we can also obtain a single-row DataFrame by passing a single-element list to the .loc[] method as follows.

5. Chọn nhiều hàng theo nhãn

Chúng ta có thể chọn nhiều hàng với trình chỉ mục .loc []. Bên cạnh một nhãn duy nhất, trình chỉ mục cũng chấp nhận làm đầu vào danh sách hoặc một lát nhãn.multiple rows with the .loc[] indexer. Besides a single label, the indexer also accepts as input a list or a slice of labels.

Chọn nhiều hàng theo nhãn

→ df.loc [list_of_strings]

→ df.loc [Slice_of_strings]

Tiếp theo, chúng tôi có được một tập hợp con của khung dữ liệu của chúng tôi có chứa nhân viên có ID số 478 và 222 như sau.

Lưu ý rằng, chỉ số cuối của phương thức .loc [] luôn được bao gồm, có nghĩa là lựa chọn bao gồm nhãn cuối cùng..loc[] method is always included, meaning the selection includes the last label.

6. Chọn một hàng theo vị trí

Chỉ mục .iloc [] được sử dụng để lập chỉ mục một khung dữ liệu theo vị trí. Để chọn một hàng duy nhất với thuộc tính .iloc [], chúng tôi chuyển ở vị trí hàng (một số nguyên duy nhất) cho trình chỉ mục..iloc[] indexer is used to index a data frame by position. To select a single row with the .iloc[] attribute, we pass in the row position (a single integer) to the indexer.

Chọn một hàng theo vị trí

→ df.iloc [số nguyên]

Trong khối mã sau, chúng tôi chọn hàng với chỉ mục 0. Trong trường hợp này, hàng đầu tiên của khung dữ liệu được trả về vì trong việc lập chỉ mục gấu trúc bắt đầu ở 0.

Ngoài ra, trình chỉ mục .iloc [] cũng hỗ trợ các số nguyên âm (bắt đầu từ -1) làm vị trí tương đối đến cuối khung dữ liệu. .iloc[] indexer also supports negative integers (starting at -1) as relative positions to the end of the data frame.

Như được hiển thị ở trên, khi một hàng được chọn, bộ chỉ mục .iloc [] trả về một đối tượng sê -ri có tên cột làm chỉ mục. Tuy nhiên, như chúng tôi đã làm với Trình lập chỉ mục .loc [], chúng tôi cũng có thể có được một khung dữ liệu bằng cách chuyển một danh sách số nguyên cho trình chỉ mục theo cách sau..iloc[] indexer returns a Series object that has the column names as indexes. However, as we did with the .loc[] indexer, we can also obtain a DataFrame by passing a single-integer list to the indexer in the following way.

Cuối cùng, hãy nhớ rằng một indexError được nâng lên khi cố gắng truy cập một chỉ mục nằm ngoài giới hạn.IndexError is raised when trying to access an index that is out-of-bounds.

7. Chọn nhiều hàng theo vị trí

Để trích xuất nhiều hàng theo vị trí, chúng tôi chuyển một danh sách hoặc một đối tượng lát cho chỉ mục .iloc []..iloc[] indexer.

Chọn nhiều hàng theo vị trí

→ df.iloc [list_of_integers]

→ df.iloc [Slice_of_Integers]

Khối mã sau đây cho thấy cách chọn năm hàng đầu tiên của khung dữ liệu bằng danh sách các số nguyên.

Ngoài ra, chúng ta có thể có được kết quả tương tự bằng cách sử dụng ký hiệu lát cắt.

Như được hiển thị ở trên, các quy tắc cắt python (khoảng thời gian nửa mở) áp dụng cho thuộc tính .iloc [], có nghĩa là chỉ số đầu tiên được bao gồm, nhưng không phải là chỉ số cuối., Python slicing rules (half-open interval) apply to the .iloc[] attribute, meaning the first index is included, but not the end index.

8. Chọn hàng và cột đồng thời

Cho đến nay, chúng tôi đã học được cách chọn các hàng trong khung dữ liệu theo nhãn hoặc vị trí bằng cách sử dụng các trình chỉ mục .loc [] và .iloc []. Tuy nhiên, cả hai chỉ số không chỉ có khả năng chọn hàng, mà còn các hàng và cột đồng thời..loc[] and .iloc[] indexers. However, both indexers are not only capable of selecting rows, but also rows and columns simultaneously.

Để làm như vậy, chúng tôi phải cung cấp các nhãn/vị trí hàng và cột được phân tách bằng dấu phẩy như sau:

Chọn hàng và cột đồng thời

→ DF.LOC [ROW_LABELS, Cột_Labels]

→ df.iloc [row_poseitions, cột_poseitions]

trong đó Row_Labels và Cột_Labels có thể là một chuỗi duy nhất, một danh sách các chuỗi hoặc một lát chuỗi. Tương tự như vậy, Row_Pocations và Cột_Pocations có thể là một số nguyên duy nhất, một danh sách các số nguyên hoặc một lát số nguyên.row_labels and column_labels can be a single string, a list of strings, or a slice of strings. Likewise, row_positions and column_positions can be a single integer, a list of integers, or a slice of integers.

Các ví dụ sau đây cho thấy cách trích xuất các hàng và cột cùng một lúc bằng cách sử dụng các bộ chỉ mục .loc [] và .iloc []..loc[] and .iloc[] indexers.

  • Chọn giá trị vô hướng

Chúng tôi chọn mức lương của nhân viên với ID số 478 theo vị trí và nhãn theo cách sau.

Trong trường hợp này, đầu ra của cả hai chỉ số là một số nguyên.

  • Chọn một hàng và nhiều cột

Chúng tôi chọn tên, họ và mức lương của nhân viên có ID số 478 bằng cách chuyển một giá trị duy nhất làm đối số đầu tiên và danh sách các giá trị là đối số thứ hai, có được kết quả là một đối tượng loạt.

  • Chọn các hàng và cột rời rạc

Để chọn nhiều hàng và cột, chúng tôi cần chuyển hai danh sách các giá trị cho cả hai chỉ mục. Mã dưới đây cho thấy cách trích xuất tên, họ và tiền lương của nhân viên có ID số 478 và 222.

Không giống như trước đây, đầu ra của cả hai bộ chỉ mục là đối tượng DataFrame.

  • Chọn các hàng và cột liên tục

Chúng ta có thể trích xuất các hàng và cột liên tục của khung dữ liệu bằng cách sử dụng ký hiệu lát cắt. Đoạn mã sau đây cho thấy cách chọn tên, họ và tiền lương của nhân viên có ID số 128, 478, 257 và 299.

Như được hiển thị ở trên, chúng tôi chỉ sử dụng ký hiệu lát cắt để trích xuất các hàng của khung dữ liệu vì các số ID chúng tôi muốn chọn là liên tục (chỉ mục từ 0 đến 3).

Điều quan trọng cần nhớ là Trình chỉ mục .loc [] sử dụng khoảng thời gian đóng, trích xuất cả nhãn bắt đầu và nhãn dừng. Ngược lại, người lập chỉ mục .iloc [] sử dụng khoảng nửa mở, do đó, giá trị tại chỉ số dừng không được bao gồm..loc[] indexer uses a closed interval, extracting both the start label and the stop label. On the contrary, the .iloc[] indexer employs a half-open interval, so the value at the stop index is not included.

9. Chọn giá trị vô hướng bằng cách sử dụng các trình chỉ mục .at [] và .iat []indexers

Như đã đề cập ở trên, chúng ta có thể chọn một giá trị vô hướng bằng cách chuyển hai chuỗi/số nguyên được phân tách bằng dấu phẩy cho các trình chỉ mục .loc [] và .iloc []. Ngoài ra, Pandas cung cấp hai hàm được tối ưu hóa để trích xuất giá trị vô hướng từ đối tượng khung dữ liệu: các toán tử .at [] và .iat []. Cái trước trích xuất một giá trị duy nhất theo nhãn, trong khi cái sau truy cập một giá trị theo vị trí..loc[] and .iloc[] indexers. Additionally, Pandas provides two optimized functions to extract a scalar value from a data frame object: the .at[] and .iat[] operators. The former extracts a single value by label, while the latter access a single value by position.

Chọn giá trị vô hướng theo nhãn và vị trí

→ df.at [chuỗi, chuỗi]

→ df.iat [số nguyên, số nguyên]

Mã dưới đây cho thấy cách chọn mức lương của nhân viên với ID số 478 theo nhãn và vị trí với các trình lập chỉ mục .at [] và .iat []. .at[] and .iat[] indexers.

Chúng ta có thể sử dụng chức năng Ma thuật %Timeit để tính thời gian thực hiện của cả hai câu lệnh Python. Như được hiển thị bên dưới, các toán tử .at [] và .iat [] nhanh hơn nhiều so với các trình chỉ mục .loc [] và .iloc [].%timeit magic function to calculate the execution time of both Python statements. As shown below, the .at[] and .iat[] operators are much faster than the .loc[] and .iloc[] indexers.

Cuối cùng, điều quan trọng là phải nhớ rằng các chỉ mục .at [] và .iat [] chỉ có thể được sử dụng để truy cập một giá trị duy nhất, nêu ra một lỗi loại khi cố gắng chọn nhiều phần tử của khung dữ liệu..at[] and .iat[] indexers can only be used to access a single value, raising a type error when trying to select multiple elements of the data frame.

10. Chọn hàng bằng cách sử dụng lựa chọn Boolean

Cho đến nay, chúng tôi đã lọc các hàng và cột trong khung dữ liệu theo nhãn và vị trí. Ngoài ra, chúng tôi cũng có thể chọn một tập hợp con trong gấu trúc với việc lập chỉ mục Boolean. Lựa chọn Boolean bao gồm chọn các hàng của khung dữ liệu bằng cách cung cấp giá trị boolean (Đúng hoặc sai) cho mỗi hàng.

Trong hầu hết các trường hợp, mảng booleans này được tính toán bằng cách áp dụng cho các giá trị của một hoặc nhiều cột Một điều kiện đánh giá đúng hay sai, tùy thuộc vào việc các giá trị có đáp ứng điều kiện hay không. Tuy nhiên, cũng có thể tạo thủ công một mảng booleans bằng cách sử dụng các chuỗi khác, mảng, danh sách hoặc loạt gấu trúc khác.

Sau đó, trình tự booleans được đặt bên trong dấu ngoặc vuông [], trả về các hàng được liên kết với một giá trị thực.

Chọn hàng bằng cách sử dụng lựa chọn Boolean

→ DF [SEQUENCE_OF_BOOEANS]

Lựa chọn Boolean theo các giá trị của một cột

Cách phổ biến nhất để lọc khung dữ liệu theo các giá trị của một cột là bằng cách sử dụng toán tử so sánh.

Một toán tử so sánh đánh giá mối quan hệ giữa hai toán hạng (A và B) và trả về đúng hay sai tùy thuộc vào liệu điều kiện có được đáp ứng hay không. Bảng sau đây chứa các toán tử so sánh có sẵn trong Python.

Các toán tử so sánh này có thể được sử dụng trên một cột duy nhất của khung dữ liệu để có được chuỗi booleans. Chẳng hạn, chúng tôi xác định liệu mức lương của nhân viên lớn hơn 45000 euro bằng cách sử dụng người vận hành lớn hơn như sau.

Đầu ra là một loạt các booleans trong đó mức lương cao hơn 45000 là đúng và các loại nhỏ hơn hoặc bằng 45000 là sai. Như bạn có thể nhận thấy, loạt Booleans có cùng các chỉ mục (số ID) như khung dữ liệu gốc.

Sê -ri này có thể được chuyển cho toán tử lập chỉ mục [] để chỉ trả về các hàng trong đó kết quả là đúng.

Như được hiển thị ở trên, chúng tôi có được một đối tượng khung dữ liệu chỉ chứa nhân viên có mức lương cao hơn 45000 euro.

Lựa chọn Boolean theo các giá trị của nhiều cột

Trước đây, chúng tôi đã lọc một khung dữ liệu theo một điều kiện duy nhất. Tuy nhiên, chúng ta cũng có thể kết hợp nhiều biểu thức boolean với nhau bằng cách sử dụng các toán tử logic. Trong Python, có ba toán tử logic: và, hoặc, và không. Tuy nhiên, các từ khóa này không có sẵn trong gấu trúc để kết hợp nhiều điều kiện boolean. Thay vào đó, các toán tử sau đây được sử dụng.

Mã dưới đây cho thấy cách chọn nhân viên có mức lương lớn hơn 45000 và hợp đồng vĩnh viễn kết hợp hai biểu thức Boolean với toán tử logic &.

Như bạn có thể biết, trong Python, các toán tử so sánh có ưu tiên cao hơn các toán tử logic. Tuy nhiên, nó không áp dụng cho gấu trúc nơi các toán tử logic có ưu tiên cao hơn các toán tử so sánh. Do đó, chúng ta cần bọc từng biểu thức boolean trong ngoặc đơn để tránh lỗi.

Lựa chọn Boolean bằng phương pháp gấu trúc

Pandas cung cấp một loạt các chức năng tích hợp trả về một chuỗi các booleans, là một sự thay thế hấp dẫn cho các biểu thức boolean phức tạp hơn kết hợp các toán tử so sánh và logic.

  • Phương pháp ISIN

Pandas.series.isinmethod có một chuỗi các giá trị và trả về đúng tại các vị trí trong chuỗi phù hợp với các giá trị trong danh sách.pandas.Series.isinmethod takes a sequence of values and returns True at the positions within the Series that match the values in the list.

Phương pháp này cho phép chúng tôi kiểm tra sự hiện diện của một hoặc nhiều phần tử trong một cột mà không sử dụng toán tử logic hoặc. Mã dưới đây cho thấy cách chọn nhân viên có hợp đồng vĩnh viễn hoặc tạm thời bằng cách sử dụng cả toán tử logic hoặc phương thức ISIN.

Như bạn có thể thấy, phương pháp ISIN có ích để kiểm tra nhiều điều kiện hoặc điều kiện trong cùng một cột. Ngoài ra, nó nhanh hơn!

  • Phương pháp giữa

Thepandas.series.betweenmethod có hai vô hướng cách nhau bởi một dấu phẩy đại diện cho ranh giới dưới và trên của một loạt các giá trị và trả về đúng ở các vị trí nằm trong phạm vi đó.pandas.Series.betweenmethod takes two scalars separated by a comma which represent the lower and upper boundaries of a range of values and returns True at the positions that lie within that range.

Mã sau đây chọn nhân viên có mức lương cao hơn hoặc bằng 30000 và thấp hơn hoặc bằng 80000 euro.

Như bạn có thể quan sát, cả hai ranh giới (30000 và 80000) đều được bao gồm. Để loại trừ chúng, chúng ta phải vượt qua đối số bao gồm = sai theo cách sau.inclusive=False in the following manner.

Như bạn có thể nhận thấy, mã trên tương đương với việc viết hai biểu thức boolean và đánh giá chúng bằng toán tử logic và.

  • Phương thức chuỗi

Ngoài ra, chúng tôi cũng có thể sử dụng lập chỉ mục Boolean với các phương thức chuỗi miễn là chúng trả về một chuỗi Booleans.

Chẳng hạn, pandas.series.str.containsmethod kiểm tra sự hiện diện của một chuỗi con trong tất cả các phần tử của một cột và trả về một chuỗi booleans mà chúng ta có thể chuyển đến toán tử lập chỉ mục để lọc khung dữ liệu.pandas.Series.str.containsmethod checks for the presence of a substring in all the elements of a column and returns a sequence of booleans that we can pass to the indexing operator to filter a data frame.

Mã dưới đây cho thấy cách chọn tất cả các số điện thoại có chứa 57.

Mặc dù phương thức chứa đánh giá liệu một chuỗi con có chứa trong mỗi phần tử của một chuỗi hay không, pandas.series.str.startSwithFunction kiểm tra sự hiện diện của một chuỗi con khi bắt đầu chuỗi. Tương tự như vậy, pandas.series.str.endswithtests Nếu một chuỗi con có mặt ở cuối chuỗi.contains method evaluates whether or not a substring is contained in each element of a Series, the pandas.Series.str.startswithfunction checks for the presence of a substring at the beginning of a string. Likewise, the pandas.Series.str.endswithtests if a substring is present at the end of a string.

Mã sau đây cho thấy cách chọn nhân viên có tên bắt đầu bằng ‘A.

Bản tóm tắt

Trong bài viết này, chúng tôi đã đề cập đến các hoạt động phổ biến nhất để chọn một tập hợp con dữ liệu từ khung dữ liệu gấu trúc. Ngoài ra, chúng tôi đã cung cấp nhiều ví dụ sử dụng. Hiện nay! Đây là thời gian để thực hành các kỹ thuật đó khi làm sạch dữ liệu của riêng bạn! ✋

Bên cạnh việc lọc dữ liệu, quy trình làm sạch dữ liệu bao gồm nhiều hoạt động hơn. Nếu bạn vẫn quan tâm đến việc biết thêm về làm sạch dữ liệu, hãy xem các bài viết này.

Cảm ơn bạn đã đọc 👐

Amanda

Làm thế nào để bạn lọc một bảng trong Python?

Python: 10 cách để lọc Pandas DataFrame..
Ví dụ về lọc dữ liệu. ....
Nhập dữ liệu. ....
Chọn các chuyến bay Chi tiết về JetBlue Airways có 2 chữ cái mã B6 với nguồn gốc từ Sân bay JFK ..
Phương pháp 1: DataFrame Way. ....
Phương pháp 2: Hàm truy vấn. ....
Phương pháp 3: Hàm LỘC. ....
Sự khác biệt giữa chức năng LỘC và ILOC ..

Làm thế nào để bạn lọc dữ liệu trong một khung dữ liệu trong Python?

8 cách để lọc các khung dữ liệu gấu trúc..
Toán tử logic.Chúng ta có thể sử dụng các toán tử logic trên các giá trị cột để lọc hàng.....
Nhiều toán tử logic.Gandas cho phép kết hợp nhiều toán tử logic.....
Trong.....
Str accessor.....
Tilde (~) ....
Truy vấn.....
Nlargest hoặc nsmallest.....
Loc và iloc ..

Làm thế nào để bạn lọc bộ dữ liệu?

Lọc một phạm vi dữ liệu..
Chọn bất kỳ ô nào trong phạm vi ..
Chọn Dữ liệu> Bộ lọc ..
Chọn mũi tên tiêu đề cột ..
Chọn Bộ lọc văn bản hoặc Bộ lọc số, sau đó chọn một so sánh, như giữa ..
Nhập tiêu chí bộ lọc và chọn OK ..

Làm cách nào để lọc các hàng trong Python?

Lọc các hàng dựa trên các điều kiện Cú pháp của hàng lọc theo một điều kiện rất đơn giản - DataFrame [điều kiện].Trong Python, toán tử bằng nhau là ==, ký hiệu gấp đôi.Một cách khác để đạt được kết quả tương tự là sử dụng hoạt động chuỗi gấu trúc.dataframe[condition]. In Python, the equal operator is ==, double equal sign. Another way of achieving the same result is using Pandas chaining operation.