Hướng dẫn how do you remove duplicates from a dataframe in python based on column? - làm cách nào để xóa các bản sao khỏi khung dữ liệu trong python dựa trên cột?
Trả về DataFrame với các hàng trùng lặp bị xóa. Xem xét các cột nhất định là tùy chọn. Các chỉ mục, bao gồm các chỉ mục thời gian bị bỏ qua. Chỉ xem xét các cột nhất định để xác định các bản sao, theo mặc định, sử dụng tất cả các cột. Xác định những sao chép (nếu có) để giữ. - Có nên sửa đổi DataFrame thay vì tạo một cái mới. bỏ qua_indexbool, mặc định saibool, default FalseNếu đúng, trục kết quả sẽ được dán nhãn 0, 1,,, n - 1. Mới trong phiên bản 1.0.0. DataFrame với các bản sao được xóa hoặc không có nếu >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.01. Ví dụ Xem xét bộ dữ liệu chứa xếp hạng ramen. >>> df = pd.DataFrame({ ... 'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'], ... 'style': ['cup', 'cup', 'cup', 'pack', 'pack'], ... 'rating': [4, 4, 3.5, 15, 5] ... }) >>> df brand style rating 0 Yum Yum cup 4.0 1 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0 Theo mặc định, nó loại bỏ các hàng trùng lặp dựa trên tất cả các cột. >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0 Để loại bỏ các bản sao trên (các) cột cụ thể, hãy sử dụng >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.02. >>> df.drop_duplicates(subset=['brand']) brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 Để loại bỏ các bản sao và giữ các lần xuất hiện cuối cùng, hãy sử dụng >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.03. >>> df.drop_duplicates(subset=['brand', 'style'], keep='last') brand style rating 1 Yum Yum cup 4.0 2 Indomie cup 3.5 4 Indomie pack 5.0 Tôi đã được đưa đến đây bởi một liên kết từ một câu hỏi trùng lặp. Chỉ với hai cột, sẽ không đơn giản hơn để làm:
Và để giữ lại một hàng đầy đủ (khi có nhiều cột hơn, đó là những gì "câu hỏi trùng lặp" đã đưa tôi đến đây đã hỏi):
Ví dụ: để giữ lại hàng đầy đủ trong đó >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.04 lấy tối đa của nó, cho mỗi nhóm >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.05, chúng tôi sẽ làm:
Khi có tương đối ít nhóm (tức là, rất nhiều bản sao), điều này nhanh hơn giải pháp >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.06 (ít sắp xếp): Setup:
(Thêm >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.07 để đảm bảo giải pháp bằng nhau):
Làm cách nào để loại bỏ các bản sao khỏi một cột cụ thể?Để loại bỏ các bản sao của chỉ một hoặc một tập hợp các cột, chỉ định tập hợp con là cột hoặc danh sách các cột phải là duy nhất. Để thực hiện điều kiện này theo giá trị của một cột khác, bạn có thể sắp xếp_values (colname) và chỉ định giữ bằng đầu tiên hoặc cuối cùng.specify subset as the individual column or list of columns that should be unique. To do this conditional on a different column's value, you can sort_values(colname) and specify keep equals either first or last .
Làm thế nào để bạn loại bỏ các bản sao trong một cột trong Python?Để loại bỏ các bản sao trên (các) cột cụ thể, hãy sử dụng tập hợp con. Để loại bỏ các bản sao và giữ các lần xuất hiện cuối cùng, hãy sử dụng giữ.use subset . To remove duplicates and keep last occurrences, use keep .
Làm cách nào để loại bỏ các bản sao dựa trên các điều kiện trong gấu trúc?Cú pháp của DF ... Cú pháp: dataFrame.drop_duplicates (tập hợp con = không, giữ = 'first', inplace = false). Parameters:. Loại trả về: DataFrame với các hàng trùng lặp bị xóa tùy thuộc vào các đối số được truyền .. Làm cách nào để loại bỏ các bản sao khỏi một khung dữ liệu trong Python?Pandas drop_duplicates () Chức năng cú pháp nếu 'đầu tiên', các hàng trùng lặp ngoại trừ hàng đầu tiên bị xóa.Nếu 'cuối cùng', các hàng trùng lặp ngoại trừ hàng cuối cùng sẽ bị xóa.Nếu sai, tất cả các hàng trùng lặp bị xóa.Thay thế: Nếu đúng, DataFrame nguồn được thay đổi và không có gì được trả về. |