Xóa python csv trùng lặp
Trong hầu hết các kịch bản dữ liệu lớn, việc chuyển đổi dữ liệu tuân theo các hoạt động xác thực và làm sạch dữ liệu. Các hoạt động thể hiện trong công thức này được sử dụng rộng rãi nhất trong ngành và có thể được sử dụng lại trong các môi trường công nghiệp quy mô lớn khác nhau Show
Truy cập mã dự án nhận dạng khuôn mặt bằng Facenet trong Python Yêu cầu hệ thống
Bước 1. Nhập mô-đunNhập khẩu 7Bước 2. Đọc tệp csvĐọc tệp csv từ cục bộ và tạo khung dữ liệu bằng gấu trúc và in 5 dòng để kiểm tra dữ liệu 8Đầu ra của mã trên Bước 3. Tìm hàng trùng lặp dựa trên tất cả các cộtTrong ví dụ này, chúng tôi sẽ sử dụng tập dữ liệu nhân viên Để tìm và chọn tất cả các hàng trùng lặp dựa trên tất cả các cột, hãy gọi Dataframe. bản sao() 9Đầu ra của mã trên Ở đây, tất cả các hàng trùng lặp ngoại trừ lần xuất hiện đầu tiên của chúng đều được trả về vì giá trị mặc định của đối số giữ là 'đầu tiên'. Nếu chúng tôi muốn chọn tất cả các hàng trùng lặp ngoại trừ lần xuất hiện cuối cùng của chúng thì chúng tôi cần chuyển đối số giữ là 'cuối cùng' i. e 0Bước 4. Tìm các hàng trùng lặp dựa trên các cột đã chọnNếu chúng tôi muốn so sánh các hàng và tìm các bản sao dựa trên các cột đã chọn 1Đầu ra của mã trên Bước 5. Loại bỏ các bản sao từ một cột cụ thểỞ đây, bạn thả các bản sao từ cột 1. Ngoài ra, bạn có thể thêm 'keep' và cho biết bạn muốn giữ đối số đầu tiên (keep='first'), đối số cuối cùng (keep='last') khỏi các mục trùng lặp hay loại bỏ tất cả các mục trùng lặp (keep= . Mặc định là 'đầu tiên', vì vậy nếu bạn hài lòng với điều đó, bạn không cần phải thêm điều này 2Bước 6. Xóa tất cả các hàng trùng lặp khỏi DataFrame 3Đầu ra của mã trên. Kết quả là nó cung cấp khung dữ liệu mà không trùng lặp Bước 7. Sắp xếp các hàng khung dữ liệu trên một cộtTrong mã dưới đây, chúng tôi sẽ sắp xếp tất cả các hàng dựa trên một cột 4Đầu ra của mã trên Bước 8. Sắp xếp các hàng Dataframe dựa trên các cột theo Thứ tự giảm dần/tăng dầnTrong đoạn mã dưới đây, để sắp xếp tất cả các hàng dựa trên một cột theo thứ tự giảm dần hoặc tăng dần bằng cách truyền một tham số: 60Bước 9. Sắp xếp các hàng Dataframe dựa trên nhiều cộtTrong đoạn mã dưới đây sắp xếp dữ liệu dựa trên nhiều cột 61Bước 10. Thay đổi thứ tự và Viết tệp csvSau khi thay đổi thứ tự của tên cột, hãy ghi dữ liệu được định dạng vào tệp csv ở địa phương hoặc hdfs của bạn 62Đầu ra của các dòng trên Đầu ra của các dòng trên Yêu cầu hệ thống Để cài đặt thư viện googletrans chạy mã bên dưới, lệnh này sẽ tự động tải xuống và cài đặt thư viện 63Nhập thư viện và đọc tệp csv, ở đây chúng tôi đang sử dụng tệp csv dữ liệu nhân viên với cột tiếng Tây Ban Nha 64Trong đoạn mã trên, chúng tôi đang đọc tệp csv có cột tiếng Tây Ban Nha, vì vậy chúng tôi sẽ chuyển đổi sang tiếng Anh bằng thư viện googletrans Bằng cách sử dụng phương pháp 5, bạn có thể xóa các hàng trùng lặp khỏi DataFrame. Sử dụng phương pháp này, bạn có thể loại bỏ các hàng trùng lặp trên nhiều cột hoặc tất cả các cột đã chọn. Trong bài viết này, chúng tôi sẽ giải thích một số cách loại bỏ các hàng trùng lặp khỏi Pandas DataFrame với các ví dụ bằng cách sử dụng các hàm như hàm 6, 7 và hàm lambda với các ví dụCó liên quan. Pandas Nhận danh sách tất cả các hàng trùng lặp 1. Ví dụ nhanh về Drop Duplicate RowsNếu bạn đang vội, dưới đây là một số ví dụ nhanh về cách loại bỏ các hàng trùng lặp trong DataFrame của gấu trúc
2. drop_duplicates() Cú pháp & Ví dụDưới đây là cú pháp của hàm 6 loại bỏ các hàng trùng lặp khỏi DataFrame của gấu trúc
Bây giờ, hãy tạo một DataFrame với một vài hàng trùng lặp trên các cột. Khung dữ liệu của chúng tôi chứa các tên cột 6, 7, 8 và 9
Sản lượng dưới sản lượng 83. Pandas thả các hàng trùng lặpBạn có thể sử dụng 6 mà không cần bất kỳ đối số nào để loại bỏ các hàng có cùng giá trị trên tất cả các cột. Nó nhận các giá trị mặc định là 81 và 82. Ví dụ dưới đây trả về bốn hàng sau khi xóa các hàng trùng lặp trong DataFrame của chúng tôi 2Sản lượng dưới sản lượng 34. Bỏ các hàng trùng lặp và giữ hàng cuối cùngNếu bạn muốn chọn tất cả các hàng trùng lặp và lần xuất hiện cuối cùng của chúng, bạn phải chuyển một đối số giữ là 83. Ví dụ, 84 6Sản lượng dưới sản lượng 75. Xóa tất cả các hàng trùng lặp khỏi Pandas DataFrameBạn có thể đặt 85 trong hàm 86 để xóa tất cả các hàng trùng lặp. cho E. x, 87 1Sản lượng dưới sản lượng 26. Xóa các hàng trùng lặp dựa trên các cột cụ thểĐể xóa các hàng trùng lặp trên cơ sở nhiều cột, hãy chỉ định tất cả các tên cột dưới dạng danh sách. Bạn có thể đặt 85 trong hàm 86 để xóa tất cả các hàng trùng lặp 0Mang lại đầu ra tương tự như trên 7. Thả các hàng trùng lặp vào vị trí 1Sản lượng dưới sản lượng 38. Xóa các hàng trùng lặp bằng DataFrame. áp dụng () và Hàm LambdaBạn có thể xóa các hàng trùng lặp bằng hàm 7 và 21 để chuyển đổi DataFrame thành chữ thường và sau đó áp dụng chuỗi thấp hơn 3Mang lại sản lượng tương tự như trên 9. Hoàn thành ví dụ để loại bỏ các hàng trùng lặp trong DataFrame 4Phần kết luậnTrong bài viết này, bạn đã học cách thả/xóa/xóa các hàng trùng lặp bằng cách sử dụng hàm 5, 7 và 21 với các ví dụ |