Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc
Tôi đang làm việc trên tờ Excel: Show
Ở đây tôi nên kiểm tra xem Age Age là 1 nên xóa hàng đó và in hàng tiếp theo và loại bỏ các bản sao nếu không có bản sao, nên in hàng đó và đầu ra này nên in trong tờ Excel khác. Bất kỳ có thể giúp tôi ra khỏi điều này? Trong bài viết, các tập lệnh Python để định dạng dữ liệu trong Microsoft Excel, chúng tôi đã sử dụng các tập lệnh Python để tạo một excel và thực hiện định dạng dữ liệu khác nhau. Python là một ngôn ngữ lập trình cấp cao thú vị. Bạn có thể trải qua các trường hợp sử dụng khác nhau của Python trên SQLShack. Trong bài viết này, chúng tôi sẽ xem xét loại bỏ dữ liệu trùng lặp khỏi Excel bằng Python. Tóm tắt nhanh về việc loại bỏ các hàng trùng lặp trong Microsoft ExcelGiả sử chúng ta có dữ liệu sau trong một tờ Excel. Chúng tôi muốn loại bỏ các giá trị trùng lặp trong bảng này.
Trong Microsoft Excel, chúng tôi sử dụng nút Xóa trùng lặp khỏi menu dữ liệu. Tùy chọn này kiểm tra các giá trị trùng lặp và giữ lại giá trị duy nhất đầu tiên và xóa các giá trị khác.Remove Duplicates button from the Data menu. This option checks duplicate values and retains the FIRST unique value and removes other values. Hãy để nhấp vào Xóa các bản sao và chọn tất cả các cột.
Nhấp vào OK và nó loại bỏ các giá trị trùng lặp 3 giá trị trùng lặp và giữ lại 5 giá trị duy nhất.
Chúng tôi có dữ liệu sau khi loại bỏ các bản sao khỏi điều này.
Giả sử bạn đang làm việc trong Excel bằng ngôn ngữ Python. Nếu Excel đó chứa các giá trị trùng lặp, chúng ta có thể không muốn sử dụng các chức năng Excel cho nó. Kịch bản của chúng tôi phải có khả năng xử lý dữ liệu trùng lặp như vậy và xóa theo các yêu cầu của chúng tôi, chẳng hạn như xóa tất cả các bản sao, xóa tất cả trừ bản sao cuối cùng, xóa tất cả nhưng lần đầu tiên trùng lặp. Hãy cùng nhìn vào cách xử lý dữ liệu trùng lặp Python trong Excel. Trước khi chúng tôi bắt đầu với Python, hãy đảm bảo bạn chạy qua các điều kiện tiên quyết được chỉ định trong bài viết, các tập lệnh Python để định dạng dữ liệu trong Microsoft Excel. Khởi chạy SQL Notebook trong Azure Data Studio và xác minh gấu trúc, sự tồn tại của gói numpy. Bạn có thể nhấp vào Quản lý tiện ích mở rộng trong Azure Data Studio cho nó.
Khi bạn nhấp vào quản lý các gói, nó cung cấp cho bạn một danh sách các gói đã cài đặt. Ở đây, chúng ta có thể thấy cả gói gấu trúc và numpy cùng với tiện ích pip.pandas and NumPy package along with pip utility.
Chúng tôi sử dụng chức năng pandas read_excel () để nhập tệp excel. Tạo một khối mã mới trong SQL Notebook và thực thi mã. Ở đây, câu lệnh in in khung dữ liệu bao gồm dữ liệu trang tính Excel. Đầu tiên, chúng tôi nhập thư viện Pandas để đọc và viết các tờ Excel.pandas library to read and write the excel sheets. Trong dữ liệu này, một vài cột chứa NAN trong cột Nhận xét. Python hiển thị nan cho các ô không có bất kỳ giá trị/văn bản nào.
Trong đầu ra, chúng ta cũng thấy các giá trị chỉ mục cho các hàng riêng lẻ. Hàng đầu tiên bắt đầu bằng ID ID 0 và tăng thêm 1 với mỗi hàng mới.
Chúng tôi sử dụng hàm drop_duplicates () để xóa các bản ghi trùng lặp khỏi khung dữ liệu trong các tập lệnh Python. Cú pháp của drop_duplicates () trong các tập lệnh pythonDataFrame.drop_duplicates (tập hợp con = none, keep = xông đầu tiên, thay thế = false)
Ví dụ 1: Sử dụng drop_duplicates () mà không có bất kỳ đối số nàoTrong truy vấn sau, nó gọi chức năng DROP.DULICATE () cho [Data] DataFrame.
Trong đầu ra, chúng ta cũng thấy các giá trị chỉ mục cho các hàng riêng lẻ. Hàng đầu tiên bắt đầu bằng ID ID 0 và tăng thêm 1 với mỗi hàng mới.
Chúng tôi sử dụng hàm drop_duplicates () để xóa các bản ghi trùng lặp khỏi khung dữ liệu trong các tập lệnh Python.Cú pháp của drop_duplicates () trong các tập lệnh python Trong các tập lệnh Python sau, chúng tôi chỉ định tên cột trong đối số tập hợp con. Pandas kiểm tra các cột này và xóa các giá trị trùng lặp. Nó không bao gồm cột Nhận xét trong trường hợp này. Ví dụ 2A: Keep = "đầu tiên" đối sốChúng tôi cũng chỉ định một đối số khác giữ = trước tiên để hướng dẫn Python giữ giá trị đầu tiên và loại bỏ các bản sao hơn nữa. Đó là các hành vi mặc định để chúng ta có thể loại trừ tham số này ở đây.keep=first to instruct Python to keep the first value and remove further duplicates. It is the default behaviors so that we can exclude this parameter here as well.
Nhìn vào đầu ra, và chúng tôi chỉ có ba hồ sơ có sẵn. Nó đã loại bỏ tất cả các hàng trùng lặp cho các cột được chỉ định. Chúng tôi có các hàng có ID ID 0,2 và 4 trong đầu ra bằng cách sử dụng giá trị đầu tiên trong đối số giữ.
Ví dụ 2b: Keep = "Last Last" đối sốChúng ta có thể thay đổi đối số giữ = cuối cùng. Nó giữ hàng cuối cùng từ các bản sao và loại bỏ các hàng trùng lặp trước đó. Hãy để thay đổi đối số và xem đầu ra.keep=last. It keeps the last row from the duplicates and removes previous duplicate rows. Let’s change the argument and view the output.
Nhìn vào đầu ra, và chúng tôi chỉ có ba hồ sơ có sẵn. Nó đã loại bỏ tất cả các hàng trùng lặp cho các cột được chỉ định. Chúng tôi có các hàng có ID ID 0,2 và 4 trong đầu ra bằng cách sử dụng giá trị đầu tiên trong đối số giữ.
Ví dụ 2b: Keep = "Last Last" đối sốChúng ta có thể thay đổi đối số giữ = cuối cùng. Nó giữ hàng cuối cùng từ các bản sao và loại bỏ các hàng trùng lặp trước đó. Hãy để thay đổi đối số và xem đầu ra.
Nhìn vào đầu ra, và chúng tôi chỉ có ba hồ sơ có sẵn. Nó đã loại bỏ tất cả các hàng trùng lặp cho các cột được chỉ định. Chúng tôi có các hàng có ID ID 0,2 và 4 trong đầu ra bằng cách sử dụng giá trị đầu tiên trong đối số giữ. Ví dụ 2b: Keep = "Last Last" đối số
Chúng ta có thể thay đổi đối số giữ = cuối cùng. Nó giữ hàng cuối cùng từ các bản sao và loại bỏ các hàng trùng lặp trước đó. Hãy để thay đổi đối số và xem đầu ra.
Nhìn vào đầu ra, và chúng tôi chỉ có ba hồ sơ có sẵn. Nó đã loại bỏ tất cả các hàng trùng lặp cho các cột được chỉ định. Chúng tôi có các hàng có ID ID 0,2 và 4 trong đầu ra bằng cách sử dụng giá trị đầu tiên trong đối số giữ.
Ví dụ 2b: Keep = "Last Last" đối số
Chúng ta có thể thay đổi đối số giữ = cuối cùng. Nó giữ hàng cuối cùng từ các bản sao và loại bỏ các hàng trùng lặp trước đó. Hãy để thay đổi đối số và xem đầu ra.Trong trường hợp này, đầu ra thay đổi và chúng tôi có các hàng có ID ID 1,2,7 trong đầu ra.
Ví dụ 2c: giữ = đối số sai lầm
Nhìn vào đầu ra, và chúng tôi chỉ có ba hồ sơ có sẵn. Nó đã loại bỏ tất cả các hàng trùng lặp cho các cột được chỉ định. Chúng tôi có các hàng có ID ID 0,2 và 4 trong đầu ra bằng cách sử dụng giá trị đầu tiên trong đối số giữ.
Ví dụ 2b: Keep = "Last Last" đối số
Nhìn vào đầu ra, và chúng tôi chỉ có ba hồ sơ có sẵn. Nó đã loại bỏ tất cả các hàng trùng lặp cho các cột được chỉ định. Chúng tôi có các hàng có ID ID 0,2 và 4 trong đầu ra bằng cách sử dụng giá trị đầu tiên trong đối số giữ.Ví dụ 2b: Keep = "Last Last" đối số Chúng ta có thể thay đổi đối số giữ = cuối cùng. Nó giữ hàng cuối cùng từ các bản sao và loại bỏ các hàng trùng lặp trước đó. Hãy để thay đổi đối số và xem đầu ra.
Ví dụ 2b: Keep = "Last Last" đối số
Đánh dấu các giá trị trùng lặp với mã màu tùy chỉnhTrong nhiều trường hợp, chúng tôi chỉ muốn kiểm tra dữ liệu trùng lặp thay vì xóa nó. Thay vào đó, chúng tôi yêu cầu để làm nổi bật các giá trị trùng lặp và gửi chúng đến nhóm thích hợp để điều chỉnh. Nó có thể là khả thi trong trường hợp chúng tôi nhận được dữ liệu từ bên thứ ba. Chúng ta có thể sử dụng định dạng có điều kiện và đưa ra một kiểu trực quan (mã hóa màu) để nhân đôi các hàng. Trong mã sau, chúng tôi xác định hàm tập lệnh Python để làm nổi bật các giá trị trùng lặp trong màu nền màu cam. Chúng tôi sẽ đề cập nhiều hơn về định dạng có điều kiện trong các bài viết sắp tới.conditional formatting and give a visual style ( color coding ) to duplicate rows. In the following code, we define a Python script function to highlight duplicate values in the orange background color. We will cover more about conditional formatting in upcoming articles.
Nó cung cấp cho chúng ta đầu ra sau và chúng ta có thể dễ dàng diễn giải các hàng nào chứa các giá trị trùng lặp. Nó rất hữu ích, đặc biệt là khi chúng ta có một số lượng lớn các hàng. Chúng ta không thể đi qua từng hàng trong trường hợp này và mã hóa màu giúp chúng ta xác định các giá trị trùng lặp.
Ngoài ra, chúng ta có thể sử dụng các chức năng tiếp theo như Groupby và đếm các hàng trùng lặp.GROUPBY and count the duplicate rows.
& nbsp; & nbsp; & nbsp; & nbsp;
& nbsp; & nbsp; & nbsp; & nbsp; df.loc [~ mặt nạ,:] = 'màu nền: ""'Nó cung cấp cho chúng ta đầu ra sau và chúng ta có thể dễ dàng diễn giải các hàng nào chứa các giá trị trùng lặp. Nó rất hữu ích, đặc biệt là khi chúng ta có một số lượng lớn các hàng. Chúng ta không thể đi qua từng hàng trong trường hợp này và mã hóa màu giúp chúng ta xác định các giá trị trùng lặp.
Sự kết luận Trong bài viết này, chúng tôi đã khám phá quá trình để loại bỏ các hàng trùng lặp trong một tờ Excel bằng các tập lệnh Python. Tôi thích cách đối phó với các tệp Excel bằng Python. Chúng tôi sẽ bao gồm các tập lệnh hữu ích hơn trong các bài viết sắp tới. Giữ nguyên! Tác giả Bài viết gần đâyBest Author of the Year continuously in 2019, 2020, and 2021 (2nd Rank) at SQLShack and the MSSQLTIPS champions award in 2020. Xin chào! Tôi là Rajendra Gupta, chuyên gia và kiến trúc sư cơ sở dữ liệu, giúp các tổ chức thực hiện Microsoft SQL Server, Azure, Couchbase, AWS Solutions nhanh chóng và hiệu quả, khắc phục các vấn đề liên quan và điều chỉnh hiệu suất với hơn 14 năm kinh nghiệm. Tôi là tác giả của cuốn sách "DP-300 quản lý cơ sở dữ liệu quan hệ trên Microsoft Azure". Tôi đã xuất bản hơn 650 bài viết kỹ thuật về MSSQLTIPS, SQLShack, Quest, CodingSight và một số. Làm thế nào loại bỏ các bản sao khỏi cột trong gấu trúc?Để thả các cột trùng lặp từ Pandas DataFrame sử dụng DF. T. drop_duplicates (). T, điều này loại bỏ tất cả các cột có cùng dữ liệu bất kể tên cột.
Làm cách nào để tự động loại bỏ các bản sao trong excel?Trong Excel, có một số cách để lọc cho các giá trị duy nhất hoặc loại bỏ các giá trị trùng lặp: Để lọc cho các giá trị duy nhất, nhấp vào Dữ liệu> Sắp xếp & Bộ lọc> Nâng cao.Để xóa các giá trị trùng lặp, bấm vào dữ liệu> Công cụ dữ liệu> Xóa các bản sao.click Data > Data Tools > Remove Duplicates.
Làm thế nào để gấu trúc xử lý các bản sao?Các bước để loại bỏ các bản sao khỏi Pandas DataFrame.. Bước 1: Thu thập dữ liệu chứa các bản sao.Đầu tiên, bạn sẽ cần thu thập dữ liệu chứa các bản sao..... Bước 2: Tạo gấu trúc DataFrame..... Bước 3: Xóa các bản sao khỏi Pandas DataFrame .. Chức năng gấu trúc nào bằng cách sử dụng để loại bỏ các hàng trùng lặp?Theo mặc định, pandas drop_duplicates () Chức năng, tất cả các cột được sử dụng để tìm các hàng trùng lặp.Keep: Các giá trị được phép là {'đầu tiên', 'cuối cùng', false}, mặc định 'đầu tiên'.Nếu 'đầu tiên', các hàng trùng lặp ngoại trừ hàng đầu tiên bị xóa. |