Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Tôi đang làm việc trên tờ Excel:

animal name    age
dog    puppy   1
dog    doggy   2
dog    snooppy 3
cat    pussy   1
pig    piggy   1
pig    cutty   2
rabit  robby   1
rabbit bunny   2

Ở đây tôi nên kiểm tra xem Age Age là 1 nên xóa hàng đó và in hàng tiếp theo và loại bỏ các bản sao nếu không có bản sao, nên in hàng đó và đầu ra này nên in trong tờ Excel khác.

Bất kỳ có thể giúp tôi ra khỏi điều này?

import 
imatplotlib.pyplot as plt
import pandas as pd

data = pd.read_excel(r"C:\Users\c_ssaiva\Desktop\sampladata.xlsx")
for index,row in data.iterrows():
print(index,row['animal'],row['name'],row['age'])
for j,row in data.iterrows():

 if a[i] == a[j]:
 if a[i] == 1
 print a[j]
 else:
 print (a[i])
 df = data
 df.to_excel(r"C:\Users\c_ssaiva\Desktop\selcol.xlsx")          

Trong bài viết, các tập lệnh Python để định dạng dữ liệu trong Microsoft Excel, chúng tôi đã sử dụng các tập lệnh Python để tạo một excel và thực hiện định dạng dữ liệu khác nhau. Python là một ngôn ngữ lập trình cấp cao thú vị. Bạn có thể trải qua các trường hợp sử dụng khác nhau của Python trên SQLShack.

Trong bài viết này, chúng tôi sẽ xem xét loại bỏ dữ liệu trùng lặp khỏi Excel bằng Python.

Tóm tắt nhanh về việc loại bỏ các hàng trùng lặp trong Microsoft Excel

Giả sử chúng ta có dữ liệu sau trong một tờ Excel. Chúng tôi muốn loại bỏ các giá trị trùng lặp trong bảng này.

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Trong Microsoft Excel, chúng tôi sử dụng nút Xóa trùng lặp khỏi menu dữ liệu. Tùy chọn này kiểm tra các giá trị trùng lặp và giữ lại giá trị duy nhất đầu tiên và xóa các giá trị khác.Remove Duplicates button from the Data menu. This option checks duplicate values and retains the FIRST unique value and removes other values.

Hãy để nhấp vào Xóa các bản sao và chọn tất cả các cột.

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Nhấp vào OK và nó loại bỏ các giá trị trùng lặp 3 giá trị trùng lặp và giữ lại 5 giá trị duy nhất.

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Chúng tôi có dữ liệu sau khi loại bỏ các bản sao khỏi điều này.

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Giả sử bạn đang làm việc trong Excel bằng ngôn ngữ Python. Nếu Excel đó chứa các giá trị trùng lặp, chúng ta có thể không muốn sử dụng các chức năng Excel cho nó. Kịch bản của chúng tôi phải có khả năng xử lý dữ liệu trùng lặp như vậy và xóa theo các yêu cầu của chúng tôi, chẳng hạn như xóa tất cả các bản sao, xóa tất cả trừ bản sao cuối cùng, xóa tất cả nhưng lần đầu tiên trùng lặp.

Hãy cùng nhìn vào cách xử lý dữ liệu trùng lặp Python trong Excel.

Trước khi chúng tôi bắt đầu với Python, hãy đảm bảo bạn chạy qua các điều kiện tiên quyết được chỉ định trong bài viết, các tập lệnh Python để định dạng dữ liệu trong Microsoft Excel.

Khởi chạy SQL Notebook trong Azure Data Studio và xác minh gấu trúc, sự tồn tại của gói numpy. Bạn có thể nhấp vào Quản lý tiện ích mở rộng trong Azure Data Studio cho nó.

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Khi bạn nhấp vào quản lý các gói, nó cung cấp cho bạn một danh sách các gói đã cài đặt. Ở đây, chúng ta có thể thấy cả gói gấu trúc và numpy cùng với tiện ích pip.pandas and NumPy package along with pip utility.

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Chúng tôi sử dụng chức năng pandas read_excel () để nhập tệp excel. Tạo một khối mã mới trong SQL Notebook và thực thi mã. Ở đây, câu lệnh in in khung dữ liệu bao gồm dữ liệu trang tính Excel.

Đầu tiên, chúng tôi nhập thư viện Pandas để đọc và viết các tờ Excel.pandas library to read and write the excel sheets.

Trong dữ liệu này, một vài cột chứa NAN trong cột Nhận xét. Python hiển thị nan cho các ô không có bất kỳ giá trị/văn bản nào.

IMPREPPANDAS ASPDpandas aspd

data = pd.read_excel ('c: \ temp \ data.xlsx'))=pd.read_excel('C:\Temp\data.xlsx')

print(data)(data)

Trong đầu ra, chúng ta cũng thấy các giá trị chỉ mục cho các hàng riêng lẻ. Hàng đầu tiên bắt đầu bằng ID ID 0 và tăng thêm 1 với mỗi hàng mới.

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Chúng tôi sử dụng hàm drop_duplicates () để xóa các bản ghi trùng lặp khỏi khung dữ liệu trong các tập lệnh Python.

Cú pháp của drop_duplicates () trong các tập lệnh python

DataFrame.drop_duplicates (tập hợp con = none, keep = xông đầu tiên, thay thế = false)

  • Tập hợp con: Trong đối số này, chúng tôi xác định danh sách cột để xem xét để xác định các hàng trùng lặp. Nếu nó xem xét tất cả các cột trong trường hợp, chúng tôi không chỉ định bất kỳ giá trị nào: In this argument, we define the column list to consider for identifying duplicate rows. If it considers all columns in case, we do not specify any values
  • Giữ: Ở đây, chúng tôi có thể chỉ định các giá trị sau:: Here, we can specify the following values:
    • Đầu tiên: Xóa tất cả các hàng trùng lặp ngoại trừ hàng đầu tiên
    • Cuối cùng: Xóa tất cả các hàng trùng lặp ngoại trừ hàng cuối cùng
    • Sai: Xóa tất cả các hàng trùng lặp
  • Thay thế: Theo mặc định, Python không thay đổi khung dữ liệu nguồn. Chúng tôi có thể chỉ định đối số này để thay đổi hành vi này: By default, Python does not change the source data frame. We can specify this argument to change this behavior

Ví dụ 1: Sử dụng drop_duplicates () mà không có bất kỳ đối số nào

Trong truy vấn sau, nó gọi chức năng DROP.DULICATE () cho [Data] DataFrame.

IMPREPPANDAS ASPDpandas aspd

data = pd.read_excel ('c: \ temp \ data.xlsx'))=pd.read_excel('C:\Temp\data.xlsx')

#print(data)

data.drop_duplicates().drop_duplicates()

Trong đầu ra, chúng ta cũng thấy các giá trị chỉ mục cho các hàng riêng lẻ. Hàng đầu tiên bắt đầu bằng ID ID 0 và tăng thêm 1 với mỗi hàng mới.

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Chúng tôi sử dụng hàm drop_duplicates () để xóa các bản ghi trùng lặp khỏi khung dữ liệu trong các tập lệnh Python.

Cú pháp của drop_duplicates () trong các tập lệnh python

Trong các tập lệnh Python sau, chúng tôi chỉ định tên cột trong đối số tập hợp con. Pandas kiểm tra các cột này và xóa các giá trị trùng lặp. Nó không bao gồm cột Nhận xét trong trường hợp này.

Ví dụ 2A: Keep = "đầu tiên" đối số

Chúng tôi cũng chỉ định một đối số khác giữ = trước tiên để hướng dẫn Python giữ giá trị đầu tiên và loại bỏ các bản sao hơn nữa. Đó là các hành vi mặc định để chúng ta có thể loại trừ tham số này ở đây.keep=first to instruct Python to keep the first value and remove further duplicates. It is the default behaviors so that we can exclude this parameter here as well.

IMPREPPANDAS ASPDpandas aspd

data = pd.read_excel ('c: \ temp \ data.xlsx'))=pd.read_excel('C:\Temp\data.xlsx')

data.drop_duplicates(subset=["EmpName","Department","JoiningDate","Designation"],keep="first").drop_duplicates(subset=["EmpName", "Department","JoiningDate","Designation"],keep="first")

Nhìn vào đầu ra, và chúng tôi chỉ có ba hồ sơ có sẵn. Nó đã loại bỏ tất cả các hàng trùng lặp cho các cột được chỉ định. Chúng tôi có các hàng có ID ID 0,2 và 4 trong đầu ra bằng cách sử dụng giá trị đầu tiên trong đối số giữ.

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Ví dụ 2b: Keep = "Last Last" đối số

Chúng ta có thể thay đổi đối số giữ = cuối cùng. Nó giữ hàng cuối cùng từ các bản sao và loại bỏ các hàng trùng lặp trước đó. Hãy để thay đổi đối số và xem đầu ra.keep=last. It keeps the last row from the duplicates and removes previous duplicate rows. Let’s change the argument and view the output.

IMPREPPANDAS ASPDpandas aspd

data = pd.read_excel ('c: \ temp \ data.xlsx'))=pd.read_excel('C:\Temp\data.xlsx')

data.drop_duplicates(subset=["EmpName","Department","JoiningDate","Designation"],keep="last").drop_duplicates(subset=["EmpName", "Department","JoiningDate","Designation"],keep="last")

Nhìn vào đầu ra, và chúng tôi chỉ có ba hồ sơ có sẵn. Nó đã loại bỏ tất cả các hàng trùng lặp cho các cột được chỉ định. Chúng tôi có các hàng có ID ID 0,2 và 4 trong đầu ra bằng cách sử dụng giá trị đầu tiên trong đối số giữ.

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Ví dụ 2b: Keep = "Last Last" đối số

Chúng ta có thể thay đổi đối số giữ = cuối cùng. Nó giữ hàng cuối cùng từ các bản sao và loại bỏ các hàng trùng lặp trước đó. Hãy để thay đổi đối số và xem đầu ra.

IMPREPPANDAS ASPDpandas aspd

data = pd.read_excel ('c: \ temp \ data.xlsx'))=pd.read_excel('C:\Temp\data.xlsx')

data.drop_duplicates(subset=["EmpName","Department","JoiningDate","Designation"],keep="False").drop_duplicates(subset=["EmpName", "Department","JoiningDate","Designation"],keep="False")

Nhìn vào đầu ra, và chúng tôi chỉ có ba hồ sơ có sẵn. Nó đã loại bỏ tất cả các hàng trùng lặp cho các cột được chỉ định. Chúng tôi có các hàng có ID ID 0,2 và 4 trong đầu ra bằng cách sử dụng giá trị đầu tiên trong đối số giữ.

Ví dụ 2b: Keep = "Last Last" đối số

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Chúng ta có thể thay đổi đối số giữ = cuối cùng. Nó giữ hàng cuối cùng từ các bản sao và loại bỏ các hàng trùng lặp trước đó. Hãy để thay đổi đối số và xem đầu ra.

IMPREPPANDAS ASPDpandas aspd

data = pd.read_excel ('c: \ temp \ data.xlsx'))=pd.read_excel('C:\Temp\data.xlsx')

data.drop_duplicates(subset=["EmpName","Department","JoiningDate","Designation"],keep=False).drop_duplicates(subset=["EmpName", "Department","JoiningDate","Designation"],keep=False)

Nhìn vào đầu ra, và chúng tôi chỉ có ba hồ sơ có sẵn. Nó đã loại bỏ tất cả các hàng trùng lặp cho các cột được chỉ định. Chúng tôi có các hàng có ID ID 0,2 và 4 trong đầu ra bằng cách sử dụng giá trị đầu tiên trong đối số giữ.

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Ví dụ 2b: Keep = "Last Last" đối số

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Chúng ta có thể thay đổi đối số giữ = cuối cùng. Nó giữ hàng cuối cùng từ các bản sao và loại bỏ các hàng trùng lặp trước đó. Hãy để thay đổi đối số và xem đầu ra.

Trong trường hợp này, đầu ra thay đổi và chúng tôi có các hàng có ID ID 1,2,7 trong đầu ra.

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Ví dụ 2c: giữ = đối số sai lầm

IMPREPPANDAS ASPDpandas aspd

data = pd.read_excel ('c: \ temp \ data.xlsx'))=pd.read_excel('C:\Temp\data.xlsx')

data.sort_values('Age',ascending=True).drop_duplicates(subset=["EmpName","Department","JoiningDate","Designation"],keep='last').sort_values('Age',ascending=True).drop_duplicates(subset=["EmpName", "Department","JoiningDate","Designation"],keep='last')

Nhìn vào đầu ra, và chúng tôi chỉ có ba hồ sơ có sẵn. Nó đã loại bỏ tất cả các hàng trùng lặp cho các cột được chỉ định. Chúng tôi có các hàng có ID ID 0,2 và 4 trong đầu ra bằng cách sử dụng giá trị đầu tiên trong đối số giữ.

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Ví dụ 2b: Keep = "Last Last" đối số

IMPREPPANDAS ASPDpandas aspd

data = pd.read_excel ('c: \ temp \ data.xlsx'))=pd.read_excel('C:\Temp\data.xlsx')

data.sort_values('Age',ascending=False).drop_duplicates(subset=["EmpName","Department","JoiningDate","Designation"],keep='last').sort_values('Age',ascending=False).drop_duplicates(subset=["EmpName", "Department","JoiningDate","Designation"],keep='last')

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Nhìn vào đầu ra, và chúng tôi chỉ có ba hồ sơ có sẵn. Nó đã loại bỏ tất cả các hàng trùng lặp cho các cột được chỉ định. Chúng tôi có các hàng có ID ID 0,2 và 4 trong đầu ra bằng cách sử dụng giá trị đầu tiên trong đối số giữ.

Ví dụ 2b: Keep = "Last Last" đối số

Chúng ta có thể thay đổi đối số giữ = cuối cùng. Nó giữ hàng cuối cùng từ các bản sao và loại bỏ các hàng trùng lặp trước đó. Hãy để thay đổi đối số và xem đầu ra.

IMPREPPANDAS ASPDpandas aspd

data = pd.read_excel ('c: \ temp \ data.xlsx'))=pd.read_excel('C:\Temp\data.xlsx')

data.drop_duplicates(subset=["EmpName","Department","JoiningDate","Designation"],keep=False,inplace=False).drop_duplicates(subset=["EmpName", "Department","JoiningDate","Designation"],keep=False,inplace=False)

Nhìn vào đầu ra, và chúng tôi chỉ có ba hồ sơ có sẵn. Nó đã loại bỏ tất cả các hàng trùng lặp cho các cột được chỉ định. Chúng tôi có các hàng có ID ID 0,2 và 4 trong đầu ra bằng cách sử dụng giá trị đầu tiên trong đối số giữ.

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Ví dụ 2b: Keep = "Last Last" đối số

IMPREPPANDAS ASPDpandas aspd

data = pd.read_excel ('c: \ temp \ data.xlsx'))=pd.read_excel('C:\Temp\data.xlsx')

data.drop_duplicates(subset=["EmpName","Department","JoiningDate","Designation"],keep=False,inplace=True).drop_duplicates(subset=["EmpName", "Department","JoiningDate","Designation"],keep=False,inplace=True)

dữ liệu

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Đánh dấu các giá trị trùng lặp với mã màu tùy chỉnh

Trong nhiều trường hợp, chúng tôi chỉ muốn kiểm tra dữ liệu trùng lặp thay vì xóa nó. Thay vào đó, chúng tôi yêu cầu để làm nổi bật các giá trị trùng lặp và gửi chúng đến nhóm thích hợp để điều chỉnh. Nó có thể là khả thi trong trường hợp chúng tôi nhận được dữ liệu từ bên thứ ba.

Chúng ta có thể sử dụng định dạng có điều kiện và đưa ra một kiểu trực quan (mã hóa màu) để nhân đôi các hàng. Trong mã sau, chúng tôi xác định hàm tập lệnh Python để làm nổi bật các giá trị trùng lặp trong màu nền màu cam. Chúng tôi sẽ đề cập nhiều hơn về định dạng có điều kiện trong các bài viết sắp tới.conditional formatting and give a visual style ( color coding ) to duplicate rows. In the following code, we define a Python script function to highlight duplicate values in the orange background color. We will cover more about conditional formatting in upcoming articles.

IMPREPPANDAS ASPDpandas aspd

data = pd.read_excel ('c: \ temp \ data.xlsx'))=pd.read_excel('C:\Temp\data.xlsx')

df=pd.DataFrame(data)=pd.DataFrame(data)

defcolorcodes(x): colorcodes(x):

    df=x.copy()df=x.copy()

    df['Dup']=df.duplicated(keep=False)df['Dup']= df.duplicated(keep=False)

    mask=df['Dup']==Truemask=df['Dup']==True

& nbsp; & nbsp; & nbsp; & nbsp;df.loc[mask, :]='background-color: orange'

& nbsp; & nbsp; & nbsp; & nbsp; df.loc [~ mặt nạ,:] = 'màu nền: ""'df.loc[~mask,:]='background-color: ""'

    returndf.drop('Dup',axis=1)return df.drop('Dup',axis=1)

df.style.apply(colorcodes,axis=None).style.apply(colorcodes,axis=None)

Nó cung cấp cho chúng ta đầu ra sau và chúng ta có thể dễ dàng diễn giải các hàng nào chứa các giá trị trùng lặp. Nó rất hữu ích, đặc biệt là khi chúng ta có một số lượng lớn các hàng. Chúng ta không thể đi qua từng hàng trong trường hợp này và mã hóa màu giúp chúng ta xác định các giá trị trùng lặp.

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Ngoài ra, chúng ta có thể sử dụng các chức năng tiếp theo như Groupby và đếm các hàng trùng lặp.GROUPBY and count the duplicate rows.

IMPREPPANDAS ASPDpandas aspd

data = pd.read_excel ('c: \ temp \ data.xlsx'))=pd.read_excel('C:\Temp\data.xlsx')

df=pd.DataFrame(data)=pd.DataFrame(data)

df.groupby(df.columns.tolist(),as_index=False).size().groupby(df.columns.tolist(),as_index=False).size()

& nbsp; & nbsp; & nbsp; & nbsp;

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

& nbsp; & nbsp; & nbsp; & nbsp; df.loc [~ mặt nạ,:] = 'màu nền: ""'

Nó cung cấp cho chúng ta đầu ra sau và chúng ta có thể dễ dàng diễn giải các hàng nào chứa các giá trị trùng lặp. Nó rất hữu ích, đặc biệt là khi chúng ta có một số lượng lớn các hàng. Chúng ta không thể đi qua từng hàng trong trường hợp này và mã hóa màu giúp chúng ta xác định các giá trị trùng lặp.

  • Ngoài ra, chúng ta có thể sử dụng các chức năng tiếp theo như Groupby và đếm các hàng trùng lặp.
  • Nếu bất kỳ số lượng hàng nào lớn hơn 1, thì đó là một hàng trùng lặp. Trong đầu ra sau, chúng ta có thể lưu ý hơn Dolly xuất hiện 4 lần trong bảng Excel, điều đó có nghĩa là nó là một hàng trùng lặp. Rajendra không chứa bất kỳ hàng trùng lặp nào, vì vậy số lượng của nó là 1 trong đầu ra.

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Sự kết luận

Trong bài viết này, chúng tôi đã khám phá quá trình để loại bỏ các hàng trùng lặp trong một tờ Excel bằng các tập lệnh Python. Tôi thích cách đối phó với các tệp Excel bằng Python. Chúng tôi sẽ bao gồm các tập lệnh hữu ích hơn trong các bài viết sắp tới. Giữ nguyên!

Tác giả

Bài viết gần đâyBest Author of the Year continuously in 2019, 2020, and 2021 (2nd Rank) at SQLShack and the MSSQLTIPS champions award in 2020.

Xin chào! Tôi là Rajendra Gupta, chuyên gia và kiến ​​trúc sư cơ sở dữ liệu, giúp các tổ chức thực hiện Microsoft SQL Server, Azure, Couchbase, AWS Solutions nhanh chóng và hiệu quả, khắc phục các vấn đề liên quan và điều chỉnh hiệu suất với hơn 14 năm kinh nghiệm.
I am always interested in new challenges so if you need consulting help, reach me at

Tôi là tác giả của cuốn sách "DP-300 quản lý cơ sở dữ liệu quan hệ trên Microsoft Azure". Tôi đã xuất bản hơn 650 bài viết kỹ thuật về MSSQLTIPS, SQLShack, Quest, CodingSight và một số.

Hướng dẫn how to remove duplicates in excel using pandas - làm thế nào để loại bỏ các bản sao trong excel bằng cách sử dụng gấu trúc

Làm thế nào loại bỏ các bản sao khỏi cột trong gấu trúc?

Để thả các cột trùng lặp từ Pandas DataFrame sử dụng DF. T. drop_duplicates (). T, điều này loại bỏ tất cả các cột có cùng dữ liệu bất kể tên cột.

Làm cách nào để tự động loại bỏ các bản sao trong excel?

Trong Excel, có một số cách để lọc cho các giá trị duy nhất hoặc loại bỏ các giá trị trùng lặp: Để lọc cho các giá trị duy nhất, nhấp vào Dữ liệu> Sắp xếp & Bộ lọc> Nâng cao.Để xóa các giá trị trùng lặp, bấm vào dữ liệu> Công cụ dữ liệu> Xóa các bản sao.click Data > Data Tools > Remove Duplicates.

Làm thế nào để gấu trúc xử lý các bản sao?

Các bước để loại bỏ các bản sao khỏi Pandas DataFrame..
Bước 1: Thu thập dữ liệu chứa các bản sao.Đầu tiên, bạn sẽ cần thu thập dữ liệu chứa các bản sao.....
Bước 2: Tạo gấu trúc DataFrame.....
Bước 3: Xóa các bản sao khỏi Pandas DataFrame ..

Chức năng gấu trúc nào bằng cách sử dụng để loại bỏ các hàng trùng lặp?

Theo mặc định, pandas drop_duplicates () Chức năng, tất cả các cột được sử dụng để tìm các hàng trùng lặp.Keep: Các giá trị được phép là {'đầu tiên', 'cuối cùng', false}, mặc định 'đầu tiên'.Nếu 'đầu tiên', các hàng trùng lặp ngoại trừ hàng đầu tiên bị xóa.