Chúng tôi có thể sử dụng Python để làm sạch dữ liệu không?

Như chúng ta đã biết, Khoa học dữ liệu là ngành nghiên cứu liên quan đến việc trích xuất những hiểu biết sâu sắc từ lượng dữ liệu khổng lồ bằng cách sử dụng các phương pháp, thuật toán và quy trình khoa học khác nhau. Để trích xuất kiến ​​thức hữu ích từ dữ liệu, Nhà khoa học dữ liệu cần dữ liệu thô. Dữ liệu thô này là tập hợp thông tin từ nhiều nguồn phác thảo khác nhau và là nguyên liệu thô thiết yếu của Nhà khoa học dữ liệu. Nó còn được gọi là dữ liệu chính hoặc nguồn. Nó bao gồm các giá trị rác, bất thường và không nhất quán dẫn đến nhiều khó khăn. Khi sử dụng dữ liệu, thông tin chi tiết và phân tích được trích xuất chỉ tốt như dữ liệu chúng tôi đang sử dụng. Về cơ bản, khi có dữ liệu rác, thì phân tích rác sẽ xuất hiện. Ở đây Làm sạch dữ liệu xuất hiện, Làm sạch dữ liệu là một phần thiết yếu của khoa học dữ liệu. Làm sạch dữ liệu là quá trình loại bỏ dữ liệu không chính xác, bị hỏng, rác, được định dạng không chính xác, trùng lặp hoặc không đầy đủ trong tập dữ liệu

Làm sạch dữ liệu là gì?

Khi làm việc với nhiều nguồn dữ liệu, có nhiều khả năng dữ liệu bị sai, bị trùng lặp hoặc bị dán nhãn sai. Nếu dữ liệu sai, kết quả và thuật toán không đáng tin cậy, mặc dù chúng có vẻ đúng. Làm sạch dữ liệu là quá trình thay đổi hoặc loại bỏ dữ liệu rác, dữ liệu không chính xác, trùng lặp, bị hỏng hoặc không đầy đủ trong tập dữ liệu. Không có cách nào tuyệt đối như vậy để mô tả các bước chính xác trong quy trình làm sạch dữ liệu vì các quy trình có thể khác nhau giữa các tập dữ liệu. Làm sạch dữ liệu, làm sạch dữ liệu hoặc xóa dữ liệu là sáng kiến ​​​​trong quy trình chuẩn bị dữ liệu chung. Làm sạch dữ liệu đóng một phần quan trọng trong việc phát triển các câu trả lời đáng tin cậy và trong quá trình phân tích và được coi là một tính năng cơ bản của kiến ​​thức cơ bản về khoa học thông tin. Động cơ của dịch vụ làm sạch dữ liệu là xây dựng các bộ dữ liệu thống nhất và chuẩn hóa cho phép các công cụ phân tích dữ liệu và thông tin kinh doanh dễ dàng truy cập và nhận biết dữ liệu chính xác cho từng vấn đề

Tại sao làm sạch dữ liệu là điều cần thiết?

Làm sạch dữ liệu là nhiệm vụ quan trọng nhất nên được thực hiện với tư cách là một chuyên gia khoa học dữ liệu. Có dữ liệu chất lượng sai hoặc kém có thể gây bất lợi cho các quy trình và phân tích. Có dữ liệu sạch cuối cùng sẽ tăng năng suất tổng thể và cho phép thông tin chất lượng tốt nhất trong quá trình ra quyết định của bạn. Sau đây là một số lý do tại sao làm sạch dữ liệu là điều cần thiết

nguồn hình ảnh. bởi tôi

1. Dữ liệu không có lỗi. Khi nhiều nguồn dữ liệu được kết hợp, có thể có rất nhiều lỗi. Thông qua Làm sạch dữ liệu, lỗi có thể được loại bỏ khỏi dữ liệu. Có dữ liệu sạch không có giá trị sai và rác có thể giúp thực hiện phân tích nhanh hơn cũng như hiệu quả. Bằng cách thực hiện nhiệm vụ này, lượng thời gian đáng kể của chúng tôi được tiết kiệm. Nếu chúng tôi sử dụng dữ liệu chứa các giá trị rác, kết quả sẽ không chính xác. Khi chúng tôi không sử dụng dữ liệu chính xác, chắc chắn chúng tôi sẽ phạm sai lầm. Theo dõi lỗi và báo cáo tốt giúp tìm ra lỗi đến từ đâu và cũng giúp dễ dàng sửa dữ liệu không chính xác hoặc bị hỏng cho các ứng dụng trong tương lai

2. Chất lượng dữ liệu. Chất lượng của dữ liệu là mức độ tuân theo các quy tắc của các yêu cầu cụ thể. Ví dụ: nếu chúng tôi đã nhập dữ liệu số điện thoại của các khách hàng khác nhau và ở một số nơi, chúng tôi đã thêm địa chỉ email của khách hàng vào dữ liệu. Nhưng vì nhu cầu của chúng tôi rất đơn giản đối với số điện thoại, nên địa chỉ email sẽ là dữ liệu không hợp lệ. Ở đây một số mẩu dữ liệu theo một định dạng cụ thể. Một số loại số phải nằm trong một phạm vi cụ thể. Một số ô dữ liệu có thể yêu cầu một dữ liệu khá được chọn như số, Boolean, v.v. Trong mọi tình huống, có một số ràng buộc bắt buộc mà dữ liệu của chúng tôi phải tuân theo. Một số điều kiện ảnh hưởng đến nhiều trường dữ liệu trong một biểu mẫu cụ thể. Các loại dữ liệu cụ thể có các hạn chế duy nhất. Nếu dữ liệu không ở định dạng bắt buộc, nó sẽ luôn không hợp lệ. Làm sạch dữ liệu sẽ giúp chúng tôi đơn giản hóa quy trình này và tránh các giá trị dữ liệu vô ích

3. Chính xác và Hiệu quả. Đảm bảo dữ liệu gần với các giá trị chính xác. Chúng tôi biết rằng hầu hết dữ liệu trong bộ dữ liệu đều hợp lệ và chúng tôi nên tập trung vào việc thiết lập độ chính xác của nó. Ngay cả khi dữ liệu là xác thực và chính xác, điều đó không có nghĩa là dữ liệu đó chính xác. Xác định độ chính xác giúp biết được dữ liệu nhập vào có chính xác hay không. Ví dụ: địa chỉ của khách hàng được lưu trữ ở định dạng được chỉ định, có thể không cần phải ở đúng định dạng. Email có một ký tự hoặc giá trị bổ sung làm cho nó không chính xác hoặc không hợp lệ. Một ví dụ khác là số điện thoại của khách hàng. Điều này có nghĩa là chúng ta phải dựa vào các nguồn dữ liệu, phải kiểm tra chéo dữ liệu để xem nó có chính xác hay không. Tùy thuộc vào loại dữ liệu chúng tôi đang sử dụng, chúng tôi có thể tìm thấy các tài nguyên khác nhau có thể giúp chúng tôi về vấn đề này để làm sạch

4. Hoàn thành dữ liệu. Tính đầy đủ là mức độ mà chúng ta nên biết tất cả các giá trị cần thiết. Tính đầy đủ khó đạt được hơn một chút so với độ chính xác hoặc chất lượng. Bởi vì gần như không thể có tất cả thông tin chúng tôi cần. Chỉ những sự thật đã biết mới có thể được nhập. Chúng ta có thể cố gắng hoàn thiện dữ liệu bằng cách thực hiện lại các hoạt động thu thập dữ liệu như tiếp cận lại khách hàng, phỏng vấn lại mọi người, v.v. Ví dụ: chúng tôi có thể cần nhập thông tin liên hệ của mọi khách hàng. Nhưng một số trong số họ có thể không có địa chỉ email. Trong trường hợp này, chúng ta phải để trống các cột đó. Nếu chúng tôi có một hệ thống yêu cầu chúng tôi điền vào tất cả các cột, chúng tôi có thể thử nhập thiếu hoặc không xác định ở đó. Nhưng nhập các giá trị như vậy không có nghĩa là dữ liệu đã hoàn thành. Nó sẽ vẫn được gọi là không đầy đủ

5. Duy trì tính nhất quán của dữ liệu. Để đảm bảo dữ liệu nhất quán trong cùng một tập dữ liệu hoặc trên nhiều tập dữ liệu, chúng tôi có thể đo lường tính nhất quán bằng cách so sánh hai hệ thống tương tự. Chúng tôi cũng có thể kiểm tra các giá trị dữ liệu trong cùng một tập dữ liệu để xem chúng có nhất quán hay không. Tính nhất quán có thể là quan hệ. Ví dụ: tuổi của khách hàng có thể là 25, đây là một giá trị hợp lệ và cũng chính xác, nhưng nó cũng được nêu là công dân cao tuổi trong cùng một hệ thống. Trong những trường hợp như vậy, chúng tôi phải kiểm tra chéo dữ liệu, tương tự như đo độ chính xác và xem giá trị nào là đúng. Khách hàng có phải 25 tuổi không? . Có nhiều cách để dữ liệu của bạn nhất quán

  • Bằng cách kiểm tra trong các hệ thống khác nhau
  • Bằng cách kiểm tra nguồn
  • Bằng cách kiểm tra dữ liệu mới nhất

Chu kỳ làm sạch dữ liệu

Đó là phương pháp phân tích, phân biệt và sửa chữa dữ liệu thô, lộn xộn. Làm sạch dữ liệu liên quan đến việc điền vào các giá trị còn thiếu, phân biệt và sửa các lỗi có trong tập dữ liệu. Mặc dù các kỹ thuật được sử dụng để làm sạch dữ liệu có thể thay đổi theo từng bước với các loại bộ dữ liệu khác nhau, nhưng sau đây là các bước tiêu chuẩn để vạch ra quá trình làm sạch dữ liệu

nguồn hình ảnh. bởi tôi

Làm sạch dữ liệu với Pandas

Các nhà khoa học dữ liệu dành rất nhiều thời gian để làm sạch các bộ dữ liệu và đưa chúng về dạng mà chúng có thể hoạt động được. Đó là một kỹ năng thiết yếu của Nhà khoa học dữ liệu để có thể làm việc với dữ liệu lộn xộn, giá trị bị thiếu, dữ liệu không nhất quán, nhiễu hoặc vô nghĩa. Để hoạt động trơn tru, python cung cấp một mô-đun tích hợp Pandas. Pandas là thư viện Python phổ biến được sử dụng chủ yếu cho các mục đích xử lý dữ liệu như làm sạch, thao tác và phân tích. Pandas là viết tắt của “Thư viện phân tích dữ liệu Python”. Nó bao gồm các lớp để đọc, xử lý và ghi tệp dữ liệu CSV. Có rất nhiều công cụ làm sạch dữ liệu, nhưng thư viện Pandas cung cấp một cách thực sự nhanh chóng và hiệu quả để quản lý và khám phá dữ liệu. Nó thực hiện điều đó bằng cách cung cấp cho chúng tôi Sê-ri và Khung dữ liệu, giúp chúng tôi không chỉ biểu diễn dữ liệu một cách hiệu quả mà còn thao tác dữ liệu đó theo nhiều cách khác nhau

Trong bài viết này, chúng tôi sẽ sử dụng mô-đun Pandas để làm sạch tập dữ liệu của chúng tôi

Chúng tôi đang sử dụng một bộ dữ liệu đơn giản để làm sạch dữ liệu tôi. e. bộ dữ liệu loài iris. Bạn có thể tải xuống bộ dữ liệu này từ kaggle. com

Hãy bắt đầu từng bước làm sạch dữ liệu

Để bắt đầu làm việc với Pandas, chúng ta cần nhập nó. Chúng tôi đang sử dụng Google Colab làm IDE, vì vậy chúng tôi sẽ nhập Pandas vào Google Colab

#importing module
import pandas as pd

Nhập tập dữ liệu

Để nhập tập dữ liệu, chúng tôi sử dụng hàm read_csv[] của pandas và lưu trữ nó trong DataFrame có tên là data. Vì tập dữ liệu ở định dạng bảng nên khi làm việc với dữ liệu dạng bảng trong Pandas, nó sẽ tự động được chuyển đổi trong DataFrame. DataFrame là cấu trúc dữ liệu hai chiều, có thể thay đổi trong Python. Nó là sự kết hợp của các hàng và cột giống như một bảng tính excel

Mã Python

Hàm head[] là một hàm tích hợp trong gấu trúc cho khung dữ liệu được sử dụng để hiển thị các hàng của tập dữ liệu. Chúng tôi có thể chỉ định số lượng hàng bằng cách đưa ra số trong dấu ngoặc đơn. Theo mặc định, nó hiển thị năm hàng đầu tiên của tập dữ liệu. Nếu chúng tôi muốn xem năm hàng cuối cùng của tập dữ liệu, chúng tôi sử dụng hàm tail[] của khung dữ liệu như thế này

#displayinf last five rows of dataset
data.tail[]

Hợp nhất tập dữ liệu

Hợp nhất tập dữ liệu là quá trình kết hợp hai tập dữ liệu thành một và sắp xếp các hàng dựa trên một số thuộc tính cụ thể hoặc chung để phân tích dữ liệu. Chúng ta có thể làm điều này bằng cách sử dụng chức năng hợp nhất [] của khung dữ liệu. Sau đây là cú pháp của hàm hợp nhất

DataFrame_name.merge[right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=['_x', '_y'], copy=True, indicator=False, validate=None]

[nguồn]

Nhưng trong trường hợp này, chúng tôi không cần hợp nhất hai bộ dữ liệu. Vì vậy, chúng ta sẽ bỏ qua bước này

Xây dựng lại dữ liệu bị thiếu

Để tìm và điền dữ liệu còn thiếu trong tập dữ liệu, chúng tôi sẽ sử dụng một chức năng khác. Có 4 cách để tìm các giá trị null nếu có trong tập dữ liệu. Hãy xem từng người một

Sử dụng hàm isnull[]

Hàm này cung cấp giá trị boolean cho tập dữ liệu hoàn chỉnh để biết liệu có giá trị null nào hay không

Sử dụng hàm isna[]

data.isna[]

Điều này cũng giống như hàm isnull[]. Ans cung cấp cùng một đầu ra

Sử dụng isna[]. bất kỳ[]

data.isna[].any[]

Hàm này cũng đưa ra một giá trị boolean nếu có bất kỳ giá trị null nào xuất hiện hay không, nhưng nó đưa ra kết quả theo cột, không ở định dạng bảng

Sử dụng isna[]. Tổng[]

data.isna[].sum[]

Hàm này đưa ra tổng của các giá trị null được đặt trước trong cột của tập dữ liệu

Sử dụng isna[]. bất kỳ[]. Tổng[]

data.isna[].any[].sum[]

Hàm này cho đầu ra ở một giá trị duy nhất nếu có bất kỳ giá trị null nào hay không

Không có giá trị null nào trong tập dữ liệu của chúng tôi. Nhưng nếu có bất kỳ giá trị null nào được đặt trước, chúng ta có thể lấp đầy những vị trí đó bằng bất kỳ giá trị nào khác bằng cách sử dụng hàm fillna[] của DataFrame. Sau đây là cú pháp của hàm fillna[]

DataFrame_name.fillna[value=None, method=None, axis=None, inplace=False, limit=None, downcast=None]

[nguồn]

Hàm này sẽ điền các giá trị NA/NaN hoặc 0 thay cho khoảng trống

Chuẩn hóa và chuẩn hóa

Chuẩn hóa và chuẩn hóa dữ liệu là một thực tế phổ biến trong học máy.  

Chuẩn hóa là một kỹ thuật chia tỷ lệ khác trong đó các giá trị được căn giữa quanh giá trị trung bình với độ lệch chuẩn đơn vị. Điều này có nghĩa là giá trị trung bình của thuộc tính trở thành 0 và phân phối kết quả có độ lệch chuẩn đơn vị

Chuẩn hóa là một kỹ thuật chia tỷ lệ trong đó các giá trị được dịch chuyển và thay đổi tỷ lệ sao cho cuối cùng chúng nằm trong khoảng từ 0 đến 1. Nó còn được gọi là chia tỷ lệ Min-Max

Để biết thêm về điều này bấm vào đây

Bước này không cần thiết cho tập dữ liệu chúng tôi đang sử dụng. Vì vậy, chúng ta sẽ bỏ qua bước này

Loại bỏ trùng lặp

Loại bỏ trùng lặp có nghĩa là loại bỏ tất cả các giá trị trùng lặp. Không cần giá trị trùng lặp trong phân tích dữ liệu. Các giá trị này chỉ ảnh hưởng đến độ chính xác và hiệu quả của kết quả phân tích. Để tìm các giá trị trùng lặp trong tập dữ liệu, chúng tôi sẽ sử dụng hàm khung dữ liệu đơn giản i. e. trùng lặp[]. Hãy xem ví dụ

Hàm này cũng cung cấp các giá trị bool cho các giá trị trùng lặp trong tập dữ liệu. Như chúng ta có thể thấy rằng tập dữ liệu không chứa bất kỳ giá trị trùng lặp nào

Nếu một tập dữ liệu chứa các giá trị trùng lặp, nó có thể bị xóa bằng hàm drop_duplicates[]. Sau đây là cú pháp của hàm này

________số 8_______

[nguồn]

Xác minh và làm giàu

Sau khi loại bỏ các giá trị null, trùng lặp và không chính xác, chúng ta nên xác minh tập dữ liệu và xác thực tính chính xác của nó. Trong bước này, chúng tôi phải kiểm tra xem dữ liệu được làm sạch cho đến nay có ý nghĩa gì không. Nếu dữ liệu không đầy đủ, chúng tôi phải bổ sung lại dữ liệu bằng các hoạt động thu thập dữ liệu như tiếp cận lại khách hàng, phỏng vấn lại mọi người, v.v. Tính đầy đủ khó khăn hơn một chút để đạt được độ chính xác hoặc chất lượng trong tập dữ liệu

Xuất tập dữ liệu

Đây là bước cuối cùng của quá trình làm sạch dữ liệu. Sau khi thực hiện tất cả các thao tác trên, dữ liệu được chuyển thành tập dữ liệu sạch và sẵn sàng xuất cho quy trình tiếp theo trong Khoa học dữ liệu hoặc Phân tích dữ liệu

Điều này đưa chúng ta đến cuối bài viết này. Tôi hy vọng bạn thích bài viết này và nâng cao kiến ​​thức của bạn về Quy trình làm sạch dữ liệu

Cảm ơn vì đã đọc. Hãy cho tôi biết ý kiến ​​​​và phản hồi của bạn trong phần bình luận

Để biết thêm bài viết bấm vào đây

Phương tiện hiển thị trong bài viết này không thuộc sở hữu của Analytics Vidhya và được sử dụng theo quyết định của Tác giả

Tôi có thể sử dụng Python để xóa dữ liệu không?

Python có một số thư viện tích hợp để giúp làm sạch dữ liệu . Hai thư viện phổ biến nhất là pandas và numpy, nhưng bạn sẽ sử dụng pandas cho hướng dẫn này. Thư viện gấu trúc cho phép bạn làm việc với khung dữ liệu gấu trúc để phân tích và thao tác dữ liệu.

R hay Python tốt hơn để làm sạch dữ liệu?

Bởi vì R lưu trữ dữ liệu trong bộ nhớ, nên nó thường chậm hơn trong hai . Tuy nhiên, làm sạch dữ liệu thường liên quan đến các tập hợp dữ liệu rất lớn. Trong những trường hợp cần đánh giá lượng dữ liệu lớn, Python thực sự gặp bất lợi vì thiếu hỗ trợ đa luồng.

Ngôn ngữ nào là tốt nhất để làm sạch dữ liệu?

Sử dụng R và Python để làm sạch dữ liệu tốt hơn .

Thư viện Python nào được sử dụng để làm sạch dữ liệu?

Klib . Klib là gói Python mã nguồn mở để nhập, dọn dẹp và phân tích. Đây là gói một cửa được sử dụng để dễ dàng hiểu dữ liệu và tiền xử lý của bạn.

Chủ Đề