Tự động xác thực dữ liệu bằng python
Một lỗi vô tình hoặc cố ý trong một chương trình có thể ngăn chương trình hoạt động bình thường hoặc thậm chí làm hỏng dữ liệu. Vì vậy, làm thế nào bạn có thể kiểm tra? Show
Xác thực dữ liệu là khi một chương trình kiểm tra dữ liệu để đảm bảo dữ liệu đáp ứng một số quy tắc hoặc hạn chế. Có nhiều kiểm tra xác thực dữ liệu khác nhau có thể được thực hiện. Ví dụ: chúng tôi có thể kiểm tra xem dữ liệu
Nơi chúng tôi kiểm tra dữ liệu phụ thuộc vào chương trình, nhưng đây là một số manh mối
Đã xảy ra lỗi khi tải video này Hãy thử làm mới trang hoặc liên hệ với bộ phận hỗ trợ khách hàng Bạn phải cC tạo một tài khoản để tiếp tục xemĐăng ký để xem bài học nàyBạn là học sinh hay giáo viên? tôi là học sinh tôi là giáo viên Tạo tài khoản của bạn để tiếp tục xem Là thành viên, bạn cũng sẽ có quyền truy cập không giới hạn vào hơn 84.000 bài học về toán, tiếng Anh, khoa học, lịch sử, v.v. Ngoài ra, nhận các bài kiểm tra thực hành, câu đố và huấn luyện được cá nhân hóa để giúp bạn thành công Nhận quyền truy cập không giới hạn vào hơn 84.000 bài học Thử ngay bây giờChỉ mất vài phút để thiết lập và bạn có thể hủy bất cứ lúc nào Đã đăng ký?Tài nguyên do giáo viên tạo ra cho giáo viênHơn 30.000 bài học video & tài nguyên giảng dạy‐tất cả ở một nơi. bài học video Câu đố và Bảng tính Tích hợp lớp học kế hoạch bài học Tôi chắc chắn sẽ giới thiệu Study. com đến các đồng nghiệp của tôi. Nó giống như một giáo viên vung cây đũa thần và làm việc cho tôi. Tôi cảm thấy như đó là một cứu cánh Phần lớn dữ liệu mở trên web được xuất bản ở định dạng CSV hoặc Excel. Thật không may, nó thường lộn xộn và có thể yêu cầu thao tác đáng kể để thực sự có thể sử dụng được. Trong bài đăng này, tôi hướng dẫn quy trình làm việc để tự động xác thực dữ liệu trên mỗi bản cập nhật cho kho lưu trữ dùng chung lấy cảm hứng từ các thực tiễn hiện có trong phát triển phần mềm và được hỗ trợ bởi các công cụ và tiêu chuẩn Dữ liệu không ma sát Các dự án phần mềm từ lâu đã được hưởng lợi từ các dịch vụ Tích hợp liên tục như Travis CI và các dịch vụ khác để đảm bảo và duy trì chất lượng mã. Tích hợp liên tục là một quá trình trong đó tất cả các thử nghiệm được chạy tự động và một báo cáo được tạo trên mỗi bản cập nhật (“cam kết”) đối với kho lưu trữ dùng chung của dự án. Điều này cho phép các nhà phát triển tìm và giải quyết lỗi một cách nhanh chóng và đáng tin cậy. Ngoài ra, bằng cách hiển thị “trạng thái xây dựng”, những người khác bên ngoài dự án có thể thấy rõ trạng thái tuân thủ thử nghiệm của dự án Đối với phần mềm, các bộ dữ liệu thường được cộng tác tạo, chỉnh sửa và cập nhật theo thời gian, đôi khi gây ra các lỗi sơ đồ và cấu trúc tinh vi (hoặc không quá tinh vi) (xem Dữ liệu Xấu để biết ví dụ). Phần lớn "ma sát" trong việc sử dụng dữ liệu đến từ thời gian và nỗ lực cần thiết để xác định và giải quyết các lỗi này trước khi phân tích trong một công cụ nhất định. Tự động gắn cờ các vấn đề về chất lượng dữ liệu tại thời điểm tải lên trong kho lưu trữ có thể góp phần làm cho dữ liệu trở nên hữu ích hơn và có tác dụng tiếp theo đáng kể trong hệ sinh thái dữ liệu, cả mở và đóng Tích hợp dữ liệu liên tụcKhi hệ sinh thái tiêu chuẩn và công cụ Dữ liệu không ma sát tiếp tục phát triển, giờ đây chúng tôi có các yếu tố cần thiết để cung cấp cho người quản lý dữ liệu cùng loại dịch vụ cho dữ liệu dạng bảng (e. g. Excel và CSV). Trong vòng chưa đầy một giờ, một số người trong chúng tôi tại Kiến thức Mở đã khởi động một bản trình diễn nhỏ để cho thấy việc tích hợp dữ liệu liên tục có thể trông như thế nào. Trên mỗi cam kết với kho lưu trữ ví dụ của chúng tôi, một tập hợp các kiểm tra xác thực được chạy trên dữ liệu, đưa ra một ngoại lệ nếu dữ liệu không hợp lệ. Nếu người dùng thêm dữ liệu "xấu", thì "bản dựng" sẽ không thành công và đưa ra báo cáo cho biết điều gì đã xảy ra Ví dụ: CSV sau có một vài vấn đề với các giá trị của nó. Trong lược đồ chúng tôi xác định trong tệp CSV
gói dữ liệu. json
Khi chúng tôi cố gắng thêm dữ liệu không hợp lệ này vào kho lưu trữ, báo cáo sau được tạo
Làm thế nào nó hoạt độngTệp mô tả gói dữ liệu, gói dữ liệu. json, cung cấp cả siêu dữ liệu cấp cao cũng như lược đồ cho dữ liệu dạng bảng. Chúng tôi sử dụng gói dữ liệu thư viện Python-py để tạo mô hình cấp cao của Gói dữ liệu cho phép chúng tôi kiểm tra và làm việc với dữ liệu bên trong. Công việc thực sự được hoàn thành bằng GoodTables Trước đây chúng tôi đã viết blog về việc sử dụng Bảng tốt để xác thực dữ liệu dạng bảng của mình. Trên mỗi lần cập nhật, hai chức năng kiểm tra nhỏ đọc
Để biết thêm thông tin, hãy đọc hướng dẫn về dữ liệu không ma sát. io về xác thực dữ liệu. Đằng sau hậu trường, đây chỉ là một cấu hình Travis CI bình thường (xem. travis. yml) Tự mình thửVí dụ của chúng tôi dựa trên GitHub làm cơ chế lưu trữ dữ liệu và Travis CI làm máy chủ để xác thực thực tế. Tuy nhiên, cách tiếp cận này được áp dụng rộng rãi cho mọi phụ trợ lưu trữ và xử lý với một số điều chỉnh bổ sung (e. g. sử dụng AWS Lambda và S3) Kiểm tra kho lưu trữ tích hợp dữ liệu liên tục cũ trên tổ chức dữ liệu không ma sát của chúng tôi trên GitHub để xem cách bạn có thể thử điều này với dữ liệu của riêng mình. Hãy cho chúng tôi biết nó hoạt động như thế nào trên kênh trò chuyện của chúng tôi Bình luậnVui lòng kích hoạt JavaScript để xem các bình luận được cung cấp bởi DisqusChúng tôi tạo ra các công cụ, ứng dụng và thông tin chi tiết bằng nội dung mở Tham gia »Theo dõi @okfnlabsĐăng ký RSS Các dự án liên quanTrình quản lý gói dữ liệuDữ liệu ma sátMiraBài viết gần đây
|