Read file csv trong python bằng pandas
Ngày đăng:
29/11/2022
Trả lời:
0
Lượt xem:
178
Show
Lưu ý trước khi bắt đầuNhư đã nói, bạn có thể bookmark lại bài viết này vào trình duyệt yêu thích của bạn, khi cần tìm một đoạn code nào đó, bạn có thể bấm Ctrl + F hoặc ⌘ + F (trên Mac) Để sử dụng được các đoạn code trong bài này, chúng ta có phần import như sau và chúng ta có các đối tượng với tên ngắn gọn như sau:
Cách đọc dữ liệu trong Pandas PythonCác câu lệnh trong phần này giúp bạn có thể load hay import dữ liệu từ nhiều nguồn và nhiều dạng dữ liệu khác nhauCách đọc dữ liệu từ một file CSV
Cách đọc dữ liệu từ một file TSV
Cách đọc dữ liệu từ một file Excel
Cách đọc dữ liệu từ một cơ sở dữ liệu SQL
Cách đọc dữ liệu từ nguồn JSON (file, string hoặc URL)
Cách đọc dữ liệu từ nguồn HTML (file, string hoặc URL)
Cách đọc dữ liệu từ Clipboard Nội dung của Clipboard sẽ được chuyển tới 7Cách đọc dữ liệu từ kiểu từ điển trong Python
Cách xuất dữ liệu từ Pandas DataFrameTrong phần này, chúng ta sẽ tổng hợp một số cách xuất dữ liệu từ Pandas DataFrame ra một số nguồn thông dụngCách xuất dữ liệu từ DataFrame ra file CSV
Cách xuất dữ liệu từ DataFrame ra file Excel 0Cách xuất dữ liệu từ DataFrame ra SQL 1Cách xuất dữ liệu từ DataFrame ra JSON 2Cách tạo ra dữ liệu testNhững dòng code trong phần này sẽ giúp bạn tạo ra dữ liệu test với sự giúp đỡ của thư viện NumpyCách tạo bảng dữ liệu test với Numpy và PandasĐoạn code này sẽ tạo ra một bảng gồm 23 dòng và 4 cột, được điền vào những giá trị ngẫu nhiên từ Numpy 3Cách tạo ra series từ một list 4Cách thêm index là cột ngày tháng 5Cách xem và kiểm tra dữ liệuNhững câu lệnh trong phần này sẽ giúp bạn kiểm tra DataFrame hoặc Series trong Panda theo một vị trí cụ thể.Cách xem n dòng đầu tiên của DataFrame 6Cách xem n dòng cuối cùng của DataFrame 7Cách lấy số dòng số cột của DataFrame 8Cách lấy số dòng số cột của DataFrame 8Xem thông tin về Index, kiểu dữ liệu và dung lượng của DataFrame 0Tổng kết thông tin thống kê cho các cột có kiểu dữ liệu là số 1Xem giá trị duy nhất và đếm số giá trị này, đếm cả trường hợp NALưu ý Áp dụng cho đối tượng Series 2Tổng kết giá trị duy nhất và đếm cho tất cả các cột 3Trích xuất một phần dữ liệu trong Pandas DataFrameNhững câu lệnh trong phần này sẽ giúp bạn trích xuất dữ liệu từ DataFrame hoặc Series trong PandasTrả về một cột của DataFrame dưới dạng SeriesTrả về cột có label là col như một Series 4Trả về các cột trong danh sách dưới dạng một DataFrame mới 5Chọn dữ liệu theo vị trí 6Chọn dữ liệu theo index 7Chọn dữ liệu ở dòng đầu tiên 8Chọn dữ liệu ở dòng đầu tiên, ô thứ nhất của DataFrame 9Cách làm sạch dữ liệu trong Pandas DataFrameCác đoạn code trong phần này sẽ giúp bạn xử lý và làm sạch dữ liệuĐổi tên các cột trong DataFrame theo thứ tự 0Kiểm tra dữ liệu với giá trị null 1Kiểm tra dữ liệu với giá trị khác null 2Cách bỏ toàn bộ dòng có dữ liệu null 3Cách bỏ toàn bộ cột có dữ liệu null 4Cách bỏ các dòng có nhiều hơn n giá trị null 5Cách thay toàn bộ giá trị null bằng giá trị x 6Cách thay toàn bộ giá trị null bằng giá trị khácThay giá trị null trong Series bởi giá trị mean của các giá trị trong Series (mean có thể thay được bởi các hàm khác trong module statistics của Python) 7Cách chuyển đổi kiểu dữ liệu của Series sang Float 8Cách thay giá trị này bởi giá trị khácThay tất cả các giá trị bằng 8 bởi 9 9Cách thay nhiều giá trị cùng lúc 0Cách đổi tên cột hàng loạt bằng lambda 1Cách đổi tên cột cụ thể trong DataFrame 2Cách đổi index trong DataFrame 3Cách đổi index hàng loạt trong DataFrame 4Cách lọc, sắp xếp, nhóm dữ liệu trong Pandas DataFrameCác câu lệnh trong phần này sẽ giúp bạn thực hiện các thao tác lọc, sắp xếp hay nhóm dữ liệu trong DataFrame một cách dễ dàngLọc dữ liệu theo điều kiệnLọc ra các dòng thỏa mãn điều kiện 0 lớn hơn 1 5Lọc ra các dòng thỏa mãn điều kiện: có giá trị cột 0 trong khoảng 3 đến 4 6Sắp xếp dữ liệuSắp xếp dữ liệu trong cột 5 theo chiều thuận (ascending) 7Sắp xếp dữ liệu trong cột 6 theo chiều nghịch (descending) 8Sắp xếp 5 theo chiều thuận và 6 theo chiều nghịch 9Nhóm dữ liệu, pivot dữ liệu với groupbyPivot dữ liệu theo 5 0Pivot dữ liệu theo nhiều cột 5, 6Pivot dữ liệu với pivot_table trong DataFrameTạo một Pivot Table, nhóm dữ liệu theo cột 5, tính mean của 6, 4 1Tính mean của tất cả các cột 2Tính max mỗi dòngÁp dụng hàm np.max() cho mỗi dòng dữ liệu 3Nối dữ liệu, gộp dữ liệu bằng Pandas DataFrameNối dữ liệu DataFrame theo chiều dọcNối các dòng của 5 xuống dưới 6 (Số lượng các cột trong 2 DataFrames này phải giống nhau) 4Nối dữ liệu DataFrame theo chiều ngangNối các cột của 5 sang phải các cột của 6 (Số lượng các dòng trong 2 DataFrames này phải giống nhau) 5Join dữ liệu 2 DataFrames theo kiểu SQL 6Join 2 DataFrame 5 và 6 theo cột chung 5, kiểu Join là 2. Ngoài ra còn hỗ trợ các kiểu join: 3, 4, 5Thống kê dữ liệu bằng Pandas DataFrameThống kê dữ liệu cho các cột số 1Tính mean cho tất cả các cột 8Tính correlation giữa các cột 9Đếm số giá trị không null cho các cột 0Tìm giá trị lớn nhất cho mỗi cột 1Tìm giá trị nhỏ nhất cho mỗi cột 2Tìm giá trị median cho mỗi cột 3Tìm giá trị độ lệch tiêu chuẩn cho mỗi cột 4Hi vọng với bài viết này, Thanh sẽ giúp bạn làm việc dễ dàng hơn với DataFrame trong Pandas. Đừng quên tham khảo khóa học Lập trình tương tác Python Excel chìa khóa tối ưu công việc |