Bảng tính Excel là một trong những dạng tệp phổ biến nhất trong ngành CNTT. Tất cả những người sử dụng máy tính lúc này hay lúc khác đều đã bắt gặp và làm việc với bảng tính excel. Sự phổ biến này của excel là do phạm vi ứng dụng rộng lớn của nó trong lĩnh vực lưu trữ và thao tác dữ liệu ở dạng bảng và có hệ thống. Hơn nữa, các trang tính excel rất bản năng và thân thiện với người dùng, điều này khiến nó trở nên lý tưởng để thao tác với các tập dữ liệu lớn ngay cả đối với những người ít kỹ thuật hơn. Nếu bạn đang tìm kiếm nơi để học cách thao tác và tự động hóa nội dung trong tệp excel bằng Python, thì không còn gì nữa. Bạn đang ở đúng nơi
Trong bài viết này, bạn sẽ học cách sử dụng Pandas để làm việc với bảng tính Excel. Vào cuối bài viết, bạn sẽ có kiến thức về
- Các mô-đun cần thiết cho việc này và cách thiết lập chúng trong hệ thống của bạn
- Đọc dữ liệu từ tệp excel vào gấu trúc bằng Python
- Khám phá dữ liệu từ tệp excel trong Pandas
- Sử dụng các chức năng để thao tác và định hình lại dữ liệu trong Pandas
Cài đặt
Để cài đặt pandas trong Anaconda, chúng ta có thể sử dụng lệnh sau trong Anaconda Terminal
conda install pandas
Để cài đặt gấu trúc trong Python thông thường [Không phải Anaconda], chúng ta có thể sử dụng lệnh sau trong dấu nhắc lệnh
pip install pandas
Bắt đầu
Trước hết, chúng ta cần nhập mô-đun pandas có thể được thực hiện bằng cách chạy lệnh
pip install pandas3
pip install pandas4
Tệp đầu vào. Giả sử tệp excel trông như thế này
tờ 1
tờ 2
Bây giờ chúng ta có thể nhập tệp excel bằng hàm read_excel trong gấu trúc, như hình bên dưới
pip install pandas5
pip install pandas6
pip install pandas7______18
pip install pandas9
pip install pandas0_______16
pip install pandas1____15
pip install pandas9
pip install pandas0
đầu ra
Câu lệnh thứ hai đọc dữ liệu từ excel và lưu trữ nó vào Khung dữ liệu gấu trúc được biểu thị bằng biến
pip install pandas0. Nếu bảng tính excel có nhiều sheet thì lệnh sẽ nhập dữ liệu của sheet đầu tiên. Để tạo một khung dữ liệu với tất cả các trang tính trong sổ làm việc, phương pháp đơn giản nhất là tạo các khung dữ liệu khác nhau một cách riêng biệt rồi nối chúng lại. Phương thức read_excel lấy đối số
pip install pandas6 và
pip install pandas7 trong đó chúng ta có thể chỉ định trang tính mà khung dữ liệu sẽ được tạo và
pip install pandas7 chỉ định cột tiêu đề
Thí dụ
pip install pandas9
pip install pandas6
pip install pandas1____15
pip install pandas33
pip install pandas34
pip install pandas6
pip install pandas6
pip install pandas37
pip install pandas33
pip install pandas34
pip install pandas7
pip install pandas6
pip install pandas37
pip install pandas9
pip install pandas44
pip install pandas45
pip install pandas6
pip install pandas1____15
pip install pandas33
pip install pandas34
pip install pandas6
pip install pandas6
pip install pandas53
pip install pandas33
pip install pandas34
pip install pandas7
pip install pandas6
pip install pandas37
pip install pandas9
pip install pandas44
pip install pandas0
pip install pandas6
pip install pandas63
Câu lệnh thứ ba nối cả hai trang tính. Bây giờ để kiểm tra toàn bộ khung dữ liệu, chúng ta chỉ cần chạy lệnh sau
pip install pandas0
đầu ra
Để xem 5 cột từ trên xuống và từ dưới lên của khung dữ liệu ta chạy lệnh
pip install pandas65
pip install pandas66
đầu ra
Phương thức
pip install pandas67 và
pip install pandas68 này cũng lấy đối số làm số cho số cột hiển thị.
Có thể dùng phương thức
pip install pandas69 để xem số hàng và số cột trong khung dữ liệu như sau.
pip install pandas70
đầu ra
Nếu bất kỳ cột nào chứa dữ liệu số, chúng tôi có thể sắp xếp cột đó bằng cách sử dụng phương thức
pip install pandas71 trong pandas như sau
pip install pandas72
pip install pandas6
pip install pandas74
pip install pandas75
pip install pandas76
pip install pandas6
pip install pandas78
pip install pandas9
Bây giờ, giả sử chúng ta muốn 5 giá trị hàng đầu của cột được sắp xếp, chúng ta có thể sử dụng phương thức
pip install pandas67 tại đây
pip install pandas81
pip install pandas75
pip install pandas83
pip install pandas84
pip install pandas9
đầu ra
Chúng ta có thể làm điều đó với bất kỳ cột số nào của khung dữ liệu như hình bên dưới
pip install pandas86____187
pip install pandas88
đầu ra
Bây giờ, giả sử dữ liệu của chúng tôi chủ yếu là số. Chúng tôi có thể lấy thông tin thống kê như giá trị trung bình, tối đa, tối thiểu, v.v. về khung dữ liệu bằng cách sử dụng phương pháp
pip install pandas89 như hình bên dưới
pip install pandas90
đầu ra
Điều này cũng có thể được thực hiện riêng cho tất cả các cột số bằng lệnh sau
pip install pandas86____187
pip install pandas93
đầu ra
Thông tin thống kê khác cũng có thể được tính bằng các phương pháp tương ứng.
Giống như trong excel, các công thức cũng có thể được áp dụng và các cột được tính có thể được tạo như sau.
pip install pandas86
pip install pandas95
pip install pandas96
pip install pandas6
pip install pandas98
pip install pandas99
pip install pandas00
pip install pandas86____195____188
đầu ra
Sau khi thao tác trên dữ liệu trong khung dữ liệu, chúng ta có thể xuất dữ liệu trở lại tệp excel bằng phương pháp
pip install pandas04. Đối với điều này, chúng ta cần chỉ định một tệp excel đầu ra nơi dữ liệu được chuyển đổi sẽ được ghi, như được hiển thị bên dưới