Đọc file Excel [phần mở rộng. xlsx,. xls] với Python Pandas. Để đọc tệp excel dưới dạng DataFrame, hãy sử dụng phương pháp pandas
12
2
3
4
5
Bạn có thể đọc trang đầu tiên, trang cụ thể, nhiều trang hoặc tất cả các trang. Pandas chuyển đổi cấu trúc này thành cấu trúc DataFrame, đây là cấu trúc dạng bảng
khóa học liên quan. Phân tích dữ liệu với Python Pandas
Excel
Trong bài viết này, chúng tôi sử dụng một tệp Excel ví dụ. Các chương trình chúng tôi sẽ thực hiện để đọc Excel thành Python
Tạo một file excel gồm 2 sheet sheet1 và sheet2. Bạn có thể sử dụng bất kỳ chương trình hỗ trợ Excel nào như Microsoft Excel hoặc Google Sheets
Nội dung của từng cái như sau
tờ1
tờ2
Cài đặt xlrd
gấu trúc. . read_excel một. ] sử dụng thư viện có tên xlrd trong nội bộ
xlrd là một thư viện để đọc [nhập] tệp Excel [. xlsx,. xls] bằng Python
bài viết liên quan. Cách dùng xlrd, xlwt đọc ghi file Excel bằng Python
Nếu bạn gọi gấu trúc. read_excel s[] trong môi trường chưa cài đặt xlrd, bạn sẽ nhận được thông báo lỗi tương tự như sau
Nhập Lỗi. Cài đặt xlrd >= 0. 9. 0 để được hỗ trợ Excel
xlrd có thể được cài đặt bằng pip. [pip3 tùy thuộc vào môi trường]
1
$ pip install xlrd
đọc excel
Chỉ định đường dẫn hoặc URL của tệp Excel trong đối số đầu tiên.
Nếu có nhiều trang tính, gấu trúc chỉ sử dụng trang tính đầu tiên.
Nó đọc là DataFrame.
1
2
3
4
5
import pandas as pd
df = pd.read_excel['sample.xlsx']
print[df]
Đoạn code trên xuất ra nội dung sheet excel
1
2
3
4
Unnamed: 0 A B C
0 one 11 12 13
1 two 21 22 23
2 three 31 32 33
Nhận trang tính
Bạn có thể chỉ định trang tính để đọc với đối số sheet_name
Chỉ định theo số [bắt đầu từ 0]
1
2
3
df_sheet_index = pd.read_excel['sample.xlsx', sheet_name=1]
print[df_sheet_index]
1
2
3
4
10
Chỉ định theo tên trang tính
1
2
3
$ pip install xlrd1____5
10
Tải nhiều tờ
Cũng có thể chỉ định một danh sách trong đối số sheet_name. Nó là OK ngay cả khi nó là một số 0 bắt đầu hoặc tên trang tính
Số hoặc tên trang tính được chỉ định là khóa chính và gấu trúc dữ liệu. DataFrame được đọc dưới dạng từ điển được đặt hàng OrderedDict với giá trị giá trị
Tìm hiểu cách nhập tệp Excel [có. xlsx] bằng cách sử dụng gấu trúc python
Pandas là gói thao tác dữ liệu phổ biến nhất trong Python và DataFrames là loại dữ liệu Pandas để lưu trữ dữ liệu 2D dạng bảng. Đọc dữ liệu từ tệp excel hoặc tệp CSV và ghi dữ liệu vào tệp Excel hoặc tệp CSV bằng Python Pandas là kỹ năng cần thiết cho bất kỳ nhà phân tích hoặc nhà khoa học dữ liệu nào
Mục lục
1. Pandas read_excel[] Cú pháp
Cú pháp của hàm DataFrame to_excel[] và một số tham số quan trọng là
đường dẫn tệp từ nơi bạn muốn đọc dữ liệu. Đây có thể là đường dẫn URL hoặc, có thể là đường dẫn tệp hệ thống cục bộ. Lược đồ URL hợp lệ bao gồm http, ftp, s3 và tệp. 2sheet_name. str, int, list hoặc Không có, mặc định 0
Các trường hợp khả dụng.
~Mặc định là
161. Trang tính đầu tiên dưới dạng Khung dữ liệu
~Sử dụng
162. Để đọc trang thứ 2 dưới dạng Khung dữ liệu
~Sử dụng Tên trang cụ thể.
163 để tải trang tính có tên “Sheet1”
~Tải nhiều trang tính bằng dict.
164 sẽ tải trang đầu tiên, thứ ba và trang tính có tên “MySheet” dưới dạng từ điển của DataFrame
~None. Load All sheet3header
mặc định là 0. Vượt qua Header = 1 để coi dòng thứ hai của tập dữ liệu là tiêu đề. Sử dụng Không có nếu không có tiêu đề. 4usecols
~Mặc định là
165, sau đó phân tích cú pháp tất cả các cột.
~Nếu
166, hãy cung cấp danh sách các cột Excel [“A, B, D, E”] hoặc phạm vi cột Excel [e. g. "MỘT. F” hoặc “A, B, E. f”]. Phạm vi bao gồm cả hai bên.
~Nếu
167, cho biết danh sách các số cột sẽ được phân tích cú pháp e. g. [1,2,5].
~Nếu
168, hãy cung cấp danh sách tên cột sẽ được phân tích cú pháp e. g. [“A, B, D, E”]. 5 mũi tên.
Mặc định là
165
Số hàng để phân tích [cung cấp int]. Python Pandas read_excel[] Cú pháp
Để biết danh sách đầy đủ các tham số read_excel, hãy tham khảo tài liệu chính thức
2. Nhập tệp Excel bằng Python Pandas
Hãy xem lại một ví dụ đầy đủ
- Tạo DataFrame từ đầu và lưu dưới dạng Excel
- Nhập [hoặc tải] DataFrame từ tệp Excel đã lưu ở trên
16
Ta có dữ liệu sau về sinh viên
first_nameđộ tuổi0SamPhD251ZivaMBA292Kia193RobinMS21Đọc tệp Excel vào Pandas DataFrame [Đã giải thích]
Bây giờ, hãy xem các bước để nhập tệp Excel vào DataFrame
Bước 1. Nhập đường dẫn và tên tệp nơi lưu trữ tệp Excel. Có thể là đường dẫn tệp hệ thống cục bộ hoặc đường dẫn URL
Ví dụ,
pd. read_excel[r‘ D. \Python\Tutorial\Ví dụ1. csv ‘]
Lưu ý rằng đường dẫn được đánh dấu bằng 3 màu khác nhau
- Phần màu xanh lam biểu thị đường dẫn lưu tệp Excel.
- Phần màu xanh lá cây là tên của tệp bạn muốn nhập.
- Phần màu tím biểu thị loại tệp hoặc phần mở rộng tệp Excel. Sử dụng '. xlsx’ trong trường hợp là tệp Excel.
Sửa đổi mã Python ở trên để phản ánh đường dẫn lưu trữ tệp Excel trên máy tính của bạn
Ghi chú. Bạn có thể lưu hoặc đọc tệp Excel mà không cần cung cấp rõ ràng đường dẫn tệp [ phần màu xanh dương ] bằng cách đặt tệp vào thư mục làm việc hiện tại. Để tìm đường dẫn thư mục hiện tại, hãy sử dụng mã bên dưới.
$ pip install xlrd6
$ pip install xlrd7
Tìm hiểu cách đọc nhiều tệp trong một thư mục [thư mục] tại đây
Bước 2. Nhập mã sau và thực hiện các thay đổi cần thiết đối với đường dẫn của bạn để đọc tệp Excel
$ pip install xlrd8
Ảnh chụp biểu diễn dữ liệu trong tệp Excel
Ở bên trái của hình ảnh Tệp Excel được mở trong Microsoft Excel. Ở phía bên phải, cùng một tệp Excel được mở trong Jupyter Notebook bằng pandas read_excel
3. Pandas read_excel Ví dụ về các thông số quan trọng
3. 1 Nhập trang tính Excel cụ thể bằng Python Pandas
Có thể có nhiều Sheet trong một file Excel. Pandas cung cấp nhiều phương pháp khác nhau để nhập một hoặc nhiều trang tính excel trong tham số
$ pip install xlrd60
- Mặc định là
1
61. Đọc trang tính đầu tiên trong Excel dưới dạng DataFrame - Sử dụng
1
62. Để đọc trang thứ 2 dưới dạng DataFrame - Sử dụng tên trang tính cụ thể.
1
63 để tải sheet có tên “Sheet1” - Tải nhiều trang tính bằng dict.
1
64 sẽ tải trang đầu tiên, thứ ba và trang tính có tên “MySheet” dưới dạng từ điển của DataFrame - Không có. Tải tất cả các tờ
1. Nhập trang tính Excel bằng số nguyên
Theo mặc định,
$ pip install xlrd65 nhập trang tính đầu tiên trong Excel dưới dạng DataFrame. Để nhập Bảng tính Excel thứ hai tôi. e. "Thông tin về lương" trong trường hợp của chúng tôi dưới dạng Pandas DataFrame sử dụng
$ pip install xlrd66
16first_name lương0Sam1200001Ziva800002Kia1100003Robin150000
2
3
4
5
2. Nhập trang tính Excel cụ thể bằng Tên trang tính
Để nhập Bảng tính Excel cụ thể i. e. "Thông tin cá nhân" dưới dạng Khung dữ liệu Pandas bằng cách sử dụng
$ pip install xlrd67
18first_nameđộ tuổi0SamPhD251ZivaMBA292KiaNaN193RobinMS21
2
3
4
5
3. Nhập nhiều trang tính Excel vào Pandas DataFrame
Có thể đọc nhiều Trang tính Excel vào Pandas DataFrame bằng cách chuyển danh sách trong tham số
$ pip install xlrd60 e. g. [0, “Thông tin lương”] sẽ tải trang tính đầu tiên và trang tính có tên “Thông tin lương” dưới dạng từ điển của DataFrame
import pandas as pd0
df = pd.read_excel['sample.xlsx']
print[df]
Bây giờ để lưu trữ các trang tính khác nhau vào các Khung dữ liệu khác nhau, hãy sử dụng Giá trị khóa từ điển
import pandas as pd1
df = pd.read_excel['sample.xlsx']
print[df]
3. 2 Chỉ nhập n Hàng của Trang tính Excel bằng Pandas
Đôi khi tệp Excel khá lớn hoặc hệ thống của chúng tôi có giới hạn về bộ nhớ. Trong trường hợp này, chúng tôi chỉ có thể nhập n hàng trên cùng của Trang tính Excel bằng tham số Pandas read_excel
$ pip install xlrd69. Ví dụ: để chỉ nhập 2 hàng trên cùng, hãy sử dụng
$ pip install xlrd70
import pandas as pd4first_nameđộ tuổi0SamPhD251ZivaMBA29
df = pd.read_excel['sample.xlsx']
print[df]
3. 3 Nhập các cột cụ thể của Bảng tính Excel
Có thể có hàng trăm cột trong bảng excel, nhưng khi nhập chúng ta chỉ cần vài cột. Trong trường hợp này, chúng ta có thể truyền tham số
$ pip install xlrd71. Dưới đây là các cách khác nhau để sử dụng tham số
$ pip install xlrd71
- Mặc định là
1
65, phân tích cú pháp tất cả các cột - Nếu
1
66, thì hãy cung cấp danh sách các cột Excel [“A, B, D, E”] hoặc phạm vi cột Excel [e. g. "MỘT. F” hoặc “A, B, E. f”]. Phạm vi bao gồm cả hai bên - Nếu
1
67, cho biết danh sách các số cột sẽ được phân tích cú pháp e. g. [0,2,5] - Nếu
1
68, hãy cung cấp danh sách tên cột sẽ được phân tích cú pháp e. g. [“A, B, D, E”]
160first_nameage0Sam251Ziva292Kia193Robin21
4. Các lỗi thường gặp và cách khắc phục sự cố
Liệt kê lỗi phổ biến mà bạn có thể gặp phải khi tải dữ liệu từ tệp CSV vào khung dữ liệu Pandas sẽ là