Bạn có thể nhập tệp XLSX bằng Python không?

Đọc file Excel [phần mở rộng. xlsx,. xls] với Python Pandas. Để đọc tệp excel dưới dạng DataFrame, hãy sử dụng phương pháp pandas

1
2
3
4
5
2

Bạn có thể đọc trang đầu tiên, trang cụ thể, nhiều trang hoặc tất cả các trang. Pandas chuyển đổi cấu trúc này thành cấu trúc DataFrame, đây là cấu trúc dạng bảng

khóa học liên quan. Phân tích dữ liệu với Python Pandas

Excel

Trong bài viết này, chúng tôi sử dụng một tệp Excel ví dụ. Các chương trình chúng tôi sẽ thực hiện để đọc Excel thành Python

Tạo một file excel gồm 2 sheet sheet1 và sheet2. Bạn có thể sử dụng bất kỳ chương trình hỗ trợ Excel nào như Microsoft Excel hoặc Google Sheets

Nội dung của từng cái như sau

tờ1

tờ2

Cài đặt xlrd

gấu trúc. . read_excel một. ] sử dụng thư viện có tên xlrd trong nội bộ

xlrd là một thư viện để đọc [nhập] tệp Excel [. xlsx,. xls] bằng Python

bài viết liên quan. Cách dùng xlrd, xlwt đọc ghi file Excel bằng Python

Nếu bạn gọi gấu trúc. read_excel s[] trong môi trường chưa cài đặt xlrd, bạn sẽ nhận được thông báo lỗi tương tự như sau

Nhập Lỗi. Cài đặt xlrd >= 0. 9. 0 để được hỗ trợ Excel

xlrd có thể được cài đặt bằng pip. [pip3 tùy thuộc vào môi trường]

1
$ pip install xlrd

đọc excel

Chỉ định đường dẫn hoặc URL của tệp Excel trong đối số đầu tiên.
Nếu có nhiều trang tính, gấu trúc chỉ sử dụng trang tính đầu tiên.
Nó đọc là DataFrame.

1
2
3
4
5
import pandas as pd

df = pd.read_excel['sample.xlsx']

print[df]

Đoạn code trên xuất ra nội dung sheet excel

1
2
3
4
  Unnamed: 0   A   B   C
0 one 11 12 13
1 two 21 22 23
2 three 31 32 33

Nhận trang tính

Bạn có thể chỉ định trang tính để đọc với đối số sheet_name

Chỉ định theo số [bắt đầu từ 0]

1
2
3
df_sheet_index = pd.read_excel['sample.xlsx', sheet_name=1]

print[df_sheet_index]
1
2
3
4
1
0

Chỉ định theo tên trang tính

1
2
3
$ pip install xlrd
1____5
1
0

Tải nhiều tờ

Cũng có thể chỉ định một danh sách trong đối số sheet_name. Nó là OK ngay cả khi nó là một số 0 bắt đầu hoặc tên trang tính

Số hoặc tên trang tính được chỉ định là khóa chính và gấu trúc dữ liệu. DataFrame được đọc dưới dạng từ điển được đặt hàng OrderedDict với giá trị giá trị

Tìm hiểu cách nhập tệp Excel [có. xlsx] bằng cách sử dụng gấu trúc python

Pandas là gói thao tác dữ liệu phổ biến nhất trong Python và DataFrames là loại dữ liệu Pandas để lưu trữ dữ liệu 2D dạng bảng. Đọc dữ liệu từ tệp excel hoặc tệp CSV và ghi dữ liệu vào tệp Excel hoặc tệp CSV bằng Python Pandas là kỹ năng cần thiết cho bất kỳ nhà phân tích hoặc nhà khoa học dữ liệu nào

Mục lục

1. Pandas read_excel[] Cú pháp

Cú pháp của hàm DataFrame to_excel[] và một số tham số quan trọng là

____15Sr. NoParameters Description1io
đường dẫn tệp từ nơi bạn muốn đọc dữ liệu. Đây có thể là đường dẫn URL hoặc, có thể là đường dẫn tệp hệ thống cục bộ. Lược đồ URL hợp lệ bao gồm http, ftp, s3 và tệp. 2sheet_name. str, int, list hoặc Không có, mặc định 0
Các trường hợp khả dụng.
~Mặc định là 
1
61. Trang tính đầu tiên dưới dạng Khung dữ liệu
~Sử dụng
1
62. Để đọc trang thứ 2 dưới dạng Khung dữ liệu
~Sử dụng Tên trang cụ thể.
1
63 để tải trang tính có tên “Sheet1”
~Tải nhiều trang tính bằng dict.
1
64 sẽ tải trang đầu tiên, thứ ba và trang tính có tên “MySheet” dưới dạng từ điển của DataFrame
~None. Load All sheet3header
mặc định là 0. Vượt qua Header = 1 để coi dòng thứ hai của tập dữ liệu là tiêu đề. Sử dụng Không có nếu không có tiêu đề. 4usecols
~Mặc định là
1
65, sau đó phân tích cú pháp tất cả các cột.
~Nếu
1
66, hãy cung cấp danh sách các cột Excel [“A, B, D, E”] hoặc phạm vi cột Excel [e. g. "MỘT. F” hoặc “A, B, E. f”]. Phạm vi bao gồm cả hai bên.
~Nếu
1
67, cho biết danh sách các số cột sẽ được phân tích cú pháp e. g. [1,2,5].
~Nếu
1
68, hãy cung cấp danh sách tên cột sẽ được phân tích cú pháp e. g. [“A, B, D, E”]. 5 mũi tên.
Mặc định là
1
65
Số hàng để phân tích [cung cấp int]. Python Pandas read_excel[] Cú pháp

Để biết danh sách đầy đủ các tham số read_excel, hãy tham khảo tài liệu chính thức

2. Nhập tệp Excel bằng Python Pandas

Hãy xem lại một ví dụ đầy đủ

  • Tạo DataFrame từ đầu và lưu dưới dạng Excel
  • Nhập [hoặc tải] DataFrame từ tệp Excel đã lưu ở trên
1
6

Ta có dữ liệu sau về sinh viên

first_nameđộ tuổi0SamPhD251ZivaMBA292Kia193RobinMS21

Đọc tệp Excel vào Pandas DataFrame [Đã giải thích]

Bây giờ, hãy xem các bước để nhập tệp Excel vào DataFrame

Bước 1. Nhập đường dẫn và tên tệp nơi lưu trữ tệp Excel. Có thể là đường dẫn tệp hệ thống cục bộ hoặc đường dẫn URL

Ví dụ,

 pd. read_excel[r‘ D. \Python\Tutorial\Ví dụ1. csv ‘]

Lưu ý rằng đường dẫn được đánh dấu bằng 3 màu khác nhau

  • Phần  màu xanh lam  biểu thị đường dẫn lưu tệp Excel.
  • Phần màu xanh lá cây là tên của tệp bạn muốn nhập.
  • Phần  màu tím  biểu thị loại tệp hoặc phần mở rộng tệp Excel. Sử dụng '. xlsx’ trong trường hợp là tệp Excel.

Sửa đổi mã Python ở trên để phản ánh đường dẫn lưu trữ tệp Excel trên máy tính của bạn

Ghi chú. Bạn có thể lưu hoặc đọc tệp Excel mà không cần cung cấp rõ ràng đường dẫn tệp [ phần màu xanh dương ] bằng cách đặt tệp vào thư mục làm việc hiện tại. Để tìm đường dẫn thư mục hiện tại, hãy sử dụng mã bên dưới.

$ pip install xlrd
6
$ pip install xlrd
7

Tìm hiểu cách đọc nhiều tệp trong một thư mục [thư mục] tại đây

Bước 2. Nhập mã sau và thực hiện các thay đổi cần thiết đối với đường dẫn của bạn để đọc tệp Excel

$ pip install xlrd
8

Ảnh chụp biểu diễn dữ liệu trong tệp Excel

Ở bên trái của hình ảnh Tệp Excel được mở trong Microsoft Excel. Ở phía bên phải, cùng một tệp Excel được mở trong Jupyter Notebook bằng pandas read_excel

3. Pandas read_excel Ví dụ về các thông số quan trọng

3. 1 Nhập trang tính Excel cụ thể bằng Python Pandas

Ví dụ 1. xlsx Trang tính “Thông tin cá nhân”

Ví dụ 1. xlsx Bảng “Thông tin lương”

Có thể có nhiều Sheet trong một file Excel. Pandas cung cấp nhiều phương pháp khác nhau để nhập một hoặc nhiều trang tính excel trong tham số

$ pip install xlrd
60

  • Mặc định là 
    1
    61. Đọc trang tính đầu tiên trong Excel dưới dạng DataFrame
  • Sử dụng
    1
    62. Để đọc trang thứ 2 dưới dạng DataFrame
  • Sử dụng tên trang tính cụ thể.
    1
    63 để tải sheet có tên “Sheet1”
  • Tải nhiều trang tính bằng dict.
    1
    64 sẽ tải trang đầu tiên, thứ ba và trang tính có tên “MySheet” dưới dạng từ điển của DataFrame
  • Không có. Tải tất cả các tờ

1. Nhập trang tính Excel bằng số nguyên

Theo mặc định,

$ pip install xlrd
65 nhập trang tính đầu tiên trong Excel dưới dạng DataFrame. Để nhập Bảng tính Excel thứ hai tôi. e. "Thông tin về lương" trong trường hợp của chúng tôi dưới dạng Pandas DataFrame sử dụng
$ pip install xlrd
66

1
2
3
4
5
6first_name lương0Sam1200001Ziva800002Kia1100003Robin150000

2. Nhập trang tính Excel cụ thể bằng Tên trang tính

Để nhập Bảng tính Excel cụ thể i. e. "Thông tin cá nhân" dưới dạng Khung dữ liệu Pandas bằng cách sử dụng

$ pip install xlrd
67

1
2
3
4
5
8first_nameđộ tuổi0SamPhD251ZivaMBA292KiaNaN193RobinMS21

3. Nhập nhiều trang tính Excel vào Pandas DataFrame

Có thể đọc nhiều Trang tính Excel vào Pandas DataFrame bằng cách chuyển danh sách trong tham số

$ pip install xlrd
60 e. g. [0, “Thông tin lương”] sẽ tải trang tính đầu tiên và trang tính có tên “Thông tin lương” dưới dạng từ điển của DataFrame

import pandas as pd

df = pd.read_excel['sample.xlsx']

print[df]
0

Bây giờ để lưu trữ các trang tính khác nhau vào các Khung dữ liệu khác nhau, hãy sử dụng Giá trị khóa từ điển

import pandas as pd

df = pd.read_excel['sample.xlsx']

print[df]
1

3. 2 Chỉ nhập n Hàng của Trang tính Excel bằng Pandas

Đôi khi tệp Excel khá lớn hoặc hệ thống của chúng tôi có giới hạn về bộ nhớ. Trong trường hợp này, chúng tôi chỉ có thể nhập n hàng trên cùng của Trang tính Excel bằng tham số Pandas read_excel

$ pip install xlrd
69. Ví dụ: để chỉ nhập 2 hàng trên cùng, hãy sử dụng
$ pip install xlrd
70

import pandas as pd

df = pd.read_excel['sample.xlsx']

print[df]
4first_nameđộ tuổi0SamPhD251ZivaMBA29

3. 3 Nhập các cột cụ thể của Bảng tính Excel

Có thể có hàng trăm cột trong bảng excel, nhưng khi nhập chúng ta chỉ cần vài cột. Trong trường hợp này, chúng ta có thể truyền tham số

$ pip install xlrd
71. Dưới đây là các cách khác nhau để sử dụng tham số
$ pip install xlrd
71

  • Mặc định là
    1
    65, phân tích cú pháp tất cả các cột
  • Nếu
    1
    66, thì hãy cung cấp danh sách các cột Excel [“A, B, D, E”] hoặc phạm vi cột Excel [e. g. "MỘT. F” hoặc “A, B, E. f”]. Phạm vi bao gồm cả hai bên
  • Nếu
    1
    67, cho biết danh sách các số cột sẽ được phân tích cú pháp e. g. [0,2,5]
  • Nếu
    1
    68, hãy cung cấp danh sách tên cột sẽ được phân tích cú pháp e. g. [“A, B, D, E”]
1
60first_nameage0Sam251Ziva292Kia193Robin21

4. Các lỗi thường gặp và cách khắc phục sự cố

Liệt kê lỗi phổ biến mà bạn có thể gặp phải khi tải dữ liệu từ tệp CSV vào khung dữ liệu Pandas sẽ là

Python có thể đọc các tệp XLSX không?

OpenPyXL là một thư viện Python được tạo để đọc và ghi các tệp Excel 2010 xlsx/xlsm/xltx/xltm . Nó có thể đọc cả. xlsx và. xlsm, bao gồm hỗ trợ biểu đồ, đồ thị và các hình ảnh hóa dữ liệu khác.

Gấu trúc có đọc được XLSX không?

Đọc tệp Excel vào DataFrame của gấu trúc. Hỗ trợ các phần mở rộng tệp xls , xlsx , xlsm , xlsb , odf , ods và odt đọc từ hệ thống tệp cục bộ hoặc URL.

Python có thể làm việc với các tệp Excel không?

Các nhà phát triển Python đã triển khai các cách để đọc, viết và thao tác với tài liệu Excel . Khóa học Lập trình Python do người hướng dẫn là một cách hay để có kinh nghiệm thực hành sử dụng excel trong Python.

Openpyxl có hoạt động với Xlsx không?

openpyxl là một thư viện Python để đọc/ghi các tệp Excel 2010 xlsx/xlsm/xltx/xltm .

Chủ Đề