Dữ liệu đã trở thành huyết mạch của hầu hết mọi doanh nghiệp. Mọi doanh nghiệp đều muốn một số ứng dụng hoặc cơ chế để tổ chức dữ liệu ở định dạng phù hợp. Dữ liệu được lưu trữ ở dạng bảng trong các tệp như. xlsx, xls, v.v. Đọc dữ liệu từ excel, thao tác dữ liệu và trực quan hóa dữ liệu là những nguyên tắc cơ bản để xử lý khoa học dữ liệu
Với sự trợ giúp của một số tập lệnh Python nhỏ, việc sắp xếp dữ liệu ở định dạng bảng rất dễ dàng. Với hai ba dòng mã, chúng tôi có thể sắp xếp dữ liệu nhưng yêu cầu các mô-đun tích hợp cụ thể. Bài viết này sẽ phục vụ cho một số mô-đun tuyệt vời cần có để đọc tệp excel trong Python
Các cách khác nhau để đọc tệp Excel
Có nhiều gói xây dựng trong python sử dụng dữ liệu đọc để đọc tệp excel. Một số trong số họ là như
Với ba mô-đun này, dữ liệu có thể được đọc ở các định dạng khác nhau
Đọc tệp excel bằng gói gấu trúc trong python
Pandas là một gói tích hợp trong python được sử dụng để thao tác dữ liệu. Với gói của gấu trúc, dữ liệu có thể được đọc từ tệp excel ở dạng khung dữ liệu. Với chức năng "read_excel" tích hợp và chuyển vị trí của dữ liệu tệp excel có thể được đọc
cú pháp
DataFrame = pandas.read_excel["path"]
Chương trình
import pandas as import pd
df = pd.read_excel['table.xlsx']
print[df]
Giải trình
Đầu tiên, chúng tôi nhập gói gấu trúc dưới dạng pd. Với gói pd gọi phương thức read_excel[] bằng cách chuyển vị trí của tệp dưới dạng bảng. xlsx. Dữ liệu được đọc ở dạng khung dữ liệu được lưu trữ dưới dạng biến df. Cuối cùng in biến df
Thừa phần đầu của hồ sơ
Với chức năng sẵn có trong khung dữ liệu "head[]", năm hàng đầu tiên của tệp đầu tiên có thể được đọc. Nó cung cấp một cái nhìn bên ngoài về dữ liệu được lưu trữ trong một tệp excel
Chương trình
import pandas as import pd
df = pd.read_excel['table.xlsx']
df.head[]
Giải trình
Đầu tiên, nhập các gói của gấu trúc dưới dạng pd và đọc tệp excel. Cuối cùng, in phần đầu của khung dữ liệu bằng cách gọi phương thức head
Giá trị vượt quá của các cột cụ thể
Bỏ qua danh sách các giá trị của cột dưới dạng "usecols" bên trong phương thức read_excel dưới dạng tham số. Có thể đọc các cột đã chọn. Nó có thể làm việc với một tập hợp các cột bên trong một bảng. Danh sách có thể chứa các giá trị như 0,1,2. Chỉ định cột thứ nhất, thứ hai và thứ ba, v.v. Danh sách cũng có thể chứa tên cột hoặc kết hợp cả số và tên cột
Chương trình
import pandas as import pd
cols=[0,1,2]
df = pd.read_excel['table.xlsx' , usecols=cols]
df.head[]
Giải trình
Đầu tiên nhập gói gấu trúc dưới dạng d. Lưu trữ danh sách các cột đã chọn dưới dạng 0,1,2 có nghĩa là cột thứ nhất, thứ hai và thứ ba dưới dạng cols. Gọi hàm read_excel bằng cách chuyển vị trí của tệp nơi tệp được lưu trữ và một biến usecols có các giá trị dưới dạng danh sách các số để chọn cột. Cuối cùng in phần đầu của khung dữ liệu
Đang tải tờ
Bỏ qua một tham số "sheet_name" trong bảng đã chọn read_excel có thể được đọc. Theo mặc định, chỉ bảng đầu tiên sẽ được đọc
Chương trình
import pandas as import pd
df = pd.read_excel['table.xlsx' , sheet_name = [0,'table2']]
df.head[ df[table2] ]
Giải trình
Đầu tiên nhập gói gấu trúc dưới dạng pd. Đọc tệp excel bằng phương thức read_excel bằng cách chuyển vị trí của tệp và biến sheet_name lưu trữ danh sách tên trang tính. Cuối cùng in bảng2
Đọc tệp excel bằng mô-đun xlrd trong python
Có thể đọc các tệp Excel bằng mô-đun xlrd trong python ở dạng sổ làm việc. Với phương pháp này, "open_workbook" của các tệp excel mô-đun xlrd có thể được đọc bằng cách chuyển vị trí của tệp trong thư mục nội bộ
Chương trình
import xlrd
path = ["\table2.xlxs"]
workbook = xlrd.open_workbook[path]
sheet = workbook.sheet_by_index[0]
print[sheet.cell_value[0,0]]
Giải trình
Tại đây, trước tiên, hãy nhập mô-đun xlrd . Đặt đường dẫn biến chứa vị trí file excel dạng chuỗi. Tiếp theo, mở công việc bằng phương thức open_workbook của mô-đun xlrd bỏ qua tham số đường dẫn. Đặt chỉ mục cho bảng đầu tiên của tệp excel theo phương thức "sheet_by_index[0]". In giá trị của ô đầu tiên của bảng
Số lượng hàng và cột vượt quá
Bằng các biến " nrows" và "ncols" có thể tìm thấy số lượng hàng và cột trong một bảng
Chương trình
import xlrd
path = ["\table2.xlxs"]
workbook = xlrd.open_workbook[path]
sheet = workbook.sheet_by_index[0]
sheet.cell_value[0,0]
print[sheet.nrows]
print[ncols]
Giải trình
Ở đây chúng tôi đã nhập mô-đun xlrd và tạo sổ làm việc. Tiếp theo, in số hàng và số cột vượt quá giá trị của nrows và ncols
Duyệt bất kỳ hàng hoặc cột nào
Với sự trợ giúp của vòng lặp for, bảng có thể được duyệt qua. Bằng phương pháp "cell_value", mỗi ô có thể thừa bằng cách bỏ qua số hàng và số cột của ô
Chương trình
import xlrd
path=["\table2.xlxs"]
workbook = xlrd.open_workbook[path]
sheet = workbook.sheet_by_index[0]
sheet.cell_value[0,0]
print["First Columns:"]
for I in range[sheet.nrows]:
print[sheet.cell_value[i,0]]
print["First Row::"]
for i in range[sheet.ncols]:
print[sheet.cell_value[0,i]]
Giải trình
Ở đây, Đầu tiên, duyệt qua các cột đầu tiên của bảng bằng vòng lặp for đầu tiên. tờ giấy. cell_value[x, y] cung cấp giá trị của ô nằm ở số hàng x và số cột y. Thứ hai, đi qua hàng đầu tiên
Đọc tệp excel bằng mô-đun openpyxl trong python
Các tệp Excel cũng có thể được đọc bởi mô-đun openpyxl ở dạng sổ làm việc. Với phương pháp này, tệp excel "load_workbook'' có thể được tải dưới dạng sổ làm việc
Chương trình
________số 8_______Giải trình
Nhập mô-đun openpyxl và tải sổ làm việc bỏ qua kỳ nghỉ của tệp excel dưới dạng tham số. Sau đó, thiết lập một biến bảng tính với bảng đầu tiên của excel. Với sự trợ giúp của vòng lặp for lặp qua các hàng của tệp excel
Phần kết luận
Trong bài viết này, chúng ta tìm hiểu cách đọc file excel bằng Python. Các cách khác nhau để Excel đọc tệp [chẳng hạn như gói pandas, mô-đun xlrd, mô-đun openpyxl]. Làm việc với một tập hợp lớn dữ liệu dạng bảng được lưu trữ trong tệp excel rất khó
Thông thường, các chuyên gia khoa học dữ liệu yêu cầu sử dụng các mô-đun này để sắp xếp bộ dữ liệu của họ trong bảng tính excel để các kỹ sư Máy học có thể tận dụng thời gian. Với sự trợ giúp của các mô-đun sẵn có của Python, việc xử lý bất kỳ lượng dữ liệu lớn nào trở nên rất dễ dàng và hiệu quả