Hôm nay chúng ta ở đây để tìm hiểu về một số phương pháp đọc tệp văn bản bằng Python. Trước khi bắt đầu, hãy đảm bảo Bạn đã cài đặt IDLE shell python và trình cài đặt gói pip. Khác Bạn có thể làm việc trên dấu nhắc lệnh của mình bằng cách làm theo các đoạn mã của chúng tôi
Trước khi bắt đầu, chúng ta hãy xem nhanh những gì
chữ
tập tin làMột tệp văn bản chỉ chứa văn bản và không có định dạng đặc biệt như chữ đậm, chữ nghiêng, hình ảnh, v.v. Các tập tin văn bản được xác định với. txt, như trong ví dụ bên dưới
Chúng ta có thể đọc, ghi và quản lý dữ liệu trong một tệp văn bản theo cách thủ công bằng cách mở nó trên màn hình của chúng tôi. Nhưng hôm nay, chúng ta sẽ học cách đọc cùng một tệp văn bản bằng python. Để làm như vậy, chúng ta cần sử dụng một mô-đun python đặc biệt được gọi là
gấu trúc
mô-đun. Trước khi tìm hiểu sâu hơn, hãy hiểu mô-đun pandas là gìMô-đun gấu trúc
gấu trúc
là một thư viện hoặc mô-đun Python mã nguồn mở cung cấp các công cụ phân tích dữ liệu và cấu trúc dữ liệu hiệu suất cao tích hợp sẵn. Nó được sử dụng tốt nhất để phân tích dữ liệu cùng với hai thư viện python cốt lõi khác-Matplotlib
để trực quan hóa dữ liệu vàNumPy
cho các phép toánChúng tôi sẽ cài đặt mô-đun này giống như mô-đun trước của chúng tôi bằng cách sử dụng trình cài đặt pip như sau
C:\Users\pc> pip install pandas
Đoạn mã trên sẽ cài đặt
gấu trúc
mô-đun cho chúng tôi như sauSử dụng mô-đun gấu trúc này, Chúng tôi sẽ áp dụng hai phương pháp được sử dụng phổ biến nhất để đọc các tệp văn bản của chúng tôi như sau
gấu trúc. read_csv []
gấu trúc. read_fwf[]
Hãy hiểu các phương thức đó bằng cú pháp thích hợp của chúng, sau đó là một số ví dụ trong đoạn mã của chúng tôi
gấu trúc. read_csv []
Các
read_csv[]
phương thức đọc các giá trị trong tệp văn bản, trong đó dấu phân cách là ký tự dấu phẩy. Dấu phân cách là một ký tự xác định phần đầu hoặc phần cuối của một chuỗi ký tự [i. e. gần giống như một dải phân cách]. Cú pháp của phương thức này làdataframe_name = pandas.read_csv[‘filename.txt’, sep=’ ‘, header=None, names=[“Column1”, “Column2”]]
Các tham số trong đoạn mã trên là
- tên tập tin. txt. Vị trí của tệp văn bản sẽ được đọc
- tháng chín. Nó có thể là dấu phẩy, dấu cách đơn, dấu cách kép, v.v. Đó là Dấu phân cách giữa hai thành phần trong một tệp văn bản. Đó là tùy chọn
- tiêu đề. Đây cũng là một trường tùy chọn. Theo mặc định, nó sẽ lấy dòng đầu tiên của tệp văn bản làm tiêu đề. Nếu tệp của chúng tôi không chứa tiêu đề thì chúng tôi có thể áp dụng ”
tiêu đề = Không có
- tên. Chúng ta có thể gán tên cột trong khi nhập tệp văn bản bằng cách sử dụng
tên
đối số Khi không có tiêu đề. Chúng tôi chỉ có thể sử dụng nó khi chúng tôi không có tiêu đề trong tệp văn bản của mình. Vì vậy, nó cũng là một tham số tùy chọn
ví dụ 1
Giả sử Ta có một tệp văn bản như sau
Chúng tôi sẽ đọc tập tin này với
gấu trúc. read_csv []
phương pháp như sau# Importing pandas module as pd import pandas as pd # Read our text file into DataFrame df df = pd.read_csv["C:\\Users\\pc\\Desktop\\folder\\new3.txt"] # Show dataframe print[df]
Đoạn mã trên sẽ cho đầu ra như sau
ví dụ 2
Hãy để chúng tôi lấy một tệp văn bản khác như sau
Như chúng tôi có thể thấy, không có tiêu đề trong tệp văn bản của chúng tôi. Chúng tôi sẽ đọc tập tin này với
gấu trúc. read_csv []
phương thức bằng cách truyền tham số”tiêu đề = Không có
” và chỉ định tên cột là A, B và C như sauimport pandas as pd df = pd.read_csv["C:\Users\pc\Desktop\folder\new2.txt", header=None, names=["A", "B", "C"], sep=" "] print[df]
Đoạn mã trên sẽ cho đầu ra như sau
ví dụ 3
Hãy để chúng tôi lấy một tệp văn bản khác như sau
Chúng tôi sẽ đọc tập tin này với
gấu trúc. read_csv []
phương pháp như sauimport pandas as pd df = pd.read_csv["C:\\Users\\pc\\Desktop\\folder\\new.txt"] print[df]
Trong đoạn mã trên, Chúng tôi đang cố đọc một tệp txt có chứa một bảng. Nó sẽ cho đầu ra sau
Hạn chế phổ biến nhất của việc sử dụng phương pháp này là nó đọc nội dung hạn chế trong một dòng. Vì vậy, trong màn hình đầu ra của chúng tôi, các cột Trang chủ và Lương không hiển thị và hiển thị một phần tương ứng. Để khắc phục vấn đề này, chúng tôi đang sử dụng
gấu trúc. read_fwf[]
phương pháp. Hãy hiểu phương pháp này là tốtgấu trúc. read_fwf[]
Chúng tôi sử dụng phương pháp này để truy cập các tệp văn bản. fwf là viết tắt của fixed-width lines. Chúng tôi sẽ đọc dữ liệu từ các tệp văn bản bằng phương pháp này với pandas. Cái này
read_fef[]
phương pháp đọc nội dung hiệu quả thành các cột riêng biệtHãy để chúng tôi chọn cùng một tệp văn bản và chúng tôi sẽ cố gắng truy cập tệp bằng cách sử dụng một phương pháp khác [i. e