Cách đọc tệp văn bản có dấu phân cách trong gấu trúc python

Hôm nay chúng ta ở đây để tìm hiểu về một số phương pháp đọc tệp văn bản bằng Python. Trước khi bắt đầu, hãy đảm bảo Bạn đã cài đặt IDLE shell python và trình cài đặt gói pip. Khác Bạn có thể làm việc trên dấu nhắc lệnh của mình bằng cách làm theo các đoạn mã của chúng tôi

Trước khi bắt đầu, chúng ta hãy xem nhanh những gì

chữ

tập tin là

Một tệp văn bản chỉ chứa văn bản và không có định dạng đặc biệt như chữ đậm, chữ nghiêng, hình ảnh, v.v. Các tập tin văn bản được xác định với. txt, như trong ví dụ bên dưới

Tệp văn bản mẫu

Chúng ta có thể đọc, ghi và quản lý dữ liệu trong một tệp văn bản theo cách thủ công bằng cách mở nó trên màn hình của chúng tôi. Nhưng hôm nay, chúng ta sẽ học cách đọc cùng một tệp văn bản bằng python. Để làm như vậy, chúng ta cần sử dụng một mô-đun python đặc biệt được gọi là

gấu trúc

mô-đun. Trước khi tìm hiểu sâu hơn, hãy hiểu mô-đun pandas là gì

Mô-đun gấu trúc

gấu trúc

là một thư viện hoặc mô-đun Python mã nguồn mở cung cấp các công cụ phân tích dữ liệu và cấu trúc dữ liệu hiệu suất cao tích hợp sẵn. Nó được sử dụng tốt nhất để phân tích dữ liệu cùng với hai thư viện python cốt lõi khác-

Matplotlib

để trực quan hóa dữ liệu và

NumPy

cho các phép toán

Chúng tôi sẽ cài đặt mô-đun này giống như mô-đun trước của chúng tôi bằng cách sử dụng trình cài đặt pip như sau

C:\Users\pc> pip install pandas

Đoạn mã trên sẽ cài đặt

gấu trúc

mô-đun cho chúng tôi như sau

Cài đặt Mô-đun Panda 1

Sử dụng mô-đun gấu trúc này, Chúng tôi sẽ áp dụng hai phương pháp được sử dụng phổ biến nhất để đọc các tệp văn bản của chúng tôi như sau

  • gấu trúc. read_csv []

  • gấu trúc. read_fwf[]

Hãy hiểu các phương thức đó bằng cú pháp thích hợp của chúng, sau đó là một số ví dụ trong đoạn mã của chúng tôi

gấu trúc. read_csv []

Các

read_csv[]

phương thức đọc các giá trị trong tệp văn bản, trong đó dấu phân cách là ký tự dấu phẩy. Dấu phân cách là một ký tự xác định phần đầu hoặc phần cuối của một chuỗi ký tự [i. e. gần giống như một dải phân cách]. Cú pháp của phương thức này là

dataframe_name = pandas.read_csv[‘filename.txt’, sep=’ ‘, header=None, names=[“Column1”, “Column2”]]

Các tham số trong đoạn mã trên là

  • tên tập tin. txt. Vị trí của tệp văn bản sẽ được đọc
  • tháng chín. Nó có thể là dấu phẩy, dấu cách đơn, dấu cách kép, v.v. Đó là Dấu phân cách giữa hai thành phần trong một tệp văn bản. Đó là tùy chọn
  • tiêu đề. Đây cũng là một trường tùy chọn. Theo mặc định, nó sẽ lấy dòng đầu tiên của tệp văn bản làm tiêu đề. Nếu tệp của chúng tôi không chứa tiêu đề thì chúng tôi có thể áp dụng ”

    tiêu đề = Không có

    ” và sau đó nó sẽ tự tạo tiêu đề
  • tên. Chúng ta có thể gán tên cột trong khi nhập tệp văn bản bằng cách sử dụng

    tên

    đối số Khi không có tiêu đề. Chúng tôi chỉ có thể sử dụng nó khi chúng tôi không có tiêu đề trong tệp văn bản của mình. Vì vậy, nó cũng là một tham số tùy chọn

ví dụ 1

Giả sử Ta có một tệp văn bản như sau

Tệp văn bản có dấu phân cách bằng dấu phẩy

Chúng tôi sẽ đọc tập tin này với

gấu trúc. read_csv []

phương pháp như sau

# Importing pandas module as pd
import pandas as pd

# Read our text file into DataFrame df
df = pd.read_csv["C:\\Users\\pc\\Desktop\\folder\\new3.txt"]

# Show dataframe
print[df]

Đoạn mã trên sẽ cho đầu ra như sau

Ví dụ 1 Đầu ra

ví dụ 2

Hãy để chúng tôi lấy một tệp văn bản khác như sau

txt không có tiêu đề và dấu cách đơn

Như chúng tôi có thể thấy, không có tiêu đề trong tệp văn bản của chúng tôi. Chúng tôi sẽ đọc tập tin này với

gấu trúc. read_csv []

phương thức bằng cách truyền tham số”

tiêu đề = Không có

” và chỉ định tên cột là A, B và C như sau

import pandas as pd
df = pd.read_csv["C:\Users\pc\Desktop\folder\new2.txt", header=None, names=["A", "B", "C"], sep=" "]
print[df]

Đoạn mã trên sẽ cho đầu ra như sau

Ví dụ 2 Đầu ra

ví dụ 3

Hãy để chúng tôi lấy một tệp văn bản khác như sau

một tệp văn bản chứa năm trường

Chúng tôi sẽ đọc tập tin này với

gấu trúc. read_csv []

phương pháp như sau

import pandas as pd
df = pd.read_csv["C:\\Users\\pc\\Desktop\\folder\\new.txt"]
print[df]

Trong đoạn mã trên, Chúng tôi đang cố đọc một tệp txt có chứa một bảng. Nó sẽ cho đầu ra sau

đầu ra ví dụ 3

Hạn chế phổ biến nhất của việc sử dụng phương pháp này là nó đọc nội dung hạn chế trong một dòng. Vì vậy, trong màn hình đầu ra của chúng tôi, các cột Trang chủ và Lương không hiển thị và hiển thị một phần tương ứng. Để khắc phục vấn đề này, chúng tôi đang sử dụng

gấu trúc. read_fwf[]

phương pháp. Hãy hiểu phương pháp này là tốt

gấu trúc. read_fwf[]

Chúng tôi sử dụng phương pháp này để truy cập các tệp văn bản. fwf là viết tắt của fixed-width lines. Chúng tôi sẽ đọc dữ liệu từ các tệp văn bản bằng phương pháp này với pandas. Cái này

read_fef[]

phương pháp đọc nội dung hiệu quả thành các cột riêng biệt

Hãy để chúng tôi chọn cùng một tệp văn bản và chúng tôi sẽ cố gắng truy cập tệp bằng cách sử dụng một phương pháp khác [i. e

Làm thế nào để sử dụng dấu phân cách trong gấu trúc?

Đọc tệp CSV bằng Pandas. Để đọc các tệp CSV hoặc dấu phân cách read_csv này, chúng tôi sử dụng một chức năng của thư viện Pandas có tên là read_csv[]. .
Thanh phân cách dọc. Do đó, tệp được phân cách bằng thanh dọc có thể được đọc bởi. df = pd. read_csv["C. \Users\Rahul\Desktop\Ví dụ. csv", tháng chín = '. ']
Máy tách đại tràng. .
Dấu tách tab. .
Phần kết luận

Làm cách nào để đọc tệp CSV vào DataFrame với dấu phân cách tùy chỉnh trong gấu trúc?

phương thức read_csv[] . Chúng ta phải nhập thư viện gấu trúc để sử dụng phương pháp này. Phương pháp này sử dụng dấu phẩy ', ' làm dấu phân cách mặc định nhưng chúng ta cũng có thể sử dụng dấu phân cách tùy chỉnh hoặc biểu thức chính quy làm dấu phân cách.

Gấu trúc có thể đọc tệp txt không?

Người ta có thể đọc tệp văn bản [txt] bằng cách sử dụng hàm pandas read_fwf[] , fwf là viết tắt của các dòng có độ rộng cố định, bạn có thể sử dụng hàm này để đọc độ dài cố định hoặc biến . Ngoài ra, bạn cũng có thể đọc tệp txt bằng hàm pandas read_csv[].

Làm cách nào để đọc CSV bằng dấu phân cách?

Sử dụng tính năng "Từ văn bản" trong Excel . Chọn tệp CSV có dữ liệu được nhóm thành một cột. Chọn Được phân tách, sau đó đảm bảo Nguồn gốc tệp là Unicode UTF-8. Chọn Dấu phẩy [đây là dấu tách danh sách mặc định của Affinity].

Chủ Đề