Hướng dẫn python read text file with delimiter into dataframe - python đọc tệp văn bản với dấu phân cách vào khung dữ liệu

Bởi vì bạn đã vượt qua các tên cột thay thế, điều này có nghĩa là trình phân tích cú pháp CSV đang diễn giải hàng đầu tiên dưới dạng hàng dữ liệu hợp lệ để bạn cần vượt qua skiprows=1 để bỏ qua tiêu đề của bạn, ngoài ra, bộ phân cách mặc định là dấu phẩy , nhưng có vẻ như dữ liệu của bạn là tab là tab hoặc đa không gian được phân tách để bạn có thể vượt qua sep='\t' hoặc sep='\s+'.

Không rõ liệu dữ liệu của bạn là tab hay không gian được phân tách nhưng những điều sau đây có hiệu quả với tôi không:

In [18]:
t="""Date         Name          Group    Direction
2015-01-01  Smith.John      -          In
2015-01-01  Smith.Jan       Claims     Out
2015-01-01     -            Claims     In
2015-01-01  Smith.Jessica   Other      In"""
pd.read_csv[io.StringIO[t], names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\s+']

Out[18]:
         Date      AgentName   Group Direction
0  2015-01-01     Smith.John       -        In
1  2015-01-01      Smith.Jan  Claims       Out
2  2015-01-01              -  Claims        In
3  2015-01-01  Smith.Jessica   Other        In

Vì vậy, tôi mong đợi

pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']

hoặc

pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\s+']

để làm việc cho bạn

Trong bài viết này, chúng tôi sẽ thảo luận về cách đọc các tệp văn bản với gấu trúc trong Python. Trong Python, mô -đun PANDAS cho phép chúng tôi tải DataFrames từ các tệp bên ngoài và làm việc trên chúng. Bộ dữ liệu có thể nằm trong các loại tệp khác nhau.

Tệp văn bản được sử dụng:

Phương pháp 1: Sử dụng read_csv []

Chúng tôi sẽ đọc tệp văn bản với gấu trúc bằng hàm read_csv []. Cùng với tệp văn bản, chúng tôi cũng truyền phân tách dưới dạng một không gian duy nhất [‘] cho ký tự không gian bởi vì, đối với các tệp văn bản, ký tự không gian sẽ tách riêng từng trường. Có ba tham số chúng ta có thể chuyển đến hàm read_csv [].

Syntax: 

data = pandas.read_csv [‘fileName.txt

Parameters:

  • FileName.txt: Như tên cho thấy nó là tên của tệp văn bản mà chúng tôi muốn đọc dữ liệu. As the name suggests it is the name of the text file from which we want to read data.
  • SEP: Đó là một trường phân cách. Trong tệp văn bản, chúng tôi sử dụng ký tự không gian [‘] làm dấu phân cách.: It is a separator field. In the text file, we use the space character[‘ ‘] as the separator.
  • Tiêu đề: Đây là một lĩnh vực tùy chọn. Theo mặc định, nó sẽ lấy dòng đầu tiên của tệp văn bản làm tiêu đề. Nếu chúng ta sử dụng tiêu đề = không có thì nó sẽ tạo tiêu đề. This is an optional field. By default, it will take the first line of the text file as a header. If we use header=None then it will create the header.
  • Tên: Chúng tôi có thể gán tên cột trong khi nhập tệp văn bản bằng cách sử dụng đối số tên.We can assign column names while importing the text file by using the names argument.

Ví dụ 1: & nbsp;

Python3

import

pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
0

pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
1
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
2
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
3
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
4
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
5__1212171718

pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
9
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\s+']
0

Output:

Ví dụ 2:

Trong ví dụ 2, chúng tôi sẽ làm cho tiêu đề được nộp bằng không. Điều này sẽ tạo ra một tiêu đề mặc định trong đầu ra. Và lấy dòng đầu tiên của tệp văn bản làm mục nhập dữ liệu. Tên tiêu đề được tạo sẽ là một số bắt đầu từ 0.

Python3

import

pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
0

pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
1
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
2
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
3
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
4
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
5__1212171718

pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
9
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\s+']
0

Output:

Ví dụ 2:

Trong ví dụ 2, chúng tôi sẽ làm cho tiêu đề được nộp bằng không. Điều này sẽ tạo ra một tiêu đề mặc định trong đầu ra. Và lấy dòng đầu tiên của tệp văn bản làm mục nhập dữ liệu. Tên tiêu đề được tạo sẽ là một số bắt đầu từ 0.

Python3

import

pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
0

pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
1
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
2
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
3
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
4
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
5__1212171718

Ví dụ 2:

pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
9
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\s+']
0

Output:

Trong ví dụ 2, chúng tôi sẽ làm cho tiêu đề được nộp bằng không. Điều này sẽ tạo ra một tiêu đề mặc định trong đầu ra. Và lấy dòng đầu tiên của tệp văn bản làm mục nhập dữ liệu. Tên tiêu đề được tạo sẽ là một số bắt đầu từ 0.

pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
1
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
2
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
3
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
4
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
5__12

Syntax: 

data=pandas.read_table['filename.txt', delimiter = ' ']

Example:

Python3

import

pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
0

pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
1
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
2
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
3
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
4
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
5__1212171718

pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
9
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\s+']
0

Output:

Ví dụ 2:

Trong ví dụ 2, chúng tôi sẽ làm cho tiêu đề được nộp bằng không. Điều này sẽ tạo ra một tiêu đề mặc định trong đầu ra. Và lấy dòng đầu tiên của tệp văn bản làm mục nhập dữ liệu. Tên tiêu đề được tạo sẽ là một số bắt đầu từ 0.

Syntax: 

data=pandas.read_fwf['filename.txt']

Example:

Python3

import

pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
0

pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
1
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
2
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
3
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
4
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
5__1212171718

pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\t']
9
pd.read_csv['C:\Users\Desktop\skills.txt', names=['Date','AgentName','Group','Direction'], skiprows=1, sep='\s+']
0

Output:


Làm cách nào để đọc một tệp văn bản được phân định trong Python?

Solution..
Bước 1: Mở tệp văn bản bằng hàm Open []. ....
Đọc qua tệp một dòng tại một thời điểm bằng cách sử dụng một vòng lặp ..
Chia dòng thành một mảng. ....
Xuất nội dung của từng trường bằng phương thức in ..
Sau khi hoàn thành vòng lặp FOR, hãy đóng tệp bằng phương thức đóng [] ..

Làm cách nào để chuyển đổi TXT thành DataFrame trong Python?

Chuyển đổi tệp văn bản thành DataFrame..
Pandas.Read_FWF - Đọc một bảng các dòng được định dạng có chiều rộng cố định vào DataFrame.pandas.read_fwf [filepath_or_buffer, colspecs = 'infress', widths = none, ** kwds].
gấu trúc.read_csv - đọc tệp CSV [được phân tách bằng dấu phẩy] vào DataFrame ..

Làm thế nào để bạn đọc một tệp CSV bằng gấu trúc và in dữ liệu giải thích bằng một chương trình?

Đọc tệp CSV..
Tải CSV vào DataFrame: Nhập Pandas dưới dạng PD.df = pd.read_csv ['data.csv'] ....
In DataFrame mà không cần phương thức TO_STRING []: Nhập gấu trúc dưới dạng pd.....
Kiểm tra số lượng các hàng được trả lại tối đa: nhập pandas dưới dạng PD.....
Tăng số lượng hàng tối đa để hiển thị toàn bộ DataFrame: Nhập Pandas dưới dạng PD ..

Làm cách nào để trích xuất một cột từ một tệp văn bản trong Python?

chia [] trả về một đối tượng danh sách.Nếu bạn cần hai cột từ đó, thì hãy gán đầu ra của line.split [] cho một biến và chọn ra hai yếu tố bạn muốn từ danh sách đó.assign the output of line. split[] to a variable, and pick out the two elements you wanted from that list.

Bài Viết Liên Quan

Chủ Đề