Hướng dẫn how do you find the delimiter of a text file in python? - làm cách nào để tìm dấu phân cách của tệp văn bản trong python?

Cách tốt nhất và dễ nhất để đọc tệp văn bản được phân định bằng tab trong Python là gì? Tôi muốn chuyển đổi cột đầu tiên của tệp văn bản thành một danh sách thoát dòng đầu tiên (tiêu đề).

import csv
with open ('data.txt', 'r') as f:
    first_row = [column[0] for column in csv.reader(f,delimiter='\t')]
    print (first_row)

Mã trên cung cấp tất cả các yếu tố của First_column. Làm thế nào tôi có thể thoát khỏi dòng đầu tiên (tiêu đề)?

Đã hỏi ngày 12 tháng 6 năm 2013 lúc 1:51Jun 12, 2013 at 1:51

Hướng dẫn how do you find the delimiter of a text file in python? - làm cách nào để tìm dấu phân cách của tệp văn bản trong python?

Lisalisalisa

611 huy hiệu vàng2 huy hiệu bạc8 huy hiệu đồng1 gold badge2 silver badges8 bronze badges

2

Có lẽ tôi đang thiếu một cái gì đó trong câu hỏi, nhưng tại sao không chỉ cắt bỏ yếu tố đầu tiên của danh sách?

import csv
with open ('data.txt', 'r') as f:
    first_column = [row[0] for row in csv.reader(f,delimiter='\t')]
    print (first_column[1:])

Đã trả lời ngày 12 tháng 6 năm 2013 lúc 2:04Jun 12, 2013 at 2:04

Dave Costadave CostaDave Costa

46.6K8 Huy hiệu vàng56 Huy hiệu bạc71 Huy hiệu đồng8 gold badges56 silver badges71 bronze badges

0

Khi bạn tải tệp, bạn có thể truy cập dữ liệu theo tên cột. Trong ví dụ này, FirstColName là tên cột đầu tiên của tệp được tải.

import pandas as pd
import numpy as np

file = pd.read_csv(r"C:\Users\hydro\a.txt", sep='\t')
firstCol = np.asarray(file.FirstColName)
print (firstCol)

Đã trả lời ngày 12 tháng 12 năm 2017 lúc 14:51Dec 12, 2017 at 14:51

SubhashisubhashiSubhashi

3.9851 Huy hiệu vàng22 Huy hiệu bạc22 Huy hiệu đồng1 gold badge22 silver badges22 bronze badges

Delimiter in Python là gì?

Cài đặt

Để cài đặt mô -đun này, loại lệnh dưới đây trong thiết bị đầu cuối.

PIP Cài đặt Det_Delimiter

Bước đầu tiên là kiểm tra tất cả các ký tự màu trắng hiện diện trong văn bản đầu vào, nếu được tìm thấy, thì các ký tự đó được tính cho hầu hết các tần số và tối đa của một được trả về, bỏ qua tất cả từ danh sách danh sách đen nếu được cung cấp. Nếu không có dấu phân cách nào từ danh sách trắng, thì các ký tự tránh các ký tự danh sách đen được tính cho tần số tối đa, nếu được tìm thấy, ký tự đó được trả về dưới dạng dấu phân cách. & NBSP; được trả lại. & nbsp;

Cú pháp: Detect (Text: Str, Text: Str, Default = none, whitelist = [',', ';', ':', '|', '\ t'], blacklist = none) Văn bản: chuỗi đầu vào Để kiểm tra Delimiter.Default: & nbsp; Giá trị mặc định để đầu ra trong trường hợp không tìm thấy dấu phân cách hợp lệ nào .Whitelist: Bộ ký tự đầu tiên được kiểm tra cho các dấu phân cách, nếu chúng được tìm thấy, chúng được coi là phân định. Hữu ích trong các trường hợp người ta biết trong số các phân định là có thể. Mặc định là [',', ';', ':', '|', '\ t']. được gắn thẻ là người phân định, những thứ này sẽ được tránh trong kiểm tra. & nbsp;detect(text:str, text:str, default=None, whitelist=[‘,’, ‘;’, ‘:’, ‘|’, ‘\t’], blacklist=None)
text : The input string to test for delimiter.
default :  The default value to output in case no valid delimiter is found.
whitelist : The first set of characters to be checked for delimiters, if these are found, they are treated as delimiters. Useful in cases one knows out of which delimiters are possible. Defaults to [‘,’, ‘;’, ‘:’, ‘|’, ‘\t’].
blacklist : By default all digits, alphabets and full stop are not considered as blacklist, In case more values one needs to avoid being tagged as delimiters, these will get avoided in check. 

Ví dụ 1: Làm việc với Detect () và mặc định

Trong đó, một vài ví dụ về việc phát hiện các dấu phân cách được thể hiện cùng với việc sử dụng mặc định. & NBSP;

Python3

from detect_delimiter import detect

print(

import csv
with open ('data.txt', 'r') as f:
    first_column = [row[0] for row in csv.reader(f,delimiter='\t')]
    print (first_column[1:])
0
import csv
with open ('data.txt', 'r') as f:
    first_column = [row[0] for row in csv.reader(f,delimiter='\t')]
    print (first_column[1:])
1

print

import csv
with open ('data.txt', 'r') as f:
    first_column = [row[0] for row in csv.reader(f,delimiter='\t')]
    print (first_column[1:])
3
import csv
with open ('data.txt', 'r') as f:
    first_column = [row[0] for row in csv.reader(f,delimiter='\t')]
    print (first_column[1:])
4
import csv
with open ('data.txt', 'r') as f:
    first_column = [row[0] for row in csv.reader(f,delimiter='\t')]
    print (first_column[1:])
5

print(

import csv
with open ('data.txt', 'r') as f:
    first_column = [row[0] for row in csv.reader(f,delimiter='\t')]
    print (first_column[1:])
8
import csv
with open ('data.txt', 'r') as f:
    first_column = [row[0] for row in csv.reader(f,delimiter='\t')]
    print (first_column[1:])
1

print

import csv
with open ('data.txt', 'r') as f:
    first_column = [row[0] for row in csv.reader(f,delimiter='\t')]
    print (first_column[1:])
3
import pandas as pd
import numpy as np

file = pd.read_csv(r"C:\Users\hydro\a.txt", sep='\t')
firstCol = np.asarray(file.FirstColName)
print (firstCol)
2
import csv
with open ('data.txt', 'r') as f:
    first_column = [row[0] for row in csv.reader(f,delimiter='\t')]
    print (first_column[1:])
5

print(

import pandas as pd
import numpy as np

file = pd.read_csv(r"C:\Users\hydro\a.txt", sep='\t')
firstCol = np.asarray(file.FirstColName)
print (firstCol)
6
import csv
with open ('data.txt', 'r') as f:
    first_column = [row[0] for row in csv.reader(f,delimiter='\t')]
    print (first_column[1:])
1

print

import csv
with open ('data.txt', 'r') as f:
    first_column = [row[0] for row in csv.reader(f,delimiter='\t')]
    print (first_column[1:])
3
import pandas as pd
import numpy as np

file = pd.read_csv(r"C:\Users\hydro\a.txt", sep='\t')
firstCol = np.asarray(file.FirstColName)
print (firstCol)
2FirstColName1FirstColName2FirstColName3
import csv
with open ('data.txt', 'r') as f:
    first_column = [row[0] for row in csv.reader(f,delimiter='\t')]
    print (first_column[1:])
5

Đầu ra: & nbsp;

Hướng dẫn how do you find the delimiter of a text file in python? - làm cách nào để tìm dấu phân cách của tệp văn bản trong python?

Làm việc với Detect () và mặc định

Ví dụ 2: Sử dụng các tham số danh sách đen và danh sách trắng

Cung cấp tham số Danh sách trắng ưu tiên bất kỳ dấu phân cách cụ thể nào ngay cả khi tần số của nó ít hơn DELIM không được phân định. Tham số danh sách đen có thể giúp bỏ qua bất kỳ dấu phân cách nào.

Python3

from detect_delimiter import detect

Đầu ra: & nbsp;

print(from5

import csv
with open ('data.txt', 'r') as f:
    first_column = [row[0] for row in csv.reader(f,delimiter='\t')]
    print (first_column[1:])
1

print

import csv
with open ('data.txt', 'r') as f:
    first_column = [row[0] for row in csv.reader(f,delimiter='\t')]
    print (first_column[1:])
3from9
import csv
with open ('data.txt', 'r') as f:
    first_column = [row[0] for row in csv.reader(f,delimiter='\t')]
    print (first_column[1:])
5

print(detect_delimiter 3

import csv
with open ('data.txt', 'r') as f:
    first_column = [row[0] for row in csv.reader(f,delimiter='\t')]
    print (first_column[1:])
1

print

import csv
with open ('data.txt', 'r') as f:
    first_column = [row[0] for row in csv.reader(f,delimiter='\t')]
    print (first_column[1:])
3detect_delimiter 7detect_delimiter 8

detect_delimiter 9import0FirstColName2import2FirstColName3import4import5import6

print(import9

import csv
with open ('data.txt', 'r') as f:
    first_column = [row[0] for row in csv.reader(f,delimiter='\t')]
    print (first_column[1:])
1

print

import csv
with open ('data.txt', 'r') as f:
    first_column = [row[0] for row in csv.reader(f,delimiter='\t')]
    print (first_column[1:])
3detect_delimiter 7detect_delimiter 8

detect_delimiter 9detect6FirstColName2import2FirstColName3import4print1import4print3import6

Đầu ra: & nbsp;

Hướng dẫn how do you find the delimiter of a text file in python? - làm cách nào để tìm dấu phân cách của tệp văn bản trong python?

Làm việc với Detect () và mặc định


Làm thế nào để Python phát hiện dấu phân cách trong một tệp văn bản?

Installation..
Cú pháp: Phát hiện (văn bản: str, văn bản: str, default = none, whitelist = [',', ';', ':', '|', '\ t'], blacklist = none).
Văn bản: Chuỗi đầu vào để kiểm tra cho dấu phân cách ..
Mặc định: Giá trị mặc định cho đầu ra trong trường hợp không tìm thấy dấu phân cách hợp lệ nào ..

Phân phối trong tệp văn bản là gì?

Bất kỳ ký tự nào cũng có thể được sử dụng để phân tách các giá trị, nhưng các dấu phân cách phổ biến nhất là dấu phẩy, tab và ruột kết. Thanh dọc (còn được gọi là ống) và không gian đôi khi cũng được sử dụng.comma, tab, and colon. The vertical bar (also referred to as pipe) and space are also sometimes used.

Delimiter in Python là gì?

LƯU Ý: Một dấu phân cách là một chuỗi của một hoặc nhiều ký tự được sử dụng để chỉ định ranh giới giữa các vùng riêng biệt, độc lập trong văn bản thuần túy hoặc các luồng dữ liệu khác.Một ví dụ về dấu phân cách là ký tự dấu phẩy, hoạt động như một dấu phân cách trường trong một chuỗi các giá trị được phân tách bằng dấu phẩy.a sequence of one or more characters used to specify the boundary between separate, independent regions in plain text or other data streams. An example of a delimiter is the comma character, which acts as a field delimiter in a sequence of comma-separated values.

Đâu là dấu phân cách trong tệp CSV python?

Bạn có thể thử thủ công một số mã hóa và trình phân cách phổ biến, hoặc xem tệp và cố gắng tìm ra nó, một cách tốt hơn nhiều là sử dụng mô-đun Chardet để tìm mã hóa cho bạn và sử dụng tham số tự động phát hiện để xác định dấu phân cách của tệp.use chardet module to find the encode for you and use auto-detect parameter to determine the delimiter of the file.