Đếm số câu trong một tệp văn bản trong python

Trong bài viết này, chúng tôi trình bày cách tìm số từ hoặc số câu trong một chuỗi trong Python bằng mô-đun NLTK

Mô-đun NLTK là mô-đun bộ công cụ ngôn ngữ tự nhiên

Chúng ta có thể sử dụng nó để mã hóa chuỗi thành từ hoặc câu

Sau đó, chúng ta có thể sử dụng hàm len[] để xác định số từ hoặc số câu trong một chuỗi

Vì vậy, một lần nữa, trước tiên chúng tôi mã hóa chuỗi thành từ hoặc câu. Sau đó sử dụng hàm len[] để tìm số từ hoặc số câu trong chuỗi

Cách để Tìm số từ trong một chuỗi

Đầu tiên chúng tôi tìm thấy số lượng từ trong một chuỗi

Điều này yêu cầu chúng tôi mã hóa chuỗi thành các từ. Và sau đó sử dụng len[] để tìm số lượng từ trong chuỗi

Điều này được hiển thị dưới đây



Vì vậy, bây giờ chúng ta hãy xem qua đoạn mã trên

Trước tiên chúng ta phải nhập mô-đun ntlk

Sau đó chúng tôi có một chuỗi, mà chúng tôi sẽ phân tích

Sau đó, chúng tôi tạo một biến, các từ, chứa các từ được mã hóa của chuỗi

Sau đó, chúng tôi tìm ra có bao nhiêu từ trong biến từ bằng cách sử dụng hàm len[]

Sau đó, chúng tôi xuất ra độ dài, là 11. Chuỗi này chứa 11 từ

Cách để Tìm số câu trong một chuỗi

Bây giờ chúng ta sẽ tìm số câu trong một chuỗi

Chúng tôi mã hóa chuỗi thành câu. Sau đó dùng hàm len[] để tìm số câu

Điều này được hiển thị dưới đây



Vì vậy, trong đoạn mã trên, chúng ta có một biến, đoạn văn, chứa một vài câu

Sau đó, chúng tôi tạo một biến, các câu, chứa chuỗi được mã hóa thành các câu

Sau đó, chúng tôi tìm độ dài của các câu bằng cách sử dụng hàm len[], cho chúng tôi biết số lượng câu trong chuỗi

Tôi đã viết đoạn mã sau để đếm số lượng câu, từ và ký tự trong mẫu tệp đầu vào. txt, trong đó có một đoạn văn bản. Nó hoạt động tốt khi đưa ra số lượng câu và từ, nhưng không đưa ra số lượng ký tự chính xác và chính xác [không có khoảng trắng và dấu chấm câu]

lines,blanklines,sentences,words=0,0,0,0
num_chars=0

print '-'*50

try: filename = 'sample.txt' textf = open[filename,'r']c except IOError: print 'cannot open file %s for reading' % filename import sys sys.exit[0]

for line in textf: print line lines += 1 if line.startswith['\n']: blanklines += 1 else:

    sentences += line.count['.']+ line.count ['!']+ line.count['?']

    tempwords = line.split[None]
    print tempwords 
    words += len[tempwords]

văn bản. gần[]

in '-'*50
in "Dòng. ", dòng
in "dòng trống. ",blanklines
in " câu. ",câu
in " từ. ",từ

nhập nltk
nhập nltk. dữ liệu
nhập nltk. mã hóa

với open['sample. txt' , 'r'] dưới dạng f.
cho dòng trong f.
num_chars += len[dòng]

num_chars = num_chars - [từ +1 ]

pcount = 0
từ nltk. tokenize import TreebankWordTokenizer
với open['sample. txt','r'] dưới dạng f1.
cho dòng trong f1.
#tokenised_words = nltk. token hóa. word_tokenize[line]
tokenizer = TreebankWordTokenizer[]
. tokenize[line]
cho w trong tokenised_words.
nếu [[w=='. ']. [w==';']. [w=='. ']. [w=='?']].
pcount = pcount + 1
. ",pcount
num_chars = num_chars - pcount
. ",num_chars

pcount là số lượng dấu câu. Một số có thể đề xuất những thay đổi tôi cần thực hiện để tìm ra số ký tự chính xác không có dấu cách và dấu chấm câu không?

Trong hướng dẫn này, chúng ta sẽ học cách đếm số từ trong một tệp văn bản bằng Python. Chúng tôi đã tạo một tệp văn bản chứa rất nhiều từ. Sau đó, mã của chúng tôi sẽ đọc tệp và trả về cho chúng tôi tổng số từ có trong tệp văn bản của chúng tôi

Chủ đề này thuộc về khái niệm xử lý tệp. Do đó, chúng tôi có một khái niệm rõ ràng về việc xử lý tệp này

Xử lý tệp là gì?

Xử lý tệp là một khái niệm rất quan trọng trong ngôn ngữ lập trình. Nó có nhiều chức năng như tạo, đọc, viết, cập nhật và xóa. Hàm open[] giúp mở một tập tin. Sau đó, nó trả về một đối tượng dưới dạng tệp. Đối tượng tệp này có phương thức read[] hoặc phương thức write[] để đọc hoặc ghi nội dung của tệp. Phương thức read[] trả về văn bản của tệp và bạn cũng có thể đề cập đến số lượng ký tự bạn muốn trả về

Hãy làm một ví dụ. Chúng ta có thể lấy một tệp văn bản có tên là ví dụ. txt. Trong tệp văn bản này, chúng tôi có một câu i. e

I am a good boy

Trong ví dụ này, chúng ta đã thấy rằng chỉ có 5 từ hiện diện trong tệp văn bản này. Vì vậy, chúng ta có thể đếm được điều này thông qua khái niệm xử lý tệp trong Python. Chúng tôi đã sử dụng hàm open[] trong tệp văn bản. Do đó, chúng tôi đã áp dụng phương thức read[] để lấy các ký tự có trong tệp văn bản. Sau đó, chúng tôi đã sử dụng phương thức split[] để lấy các từ riêng biệt. Sau đó, hàm len[] có thể được sử dụng để đếm số lượng từ

Chủ Đề