Cách xóa từ dừng khỏi tệp excel trong python

Trong hướng dẫn này, chúng ta sẽ tìm hiểu cách xóa các từ dừng khỏi một đoạn văn bản trong Python. Việc xóa các từ dừng khỏi văn bản được xử lý trước dữ liệu trước khi sử dụng các mô hình máy học trên đó

từ dừng là gì?

Stop Words là những từ trong ngôn ngữ tự nhiên có rất ít nghĩa. Đây là những từ như 'is', 'the', 'and

Trong khi trích xuất thông tin từ văn bản, những từ này không cung cấp bất cứ điều gì có ý nghĩa. Do đó, tốt nhất là xóa các từ dừng khỏi văn bản trước khi sử dụng nó để huấn luyện các mô hình máy học

Một ưu điểm khác của việc loại bỏ các từ dừng là nó làm giảm kích thước của tập dữ liệu và thời gian đào tạo mô hình

Việc loại bỏ các từ dừng cũng phổ biến trong các công cụ tìm kiếm. Các công cụ tìm kiếm như Google xóa các từ dừng khỏi các truy vấn tìm kiếm để mang lại phản hồi nhanh hơn

Trong hướng dẫn này, chúng tôi sẽ sử dụng mô-đun NLTK để loại bỏ các từ dừng

Mô-đun NLTK là mô-đun phổ biến nhất khi nói đến xử lý ngôn ngữ tự nhiên

Để bắt đầu, trước tiên chúng tôi sẽ tải xuống kho văn bản với các từ dừng từ mô-đun NLTK

Tải về kho văn bản với các từ dừng từ NLTK

Để tải xuống kho văn bản, hãy sử dụng

import nltk
nltk.download('stopwords')

đầu ra

Cách xóa từ dừng khỏi tệp excel trong python
Tải xuống

Bây giờ chúng ta có thể bắt đầu sử dụng kho văn bản

In danh sách các từ dừng từ ngữ liệu

Hãy in ra danh sách các từ dừng từ ngữ liệu. Để làm điều đó sử dụng

from nltk.corpus import stopwords
print(stopwords.words('english'))

đầu ra

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', 'too', 'very', 's', 't', 'can', 'will', 'just', 'don', "don't", 'should', "should've", 'now', 'd', 'll', 'm', 'o', 're', 've', 'y', 'ain', 'aren', "aren't", 'couldn', "couldn't", 'didn', "didn't", 'doesn', "doesn't", 'hadn', "hadn't", 'hasn', "hasn't", 'haven', "haven't", 'isn', "isn't", 'ma', 'mightn', "mightn't", 'mustn', "mustn't", 'needn', "needn't", 'shan', "shan't", 'shouldn', "shouldn't", 'wasn', "wasn't", 'weren', "weren't", 'won', "won't", 'wouldn', "wouldn't"]

Đây là danh sách các từ dừng cho ngôn ngữ tiếng Anh. Có những ngôn ngữ khác cũng có sẵn

Để in danh sách các ngôn ngữ có sẵn, hãy sử dụng

from nltk.corpus import stopwords
print(stopwords.fileids())

đầu ra

['arabic', 'azerbaijani', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'greek', 'hungarian', 'indonesian', 'italian', 'kazakh', 'nepali', 'norwegian', 'portuguese', 'romanian', 'russian', 'slovene', 'spanish', 'swedish', 'tajik', 'turkish']

Đây là những ngôn ngữ mà các từ dừng có sẵn trong kho ngữ liệu 'từ dừng' của NLTK

Làm cách nào để thêm từ dừng của riêng bạn vào ngữ liệu?

Để thêm các từ dừng của riêng bạn vào danh sách, hãy sử dụng

new_stopwords = stopwords.words('english')
new_stopwords.append('SampleWord')

Bây giờ bạn có thể sử dụng 'new_stopwords' làm kho ngữ liệu mới. Hãy cùng tìm hiểu cách loại bỏ các từ dừng khỏi câu bằng ngữ liệu này

Làm cách nào để loại bỏ các từ dừng khỏi văn bản?

Trong phần này, chúng ta sẽ tìm hiểu cách loại bỏ các từ dừng khỏi một đoạn văn bản. Trước khi chúng tôi có thể tiếp tục, bạn nên đọc hướng dẫn này về mã thông báo

Mã thông báo là quá trình chia nhỏ một đoạn văn bản thành các đơn vị nhỏ hơn được gọi là mã thông báo. Những mã thông báo này tạo thành khối xây dựng của NLP

Chúng tôi sẽ sử dụng mã thông báo để chuyển đổi một câu thành một danh sách các từ. Sau đó, chúng tôi sẽ xóa các từ dừng khỏi danh sách Python đó

nltk.download('punkt')
from nltk.tokenize import word_tokenize
text = "This is a sentence in English that contains the SampleWord"
text_tokens = word_tokenize(text)

remove_sw = [word for word in text_tokens if not word in stopwords.words()]

print(remove_sw)

đầu ra

['This', 'sentence', 'English', 'contains', 'SampleWord']

Bạn có thể thấy rằng đầu ra chứa 'SampleWord' đó là do chúng tôi đã sử dụng kho văn bản mặc định để xóa các từ dừng. Hãy sử dụng kho ngữ liệu mà chúng ta đã tạo. Chúng tôi sẽ sử dụng hiểu danh sách cho cùng

________số 8_______

đầu ra

['This', 'sentence', 'English', 'contains']

Phần kết luận

Hướng dẫn này là về việc loại bỏ các từ dừng khỏi văn bản trong python. Chúng tôi đã sử dụng mô-đun NLTK để xóa các từ dừng khỏi văn bản. Chúng tôi hy vọng bạn đã có niềm vui học tập với chúng tôi

Làm cách nào để xóa các từ dừng khỏi tệp văn bản trong Python mà không cần NLTK?

Có một số cách để thực hiện việc này. ==> Xóa tất cả các s ở cuối từ hoặc sao chép các từ dừng của bạn và thêm s vào mỗi từ hoặc sử dụng phương thức len() để xem liệu một phần có khớp chính xác không . Điều thứ hai bạn có thể muốn xem xét (và điều này được thực hiện tốt nhất trước khi bắt đầu). . A second thing you might want to consider (and this is best done before stemming).

Mô-đun Python nào được sử dụng để loại bỏ các từ dừng?

Xóa các từ dừng bằng NLTK trong Python.