Trong hướng dẫn này, chúng ta sẽ tìm hiểu cách xóa các từ dừng khỏi một đoạn văn bản trong Python. Việc xóa các từ dừng khỏi văn bản được xử lý trước dữ liệu trước khi sử dụng các mô hình máy học trên đó
từ dừng là gì?
Stop Words là những từ trong ngôn ngữ tự nhiên có rất ít nghĩa. Đây là những từ như 'is', 'the', 'and
Trong khi trích xuất thông tin từ văn bản, những từ này không cung cấp bất cứ điều gì có ý nghĩa. Do đó, tốt nhất là xóa các từ dừng khỏi văn bản trước khi sử dụng nó để huấn luyện các mô hình máy học
Một ưu điểm khác của việc loại bỏ các từ dừng là nó làm giảm kích thước của tập dữ liệu và thời gian đào tạo mô hình
Việc loại bỏ các từ dừng cũng phổ biến trong các công cụ tìm kiếm. Các công cụ tìm kiếm như Google xóa các từ dừng khỏi các truy vấn tìm kiếm để mang lại phản hồi nhanh hơn
Trong hướng dẫn này, chúng tôi sẽ sử dụng mô-đun NLTK để loại bỏ các từ dừng
Mô-đun NLTK là mô-đun phổ biến nhất khi nói đến xử lý ngôn ngữ tự nhiên
Để bắt đầu, trước tiên chúng tôi sẽ tải xuống kho văn bản với các từ dừng từ mô-đun NLTK
Tải về kho văn bản với các từ dừng từ NLTK
Để tải xuống kho văn bản, hãy sử dụng
import nltk nltk.download['stopwords']
đầu ra
Bây giờ chúng ta có thể bắt đầu sử dụng kho văn bản
In danh sách các từ dừng từ ngữ liệu
Hãy in ra danh sách các từ dừng từ ngữ liệu. Để làm điều đó sử dụng
from nltk.corpus import stopwords print[stopwords.words['english']]
đầu ra
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', 'too', 'very', 's', 't', 'can', 'will', 'just', 'don', "don't", 'should', "should've", 'now', 'd', 'll', 'm', 'o', 're', 've', 'y', 'ain', 'aren', "aren't", 'couldn', "couldn't", 'didn', "didn't", 'doesn', "doesn't", 'hadn', "hadn't", 'hasn', "hasn't", 'haven', "haven't", 'isn', "isn't", 'ma', 'mightn', "mightn't", 'mustn', "mustn't", 'needn', "needn't", 'shan', "shan't", 'shouldn', "shouldn't", 'wasn', "wasn't", 'weren', "weren't", 'won', "won't", 'wouldn', "wouldn't"]
Đây là danh sách các từ dừng cho ngôn ngữ tiếng Anh. Có những ngôn ngữ khác cũng có sẵn
Để in danh sách các ngôn ngữ có sẵn, hãy sử dụng
from nltk.corpus import stopwords print[stopwords.fileids[]]
đầu ra
['arabic', 'azerbaijani', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'greek', 'hungarian', 'indonesian', 'italian', 'kazakh', 'nepali', 'norwegian', 'portuguese', 'romanian', 'russian', 'slovene', 'spanish', 'swedish', 'tajik', 'turkish']
Đây là những ngôn ngữ mà các từ dừng có sẵn trong kho ngữ liệu 'từ dừng' của NLTK
Làm cách nào để thêm từ dừng của riêng bạn vào ngữ liệu?
Để thêm các từ dừng của riêng bạn vào danh sách, hãy sử dụng
new_stopwords = stopwords.words['english'] new_stopwords.append['SampleWord']
Bây giờ bạn có thể sử dụng 'new_stopwords' làm kho ngữ liệu mới. Hãy cùng tìm hiểu cách loại bỏ các từ dừng khỏi câu bằng ngữ liệu này
Làm cách nào để loại bỏ các từ dừng khỏi văn bản?
Trong phần này, chúng ta sẽ tìm hiểu cách loại bỏ các từ dừng khỏi một đoạn văn bản. Trước khi chúng tôi có thể tiếp tục, bạn nên đọc hướng dẫn này về mã thông báo
Mã thông báo là quá trình chia nhỏ một đoạn văn bản thành các đơn vị nhỏ hơn được gọi là mã thông báo. Những mã thông báo này tạo thành khối xây dựng của NLP
Chúng tôi sẽ sử dụng mã thông báo để chuyển đổi một câu thành một danh sách các từ. Sau đó, chúng tôi sẽ xóa các từ dừng khỏi danh sách Python đó
nltk.download['punkt'] from nltk.tokenize import word_tokenize text = "This is a sentence in English that contains the SampleWord" text_tokens = word_tokenize[text] remove_sw = [word for word in text_tokens if not word in stopwords.words[]] print[remove_sw]
đầu ra
['This', 'sentence', 'English', 'contains', 'SampleWord']
Bạn có thể thấy rằng đầu ra chứa 'SampleWord' đó là do chúng tôi đã sử dụng kho văn bản mặc định để xóa các từ dừng. Hãy sử dụng kho ngữ liệu mà chúng ta đã tạo. Chúng tôi sẽ sử dụng hiểu danh sách cho cùng
________số 8_______
đầu ra
['This', 'sentence', 'English', 'contains']
Phần kết luận
Hướng dẫn này là về việc loại bỏ các từ dừng khỏi văn bản trong python. Chúng tôi đã sử dụng mô-đun NLTK để xóa các từ dừng khỏi văn bản. Chúng tôi hy vọng bạn đã có niềm vui học tập với chúng tôi