Cách xóa từ dừng khỏi tệp excel trong python
Trong hướng dẫn này, chúng ta sẽ tìm hiểu cách xóa các từ dừng khỏi một đoạn văn bản trong Python. Việc xóa các từ dừng khỏi văn bản được xử lý trước dữ liệu trước khi sử dụng các mô hình máy học trên đó Show
từ dừng là gì?Stop Words là những từ trong ngôn ngữ tự nhiên có rất ít nghĩa. Đây là những từ như 'is', 'the', 'and Trong khi trích xuất thông tin từ văn bản, những từ này không cung cấp bất cứ điều gì có ý nghĩa. Do đó, tốt nhất là xóa các từ dừng khỏi văn bản trước khi sử dụng nó để huấn luyện các mô hình máy học Một ưu điểm khác của việc loại bỏ các từ dừng là nó làm giảm kích thước của tập dữ liệu và thời gian đào tạo mô hình Việc loại bỏ các từ dừng cũng phổ biến trong các công cụ tìm kiếm. Các công cụ tìm kiếm như Google xóa các từ dừng khỏi các truy vấn tìm kiếm để mang lại phản hồi nhanh hơn Trong hướng dẫn này, chúng tôi sẽ sử dụng mô-đun NLTK để loại bỏ các từ dừng Mô-đun NLTK là mô-đun phổ biến nhất khi nói đến xử lý ngôn ngữ tự nhiên Để bắt đầu, trước tiên chúng tôi sẽ tải xuống kho văn bản với các từ dừng từ mô-đun NLTK Tải về kho văn bản với các từ dừng từ NLTKĐể tải xuống kho văn bản, hãy sử dụng import nltk nltk.download('stopwords') đầu ra Tải xuốngBây giờ chúng ta có thể bắt đầu sử dụng kho văn bản In danh sách các từ dừng từ ngữ liệuHãy in ra danh sách các từ dừng từ ngữ liệu. Để làm điều đó sử dụng from nltk.corpus import stopwords print(stopwords.words('english')) đầu ra ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', 'too', 'very', 's', 't', 'can', 'will', 'just', 'don', "don't", 'should', "should've", 'now', 'd', 'll', 'm', 'o', 're', 've', 'y', 'ain', 'aren', "aren't", 'couldn', "couldn't", 'didn', "didn't", 'doesn', "doesn't", 'hadn', "hadn't", 'hasn', "hasn't", 'haven', "haven't", 'isn', "isn't", 'ma', 'mightn', "mightn't", 'mustn', "mustn't", 'needn', "needn't", 'shan', "shan't", 'shouldn', "shouldn't", 'wasn', "wasn't", 'weren', "weren't", 'won', "won't", 'wouldn', "wouldn't"] Đây là danh sách các từ dừng cho ngôn ngữ tiếng Anh. Có những ngôn ngữ khác cũng có sẵn Để in danh sách các ngôn ngữ có sẵn, hãy sử dụng from nltk.corpus import stopwords print(stopwords.fileids()) đầu ra ['arabic', 'azerbaijani', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'greek', 'hungarian', 'indonesian', 'italian', 'kazakh', 'nepali', 'norwegian', 'portuguese', 'romanian', 'russian', 'slovene', 'spanish', 'swedish', 'tajik', 'turkish'] Đây là những ngôn ngữ mà các từ dừng có sẵn trong kho ngữ liệu 'từ dừng' của NLTK Làm cách nào để thêm từ dừng của riêng bạn vào ngữ liệu?Để thêm các từ dừng của riêng bạn vào danh sách, hãy sử dụng new_stopwords = stopwords.words('english') new_stopwords.append('SampleWord') Bây giờ bạn có thể sử dụng 'new_stopwords' làm kho ngữ liệu mới. Hãy cùng tìm hiểu cách loại bỏ các từ dừng khỏi câu bằng ngữ liệu này Làm cách nào để loại bỏ các từ dừng khỏi văn bản?Trong phần này, chúng ta sẽ tìm hiểu cách loại bỏ các từ dừng khỏi một đoạn văn bản. Trước khi chúng tôi có thể tiếp tục, bạn nên đọc hướng dẫn này về mã thông báo Mã thông báo là quá trình chia nhỏ một đoạn văn bản thành các đơn vị nhỏ hơn được gọi là mã thông báo. Những mã thông báo này tạo thành khối xây dựng của NLP Chúng tôi sẽ sử dụng mã thông báo để chuyển đổi một câu thành một danh sách các từ. Sau đó, chúng tôi sẽ xóa các từ dừng khỏi danh sách Python đó nltk.download('punkt') from nltk.tokenize import word_tokenize text = "This is a sentence in English that contains the SampleWord" text_tokens = word_tokenize(text) remove_sw = [word for word in text_tokens if not word in stopwords.words()] print(remove_sw) đầu ra ['This', 'sentence', 'English', 'contains', 'SampleWord'] Bạn có thể thấy rằng đầu ra chứa 'SampleWord' đó là do chúng tôi đã sử dụng kho văn bản mặc định để xóa các từ dừng. Hãy sử dụng kho ngữ liệu mà chúng ta đã tạo. Chúng tôi sẽ sử dụng hiểu danh sách cho cùng ________số 8_______ đầu ra ['This', 'sentence', 'English', 'contains'] Phần kết luậnHướng dẫn này là về việc loại bỏ các từ dừng khỏi văn bản trong python. Chúng tôi đã sử dụng mô-đun NLTK để xóa các từ dừng khỏi văn bản. Chúng tôi hy vọng bạn đã có niềm vui học tập với chúng tôi Làm cách nào để xóa các từ dừng khỏi tệp văn bản trong Python mà không cần NLTK?Có một số cách để thực hiện việc này. ==> Xóa tất cả các s ở cuối từ hoặc sao chép các từ dừng của bạn và thêm s vào mỗi từ hoặc sử dụng phương thức len() để xem liệu một phần có khớp chính xác không . Điều thứ hai bạn có thể muốn xem xét (và điều này được thực hiện tốt nhất trước khi bắt đầu). . A second thing you might want to consider (and this is best done before stemming).
Mô-đun Python nào được sử dụng để loại bỏ các từ dừng?Xóa các từ dừng bằng NLTK trong Python. |