Thư viện python tiền xử lý

Xử lý ngôn ngữ tự nhiên, thường được viết tắt là NLP, là một nhánh của trí tuệ nhân tạo quản lý kết nối giữa PC và những người sử dụng ngôn ngữ thông thường. Mục tiêu cuối cùng của NLP là nghiên cứu, làm sáng tỏ, hiểu và tìm ra các phương ngữ của con người theo cách có ý nghĩa. Hầu hết các chiến lược NLP phụ thuộc vào AI để có được ý nghĩa từ phương ngữ của con người

NLP liên quan đến việc áp dụng các tính toán để nhận dạng và phân tách quyết định ngôn ngữ đặc trưng đến mức thông tin ngôn ngữ phi cấu trúc được chuyển đổi thành cấu trúc mà PC có thể hiểu được

Khi nội dung đã được đưa ra, PC sẽ sử dụng các phép tính để rút ra tầm quan trọng liên quan đến từng câu và thu thập thông tin cơ bản từ chúng. Đôi khi, PC có thể không hiểu rõ ý nghĩa của một câu, dẫn đến hậu quả đen tối. Ví dụ, một giai đoạn chuyển hướng đã xảy ra trong những năm 1950 trong quá trình giải thích một số từ giữa phương ngữ tiếng Anh và tiếng Nga.

Thư viện python tiền xử lý

Tại sao NLP lại khó?

Xử lý ngôn ngữ tự nhiên được coi là một vấn đề rắc rối trong công nghệ phần mềm. Đó là ý tưởng về ngôn ngữ của con người khiến NLP trở nên rắc rối. Các nguyên tắc chỉ đạo việc hủy dữ liệu bằng cách sử dụng các ngôn ngữ thông thường rất khó để PC hiểu

Một phần của những nguyên tắc này có thể mang tính lý thuyết cao; . Mặt khác, một số nguyên tắc này có thể được cân bằng thấp;

Thư viện python tiền xử lý

Hiểu thấu đáo ngôn ngữ của con người đòi hỏi phải hiểu cả từ ngữ và cách các ý tưởng được liên kết với việc truyền tải thông điệp được đề xuất. Mặc dù con người chắc chắn có thể thống trị một ngôn ngữ, nhưng các thuộc tính không rõ ràng và mất mát của các phương ngữ đặc trưng là điều khiến NLP khó thực hiện đối với máy móc.

Thư viện Texthero là gì?

Texthero là một thư viện hoặc bộ công cụ python để làm việc với các bộ dữ liệu dựa trên văn bản một cách nhanh chóng và dễ dàng. Nó đặc biệt dễ học và dự định sẽ được sử dụng trên Pandas. Nó có biểu cảm và sức mạnh tương tự như Pandas và được báo cáo rộng rãi. Đó là ngày nay và tưởng tượng cho các kỹ sư phần mềm của nhiều thập kỷ với rất ít thông tin nếu có là từ nguyên

Bạn có thể coi Thư viện Texthero là một công cụ hỗ trợ bạn hiểu và làm việc với bộ dữ liệu dựa trên văn bản. Với một tập dữ liệu đơn giản, không khó để xử lý ý tưởng nguyên tắc. Tất cả những điều được xem xét, với một tập dữ liệu văn bản, sẽ khó có trải nghiệm nhanh hơn đối với thông tin được gạch chân. Với Texthero, tiền xử lý dữ liệu văn bản, ánh xạ nó thành vectơ và trực quan hóa không gian vectơ thu được chỉ mất vài dòng mã

Nó miễn phí, mã nguồn mở và có tài liệu đầy đủ (ngay cả người mới bắt đầu cũng có thể học dễ dàng- điều tốt nhất)

Thư viện python tiền xử lý

Texthero bao gồm các công cụ sau

1. Trực quan hóa dữ liệu (Văn bản). Được sử dụng để trực quan hóa không gian vector và được sử dụng để bản địa hóa địa điểm trên bản đồ

2. Trình bày văn bản. Nó được sử dụng để biểu diễn dữ liệu văn bản thành các vectơ. Ví dụ: nó cung cấp tần suất thuật ngữ, Tần suất tài liệu nghịch đảo thuật ngữ (TF-IDF) và nhúng từ tùy chỉnh

3. Xử lý ngôn ngữ tự nhiên. Được sử dụng để trích xuất từ ​​khóa và cụm từ khóa cũng như nhận dạng đối tượng được đặt tên

4. Phân Tích Không Gian Véc Tơ. Nó được sử dụng để phân tích không gian vectơ. Nó cung cấp các thuật toán phân cụm như K-means, DBSCAN, Hierarchical và Meanshift)

5. Tiền xử lý dữ liệu văn bản. nó cung cấp cả cách sắp xếp bên ngoài nhưng mặt khác, nó có thể thích ứng với các cách sắp xếp tùy chỉnh

Thư viện python tiền xử lý

Cài đặt

Sử dụng đoạn mã dưới đây để cài đặt qua pip. Mở một thiết bị đầu cuối và thực hiện

pip install texthero

Dưới vỏ bọc, Texthero sử dụng nhiều ngăn công cụ NLP và AI khác nhau như Gensim, NLTK, SpaCy và scikit-learning. Bạn không cần phải cài đặt tất cả chúng một cách độc lập, pip sẽ giải quyết vấn đề đó

Nếu bạn đã có nó, hãy nâng cấp lên phiên bản mới nhất bằng lệnh bên dưới

pip install texthero -U

Nhập thư viện

import texthero as hero

Bắt đầu

Thư viện python tiền xử lý

Ở đây chúng tôi đang lấy một ví dụ về Bộ dữ liệu thể thao của BBC cho hướng dẫn thêm của chúng tôi. Bộ dữ liệu này bao gồm 737 tài liệu từ trang web BBC Sport

Có năm lĩnh vực khác nhau trong bộ dữ liệu này là bóng đá, quần vợt, bóng bầu dục, cricket và điền kinh

Tập dữ liệu gốc có dạng tệp zip với năm thư mục đặc biệt chứa bài viết dưới dạng thông tin văn bản cho mọi điểm

Để thuận tiện, chúng tôi đã tạo tập lệnh này để đọc tất cả thông tin nội dung và lưu trữ nó vào Khung dữ liệu Pandas. Vì vậy, hãy bắt đầu bằng cách viết một số mã

Nhập các thư viện cần thiết – texthero và pandas

Import texthero as hero
Import pandas as pd

Đang tải tập dữ liệu. Đang tải Bộ dữ liệu thể thao của BBC bằng gấu trúc trong khung dữ liệu gấu trúc

df = pd.read_csv(‘sample.csv’)
df.head(2)

Đây là đầu ra của mã trên

                       text                           topic
0  "Claxton hunting first major medalnnBritish h..."  athletics
1  "O'Sullivan could run in WorldsnnSonia O'Sull..."  athletics

Tiền xử lý dữ liệu

Hãy làm sạch dữ liệu bằng cách viết một số mã. Để xóa dữ liệu, chúng ta chỉ cần viết một dòng mã

df['clean_data'] = hero.clean(df['text_data'])

Bạn cũng có thể đạt được kết quả tương tự bằng cách sử dụng chức năng đường ống. Kiểm tra mã dưới đây

df['clean_data'] = df['text_data'].pipe(hero.clean)

Một số đường ống mặc định cho phương thức sạch được đưa ra bên dưới

  1. Chữ thường (chuỗi). để viết thường tất cả các văn bản
  2. điền vào. điền giá trị null vào khoảng trống
  3. remove_digits(). Để loại bỏ tất cả các khối chữ số
  4. remove_stopwords(). để loại bỏ tất cả các từ dừng như and, but, how, or, and many more

Để biết thêm thông tin, bấm vào đây. Nhấp chuột

Chúng tôi cũng có thể sử dụng các đường ống tùy chỉnh để thực hiện các tác vụ làm sạch khác nhau cùng một lúc

________số 8

Thư viện python tiền xử lý

đại diện

Sau khi dữ liệu được làm sạch, bước tiếp theo là thay đổi văn bản thành một vectơ. Nó được sử dụng để biểu diễn dữ liệu văn bản thành các vectơ. Ví dụ: nó cung cấp tần suất thuật ngữ, Tần suất tài liệu nghịch đảo thuật ngữ (TF-IDF) và nhúng từ tùy chỉnh. Sol chúng ta hãy bắt đầu

đại diện TFIDF

Dưới đây là mã để thể hiện chuỗi dữ liệu tet pandas bằng TF-IDF

df['clean_text_tfidf'] = hero.tfidf(df['clean_text']

Phân tích thành phần chính (PCA)

Để phân tích thành phần chính trên loạt gấu trúc, hãy sử dụng mã bên dưới

pip install texthero -U
0

Tất cả trong một bước

Chúng tôi có thể hoàn thành mọi một trong ba giai đoạn được hiển thị ở trên, TF-IDF, làm sạch và giảm kích thước trong một bước duy nhất. Không phải là đáng chú ý?

pip install texthero -U
1

Để biết thêm thông tin, bấm vào đây. Nhấp chuột

Thư viện python tiền xử lý

trực quan

Texthero cũng cung cấp một số chức năng để biểu diễn dữ liệu được chuyển đổi dưới dạng hình ảnh. Tất cả các hình ảnh trực quan này được vẽ nội bộ bằng thư viện mã nguồn mở Plotly Python. Nó cung cấp các biểu đồ trực quan như biểu đồ phân tán, đám mây từ, v.v.

Để biết thêm thông tin, bấm vào đây. Nhấp chuột

Thư viện python tiền xử lý

Để biết thêm thông tin, hãy kiểm tra tài liệu chính thức. liên kết

Lưu ý cuối cùng

Bạn có thể kiểm tra bài viết của tôi ở đây. Bài viết

Cảm ơn đã đọc bài viết này và sự kiên nhẫn của bạn. Hãy cho tôi trong phần bình luận về thông tin phản hồi. Chia sẻ bài viết này, nó sẽ cho tôi động lực để viết nhiều blog hơn cho cộng đồng khoa học dữ liệu

id email. gakshay1210@gmail. com

Theo dõi tôi trên LinkedIn. LinkedIn

Phương tiện được hiển thị trong bài viết này trên thư viện TextHero không thuộc sở hữu của Analytics Vidhya và được sử dụng theo quyết định của Tác giả.  

Thư viện nào được sử dụng để tiền xử lý?

Dabl . Một trong những kỹ sư cốt lõi của scikit-learning đã phát triển Dabl dưới dạng thư viện phân tích dữ liệu để đơn giản hóa quá trình khám phá và tiền xử lý dữ liệu. Dabl có một quy trình tích hợp để phát hiện các loại dữ liệu nhất định và các vấn đề về chất lượng trong tập dữ liệu và tự động áp dụng các quy trình tiền xử lý thích hợp.

Mô-đun tiền xử lý trong Python là gì?

Mô-đun tiền xử lý cung cấp lớp tiện ích StandardScaler , đây là cách nhanh chóng và dễ dàng để thực hiện thao tác sau trên tập dữ liệu dạng mảng. >>> >>> từ quá trình tiền xử lý nhập sklearn >>> nhập numpy dưới dạng np >>> X_train = np.

Thư viện Python nào được sử dụng để tiền xử lý dữ liệu trong học máy?

Scikit-learning là một thư viện rất phổ biến cho Machine Learning và cung cấp tài liệu rất chi tiết. Các tính năng của nó bao gồm tiền xử lý dữ liệu, phân tích dữ liệu và đánh giá dữ liệu

Làm cách nào để xử lý trước dữ liệu sklearn?

Các bước tiền xử lý. .
Tải dữ liệu với Scikit-learning
Phân tích dữ liệu thăm dò
Xử lý các giá trị bị thiếu
Suy ra các tính năng mới với kỹ thuật tính năng
Mã hóa các tính năng phân loại
Quy mô tính năng số
Tạo một LogisticRegression
Xây dựng một đường ống