Hướng dẫn tf-idf visualization python - tf-idf visualization python
I have a few thousands of rows of textual data. My sample data is: Show I have used sklearn CountVectorizer and TfidfTransformer I calculated top terms with tfidf weights. Below is the code which I used for this:
Now I want to plot (bar or line graph) the top 30 terms with their weights using matplotlib. How can I do this? Thanks in Advance! Sau Khiêu Hoàn Thành Khăn Học, Học Viên Sẽ ĐạT ĐượC Các Kỹ Năn.
Texthero là một gói Python để cho phép bạn làm việc hiệu quả và nhanh chóng với dữ liệu văn bản. Bạn có thể nghĩ về Texero là scikit-learn cho bộ dữ liệu dựa trên văn bản. Đưa ra một bộ dữ liệu với dữ liệu có cấu trúc, thật dễ dàng để có sự hiểu biết nhanh về dữ liệu gạch chân. Ngược lại, được đưa ra một bộ dữ liệu bao gồm chỉ có văn bản, khó có thể thực hiện nhanh chóng dữ liệu. Texthero giúp bạn ở đó, cung cấp các chức năng tiện ích để nhanh chóng làm sạch dữ liệu văn bản, ánh xạ nó vào một không gian vectơ và thu thập từ những hiểu biết chính của nó.clean the text data, map it into a vector space and gather from it primary insights. Tích hợp gấu trúcMột trong những trụ cột chính của Texthero là được thiết kế từ mặt đất để làm việc với gấu trúc DataFrame và sê-ri.Pandas Dataframe and Series. Hầu hết các phương pháp Texthero, chỉ cần áp dụng chuyển đổi cho loạt gandas. Theo nguyên tắc thông thường, đối số đầu tiên và sự trở lại của hầu hết các phương thức Texthero đều là một loạt gấu trúc hoặc khung dữ liệu gấu trúc. Đường ốngGiai đoạn đầu tiên của hầu hết mọi xử lý ngôn ngữ tự nhiên gần như giống nhau, độc lập với nhiệm vụ cụ thể. Pandas giới thiệu chức năng ống bắt đầu từ phiên bản 0.16.2. Ống cho phép các phương thức do người dùng xác định trong chuỗi phương thức Cài đặt và nhậpTexthero có sẵn trên PIP. Để cài đặt nó mở một thiết bị đầu cuối và thực thi
Nếu bạn đã cài đặt nó và muốn nâng cấp lên loại phiên bản cuối cùng:
Bắt đầuVí dụ đơn giản, chúng tôi sử dụng bộ dữ liệu BBC Sport, nó bao gồm 737 tài liệu từ trang web của BBC Sport tương ứng với các bài báo thể thao trong năm khu vực tại chỗ từ 2004-2005. Năm khu vực khác nhau là điền kinh, cricket, bóng đá, bóng bầu dục và quần vợt. Bộ dữ liệu gốc đi kèm dưới dạng tệp zip với năm thư mục khác nhau chứa bài viết dưới dạng dữ liệu văn bản cho mỗi chủ đề. Để thuận tiện, chúng tôi đã tạo ra tập lệnh này chỉ cần đọc tất cả dữ liệu văn bản và lưu trữ nó vào khung dữ liệu gấu trúc. Nhập khẩu Texthero và gấu trúc.
Tải bộ dữ liệu 7 trong khung dữ liệu gấu trúc.
Sơ chếLau dọnĐể làm sạch dữ liệu văn bản, tất cả những gì chúng ta phải làm là:
Gần đây, Pandas đã giới thiệu chức năng ống. Bạn có thể đạt được kết quả tương tự với
Đường ống mặc định cho phương thức 8 là như sau:
Đường ống tùy chỉnhChúng tôi cũng có thể chuyển một đường ống tùy chỉnh làm đối số cho 8
Hay cách khác
API tiền xử lýAPI tiền xử lý hoàn chỉnh có thể được tìm thấy tại địa chỉ sau: tiền xử lý API. Đại diệnSau khi làm sạch dữ liệu, tự nhiên tiếp theo là ánh xạ từng tài liệu thành một vectơ. Đại diện TFIDF 0Giảm kích thước với PCAĐể trực quan hóa dữ liệu, chúng tôi ánh xạ từng điểm đến biểu diễn hai chiều với PCA. Các thuật toán phân tích thành phần chính trả về sự kết hợp của các thuộc tính có tính đến phương sai tốt hơn trong dữ liệu. 1Tất cả trong một bướcChúng ta có thể đạt được tất cả ba bước hiển thị ở trên, làm sạch, biểu diễn TF-IDF và giảm kích thước trong một bước duy nhất. Không phải là tuyệt vời? 2API đại diệnAPI mô -đun biểu diễn hoàn chỉnh có thể được tìm thấy tại địa chỉ sau: Biểu diễn API. Hình dung 7 Cung cấp một số chức năng Trợ lý để trực quan hóa khung dữ liệu được chuyển đổi. Tất cả trực quan sử dụng dưới mui xe Thư viện đồ thị nguồn mở Python Plotly Python. 3Ngoài ra, chúng ta có thể "trực quan hóa" những từ phổ biến nhất cho mỗi 8 với 9 4 5API trực quanAPI mô -đun trực quan hoàn chỉnh có thể được tìm thấy tại địa chỉ sau: Trực quan hóa API. Bản tóm tắtChúng tôi đã thấy làm thế nào trong một vài dòng mã chúng tôi có thể đại diện và trực quan hóa bất kỳ bộ dữ liệu văn bản nào. Chúng tôi đã đi từ không biết gì về bộ dữ liệu để thấy rằng có 5 (khá) các khu vực riêng biệt đại diện cho mỗi chủ đề. Chúng tôi đã đi từ số 0 đến anh hùng. 6Phần tiếp theoĐến bây giờ, bạn nên hiểu các khối xây dựng chính của Texthero. Trong các phần tiếp theo, chúng tôi sẽ xem xét từng mô -đun, xem cách chúng tôi có thể điều chỉnh các cài đặt mặc định và chúng tôi sẽ hiển thị ứng dụng khác nơi Texthero có thể có ích. |