Trước khi sử dụng toán tử này, bạn có thể cần chỉ định đường dẫn đến bản cài đặt Python của mình trong menu Cài đặt -> Tùy chọn [trên Mac OS chọn RapidMiner Studio -> Tùy chọn]. Trong bảng cài đặt xuất hiện, chọn tab Python Scripting. Bản cài đặt Python của bạn phải bao gồm mô-đun pandas vì các bộ mẫu được chuyển đổi thành pandas. khung dữ liệu. Bằng cách bỏ chọn hộp kiểm sử dụng python mặc định, bạn có thể định cấu hình một nhị phân Python riêng lẻ cho toán tử này thay vì sử dụng cài đặt chung
Toán tử này thực thi tập lệnh được cung cấp thông qua cổng hoặc tham số tệp tập lệnh hoặc tập lệnh được chỉ định trong tham số tập lệnh. Các đối số của tập lệnh tương ứng với các cổng đầu vào, trong đó các bộ mẫu được chuyển đổi thành Pandas DataFrames. Tương tự, các giá trị do tập lệnh trả về được phân phối tại các cổng đầu ra của toán tử, nơi các Khung dữ liệu được chuyển đổi thành các bộ mẫu
Toán tử hỗ trợ môi trường ảo conda [anaconda], môi trường ảo virtualenvwrapper và bạn có thể chọn tệp nhị phân Python, bằng cách chỉ định đường dẫn hệ thống tệp đầy đủ cho nó. Để biết thêm thông tin về cách chọn Python cần thiết, hãy xem phần Tham số của trang trợ giúp này. Lưu ý rằng bạn có thể cần định cấu hình tiện ích mở rộng. Đối với điều này, hãy đi tới menu Cài đặt -> Tùy chọn [trên Mac OS, chọn RapidMiner Studio -> Tùy chọn]. Trong bảng cài đặt xuất hiện, chọn tab Python Scripting. Chỉnh sửa cài đặt tại đây, nếu cần
Sử dụng conda. nếu bạn đã cài đặt bản phân phối conda Python vào một vị trí không phải mặc định, bạn có thể cần thêm thư mục cài đặt và một số thư mục con trong cài đặt chung của Tiện ích mở rộng Python Scripting. Đối với điều này, hãy đi tới menu Cài đặt -> Tùy chọn [trên Mac OS, chọn RapidMiner Studio -> Tùy chọn]. Trong bảng cài đặt xuất hiện, chọn tab Python Scripting. Thêm thư mục cài đặt cài đặt conda của bạn vào danh sách đường dẫn tìm kiếm. Trên Windows, bạn cần thêm thư mục con conda_install_dir\Scripts và trên Linux và Mac OS, thư mục con conda_install_dir/bin cũng vậy
Truy cập macro. bạn có thể truy cập và sửa đổi các macro được xác định trong RapidMiner từ mã Python. Bạn có thể gọi macro bằng cách đặt tên của macro bên trong dấu %{}. Trước khi diễn giải mã Python, các giá trị này sẽ được thay thế bằng các giá trị macro thực tế. Để kiểm soát chi tiết hơn đối với macro, hãy đặt tham số sử dụng macro. Để biết thêm thông tin, hãy xem mô tả tham số bên dưới
Đầu ra bảng điều khiển của Python được hiển thị trong Chế độ xem nhật ký [Chế độ xem -> Hiển thị chế độ xem -> Nhật ký]
Đầu vào
- tệp script [Tệp]
Một tệp chứa tập lệnh python sẽ được thực thi. Tệp phải tuân thủ các quy tắc tham số tập lệnh. Cổng này là tùy chọn, một tệp cũng có thể được cung cấp thông qua tham số tệp tập lệnh
- đầu vào
Toán tử Script có thể có nhiều đầu vào. Đầu vào phải là một bộ mẫu, đối tượng tệp, đối tượng kết nối hoặc đối tượng Python được tạo bởi toán tử 'Execute Python'
đầu ra
- đầu ra
Toán tử Script có thể có nhiều đầu ra. Một đầu ra có thể là một tập mẫu, một đối tượng tệp hoặc một đối tượng Python được tạo bởi toán tử này
Thông số
- script
Tập lệnh Python để thực thi. Xác định một phương thức có tên 'rm_main' với nhiều đối số như cổng đầu vào được kết nối hoặc thay vào đó là đối số *args để sử dụng số lượng thuộc tính động. Các giá trị trả về của phương thức 'rm_main' được gửi đến các cổng đầu ra được kết nối. Nếu phương thức trả về một bộ dữ liệu thì các mục đơn lẻ của bộ dữ liệu được gửi đến các cổng đầu ra. Các mục từ kiểu dữ liệu 'gấu trúc. DataFrames' được chuyển đổi thành bộ mẫu; . Các đối tượng Python được tuần tự hóa phải nhỏ hơn 2 GB
Nếu bạn chuyển một bộ mẫu cho tập lệnh của mình thông qua một cổng đầu vào, siêu dữ liệu của bộ mẫu [loại và vai trò] sẽ có sẵn trong tập lệnh. Bạn có thể truy cập nó bằng cách đọc thuộc tính rm_metadata của pandas được liên kết. DataFrame, trong dữ liệu mẫu của chúng tôi. dữ liệu. rm_metadata là một từ điển từ tên thuộc tính đến bộ loại thuộc tính và vai trò thuộc tính
Bạn có thể tác động đến siêu dữ liệu của một bộ mẫu mà bạn trả về dưới dạng pandas. DataFrame bằng cách đặt thuộc tính rm_metadata. Nếu bạn không chỉ định các loại thuộc tính trong từ điển này, chúng sẽ được xác định bằng cách sử dụng các loại dữ liệu trong Python. Bạn có thể chỉ định vai trò của riêng mình hoặc sử dụng vai trò tiêu chuẩn của RapidMiner như 'nhãn'
Để biết thêm thông tin về việc xử lý dữ liệu meta trong toán tử Python, hãy kiểm tra quy trình hướng dẫn 'Xử lý dữ liệu meta' bên dưới
Nếu tệp tập lệnh được cung cấp thông qua cổng hoặc tham số của tệp tập lệnh [cổng được ưu tiên], thì tập lệnh đó sẽ được sử dụng thay cho giá trị của tham số này
Phạm vi. chữ - script_file Tệp chứa tập lệnh python sẽ được thực thi. Tệp phải tuân thủ các quy tắc tham số tập lệnh. Tham số này là tùy chọn. Phạm vi. tên tệp
- sử dụng_default_python
Sử dụng nhị phân Python hoặc môi trường được xác định trong cài đặt toàn cầu của RapidMiner Studio. Có thể truy cập cài đặt chung từ menu Cài đặt -> Tùy chọn [trên Mac OS chọn RapidMiner Studio -> Tùy chọn]. Trong bảng cài đặt xuất hiện, chọn tab Python Scripting. Tại đây bạn có thể xác định các giá trị mặc định
Phạm vi. boolean - gói_manager
Tham số này chỉ khả dụng nếu sử dụng python mặc định được đặt thành false. Tham số này chỉ định trình quản lý gói được sử dụng bởi nhà điều hành. Hiện tại Conda/Anaconda/Miniconda và Virtualenvwrapper được hỗ trợ hoặc bạn cũng có thể xác định đường dẫn đầy đủ đến tệp nhị phân python ưa thích của mình
Phạm vi. lựa chọn - conda_environment
Tham số này chỉ khả dụng nếu sử dụng python mặc định được đặt thành false và trình quản lý gói được đặt thành conda [anaconda]. Tham số này chỉ định môi trường ảo conda được sử dụng bởi toán tử này
Phạm vi. lựa chọn - venvw_environment
Tham số này chỉ khả dụng nếu sử dụng python mặc định được đặt thành false và trình quản lý gói được đặt thành virtualenvwrapper. Tham số này chỉ định môi trường ảo virtualenvwrapper được sử dụng bởi toán tử này
- python_binary
Tham số này chỉ khả dụng nếu sử dụng python mặc định được đặt thành false và trình quản lý gói được đặt thành nhị phân python cụ thể. Tham số này chỉ định đường dẫn đến tệp nhị phân python, được sử dụng bởi toán tử này
Phạm vi. chuỗi - sử dụng_macro
Sử dụng một macro tham số có tên bổ sung cho phương thức rm_main [LƯU Ý rằng bạn sẽ cần sửa đổi tập lệnh và thêm tham số theo cách thủ công]. Bằng cách này, tất cả các giá trị macro sẽ được chuyển dưới dạng tham số bổ sung của phương thức rm_main và bạn có thể truy cập các giá trị macro thông qua từ điển macro. Mỗi giá trị từ điển sẽ là một chuỗi Python. Bạn cũng có thể sửa đổi các giá trị của từ điển hoặc thêm các phần tử mới. Các thay đổi sẽ được phản ánh trong RapidMiner sau khi thực thi toán tử
Phạm vi. boolean
Quy trình hướng dẫn
Phân cụm bằng Python
Dữ liệu ngẫu nhiên được tạo và sau đó được đưa vào tập lệnh Python. Tập lệnh phân cụm dữ liệu trong Python bằng cách sử dụng nhiều cụm như được chỉ định trong macro. Ví dụ kết quả chứa cụm trong thuộc tính 'cụm'
Xây dựng mô hình và áp dụng nó bằng Python
Quy trình hướng dẫn này sử dụng các toán tử 'Thực thi Python' để trước tiên xây dựng mô hình cây quyết định bằng cách sử dụng dữ liệu 'Giao dịch' và sau đó áp dụng nó vào dữ liệu 'Bộ kiểm tra giao dịch'. Trước khi sử dụng dữ liệu, các giá trị danh nghĩa được chuyển đổi thành số nguyên duy nhất. Toán tử kịch bản Python đầu tiên 'mô hình xây dựng' xây dựng mô hình và đưa nó đến cổng đầu ra của nó. Toán tử kịch bản Python thứ hai 'áp dụng mô hình' áp dụng mô hình này cho bộ kiểm tra, thêm một cột có tên là dự đoán. Sau khi chỉ định các cột 'nhãn' và 'dự đoán' bằng 'Đặt vai trò', bạn có thể xem kết quả
Tạo một cốt truyện bằng Python và lưu trữ nó trong kho lưu trữ của bạn
Quy trình hướng dẫn này sử dụng toán tử 'Thực thi Python' để tìm nạp dữ liệu mẫu trước tiên, sau đó tạo một biểu đồ và trả cả hai về các cổng đầu ra. Vui lòng lưu trữ quy trình trong kho lưu trữ của bạn. Dữ liệu được hiển thị dưới dạng tập mẫu và biểu đồ được lưu trữ trong kho lưu trữ dưới dạng hình ảnh
Đọc một bộ ví dụ từ một tệp bằng Python
Quy trình hướng dẫn này sử dụng toán tử 'Thực thi Python' để lưu dữ liệu mẫu trong tệp csv. Toán tử 'Thực thi Python' thứ hai nhận tệp này, đọc dữ liệu và trả lại một phần dữ liệu cho cổng đầu ra. Kết quả là một bộ ví dụ
xử lý siêu dữ liệu
Quy trình hướng dẫn này cho biết cách truy cập dữ liệu meta của các bộ mẫu sắp tới bên trong toán tử 'Thực thi Python'. Nó cũng giải thích cách đặt siêu dữ liệu cho các bộ ví dụ sắp tới