Sự khác biệt giữa xác thực chéo và bootstrapping là gì?
Vì vậy, những gì bạn đang nói là, việc sử dụng kỹ thuật nào là tùy thuộc vào tôi/những người khác, vì tất cả chúng đều khá tốt. Nhưng điều duy nhất cần được nhấn mạnh là tất cả các bước phân tích phải được thực hiện lại cho tất cả các mẫu tái khởi động? Show
Nhưng có điều tôi không hiểu lắm là khi khởi động, bạn tạo một mẫu khởi động mới có thay thế, phát triển một mô hình mới có thể nói như vậy và sau đó sử dụng mẫu đó trên mẫu khởi động ban đầu (ít nhất đó là cách tôi hiểu). Điều đó không đưa ra một số loại sai lệch vì bạn thực sự đang phát triển mô hình của mình trên dữ liệu ở một mức độ nào đó cũng có trong mẫu khởi động ban đầu? Sau khi đào tạo một mô hình học máy, mọi nhà khoa học dữ liệu luôn muốn biết mô hình được đào tạo sẽ hoạt động tốt như thế nào trên dữ liệu chưa nhìn thấy. Một mô hình tốt là một mô hình thực hiện tốt không chỉ dữ liệu huấn luyện mà cả dữ liệu kiểm tra. Để ước tính hiệu suất của mô hình, chúng tôi thường sử dụng một phần dữ liệu để huấn luyện và giữ lại một số dữ liệu để thử nghiệm với hy vọng rằng hiệu suất của mô hình trên dữ liệu thử nghiệm là đại diện cho dữ liệu trong vũ trụ Sau đây là một ví dụ về một vấn đề phân loại đơn giản. Trong ví dụ này, bộ dữ liệu Iris được tải từ mô-đun Sklearn và mô hình Hồi quy logistic phù hợp với dữ liệu. Dữ liệu chứa các bản ghi đầu ra Model 0 accuracy: 0.967
train: [ 2 3 4 5 6 7 8 11 12], test: [1 9 10] 0 như sautrain: [ 2 3 4 5 6 7 8 11 12], test: [1 9 10] 1Điều này cho phép các kết quả của mô hình có thể tái sản xuất, nghĩa là nhất quán. Điều này là do xáo trộn trong quá trình chia nhỏ được tạo thành và do đó dữ liệu được sử dụng để đào tạo và kiểm tra nhất quán trong tất cả các lần lặp lại Quy trình xác thực cổ điển liên quan đến việc thực hiện chính xác những việc đã thực hiện trong ví dụ trên — chia dữ liệu thành hai bộ. tập huấn luyện và kiểm tra - nhưng một lần chạy trên điểm mô hình có thể không kết luận được mô hình có thể hoạt động như thế nào trong quá trình sản xuất. Vì lý do này, chúng tôi cần một cách xác thực tốt hơn. Đây chính xác là nơi xác thực chéo xuất hiện xác thực chéo Xác thực chéo là một kỹ thuật được sử dụng để xác thực mô hình học máy và ước tính hiệu suất của mô hình được đào tạo trên dữ liệu không nhìn thấy được. Nó tốt hơn đánh giá cổ điển như bạn sẽ thấy trong phần thảo luận sau Thủ tục xác thực chéo
✓ Trong số train: [ 2 3 4 5 6 7 8 11 12], test: [1 9 10] 2 lần, một lần duy nhất (_______1_______thư mục thứ 4) được sử dụng làm dữ liệu giữ lại/xác thực và các lần tách train: [ 2 3 4 5 6 7 8 11 12], test: [1 9 10] 8 khác được sử dụng để huấn luyện mô hình✓ Sau khi mô hình được xác thực, hãy giữ lại điểm của mô hình, train: [ 2 3 4 5 6 7 8 11 12], test: [1 9 10] 94. Tổng hợp các điểm đạt được trong ( train: [ 2 3 4 5 6 7 8 11 12], test: [1 9 10] 2. Trong hầu hết các trường hợp, việc tổng hợp được thực hiện bằng cách sử dụng trung bình số học sao choĐối với các nhiệm vụ phân loại, mô hình có thể được chấm điểm bằng cách sử dụng các số liệu như độ chính xác, độ chính xác, khả năng thu hồi, e. t. c. và đối với các số liệu về vấn đề hồi quy như lỗi bình phương trung bình, lỗi tuyệt đối trung bình, e. t. c có thể được sử dụng để chấm điểm mô hình trong mỗi lần lặp lại 5. Phân tích điểm trung bình, Một triển khai đơn giản của xác thực chéo k-fold bằng Sklearnđầu ra train: [ 2 3 4 5 6 7 8 11 12], test: [1 9 10] báo ảnh. Toàn bộ quy trình xác thực chéo k-fold. Trường hợp k=5, nghĩa là xác thực chéo 5 lần. Thẩm quyền giải quyết. trang web SklearnDưới đây là hình ảnh động của quy trình Xác thực chéo có nguồn gốc từ Wikipedia Minh họa xác thực chéo k-fold (trường hợp xác thực chéo 3 lần) khi n = 12 quan sát và k = 3. Sau khi dữ liệu được xáo trộn, tổng cộng 3 mô hình sẽ được đào tạo và kiểm tra. Mỗi nếp gấp sẽ chứa 12/3=4 ví dụ dữ liệu. Nguồn. WikipediaSự lựa chọn của k
✓ Suy nghiệm về tính đại diện — train: [ 2 3 4 5 6 7 8 11 12], test: [1 9 10] 2nên được chọn theo cách sao cho dữ liệu giữ/ nếp gấp đại diện cho toàn bộ (dữ liệu không nhìn thấy được). Ví dụ: nếu chúng tôi có bản ghi 40% 1 và chúng tôi chọn 40% 2 thì tại mỗi lần lặp lại, chỉ có ____27_______3 điểm dữ liệu được sử dụng để xác thực. Điều này làm cho kích thước xác nhận rất nhỏ. Giá trị rất lớn của train: [ 2 3 4 5 6 7 8 11 12], test: [1 9 10] 2 có nghĩa là ít phương sai hơn trong các lần huấn luyện và do đó hạn chế sự khác biệt của mô hình qua các lần lặp lại. Điều này có nghĩa là train: [ 2 3 4 5 6 7 8 11 12], test: [1 9 10] 2 không được quá lớn cũng không được quá nhỏ✓ Quy tắc ngón tay cái — Mặc dù thực tế là train: [ 2 3 4 5 6 7 8 11 12], test: [1 9 10] 2 là tham số không cố định (không thể sử dụng công thức cụ thể nào để xác định lựa chọn tốt nhất), nhưng 40% 7 thường được sử dụng vì nó đã được chứng minh bằng thực nghiệm rằng đó là một lựa chọn tốt trong hầu hết các trường hợp
Đây cũng là một hình ảnh động khác từ Wikipedia thể hiện khái niệm Xác thực chéo bỏ qua một lần Minh họa Xác thực chéo một lần bỏ qua (LOOCV) khi n=8 quan sát. Tổng cộng có 8 mô hình được đào tạo và kiểm tra trước khi quá trình xác thực chéo hoàn tất. Mỗi lần lặp dẫn đến một mô hình được đào tạo trên n-1 điểm dữ liệu và được thử nghiệm trong 1. Nguồn. WikipediaLý do sử dụng phương pháp xác thực chéo
Tóm tắt tính năng của k-Fold Cross-validation
Lấy mẫu Bootstrap Lấy mẫu Bootstrap là một kỹ thuật lấy mẫu lại bao gồm lấy mẫu ngẫu nhiên có thay thế. Từ lấy mẫu lại theo nghĩa đen có nghĩa là 'lấy mẫu lại'- ngụ ý rằng- một mẫu bootstrap được tạo bằng cách lấy mẫu với sự thay thế từ mẫu 'gốc' Thông thường, lấy mẫu được tạo bằng cách chọn một tập hợp con của dân số để phân tích với mục đích suy luận về dân số (dân số -> mẫu) trong khi việc lấy mẫu lại được thực hiện với mục đích suy luận về mẫu (mẫu -> dữ liệu được lấy mẫu lại) Đây là một ví dụ đơn giản. Giả sử rằng một mẫu có kích thước Line 1–15: 9 ví dụ dữ liệu và mỗi bộ mẫu cũng liên quan đến việc lấy mẫu 12 điểm dữ liệu từ dữ liệu gốc có thay thế. Nguồn. Tác giảVì chúng tôi đang lấy mẫu dẫn điện có thay thế, hãy lưu ý những điều sau từ ví dụ trên
Trong thực tế, Trung bình 63. 22% dữ liệu gốc xuất hiện trong bất kỳ mẫu bootstrap cụ thể nào, điều đó giống như nói - một mẫu bootstrap trung bình bỏ qua 100–63. 22=36. 78% dữ liệu trên mẫu ban đầu Hãy chứng minh sự thật toán học này theo cách đơn giản nhất. Và trước khi làm điều đó, chúng ta hãy phát biểu một số sự kiện toán học sẽ giúp chúng ta trong quá trình chứng minh Bây giờ chúng ta có thể tiếp tục với bằng chứng của mình Giả sử dữ liệu gốc có
Từ phép tính, khi Từ đây cần hiểu và vận dụng quy tắc L’Hôpital Phát biểu quy tắc L’Hôpital. Nói một cách dễ hiểu, quy tắc phát biểu rằng, xét hai hàm số f và g mà đạo hàm của chúng tồn tại trong một khoảng I nào đó ngoại trừ tại một điểm c cho trước trong khoảng (nghĩa là đạo hàm tồn tại ở mọi nơi khác trong khoảng nhưng không tồn tại tại . Nếu giới hạn của f và g khi x tiến dần đến điểm c (giả sử f và g là các hàm của x) bằng 0 hoặc vô cùng VÀ đạo hàm của g không bằng 0 đối với mọi giá trị của x trong khoảng I (điều này làm cho . Thẩm quyền giải quyết. WikipediaTừ phương trình Sau đó, chúng ta có thể áp dụng quy tắc L'Hôpital cho Phương trình Điều này kết thúc bằng chứng của chúng tôi với xác nhận rằng bootstrapping loại bỏ ≈36. 22% dữ liệu trong mẫu ban đầu khi Đó là kết thúc của bài viết này cho ngày hôm nay. Nếu bạn thích nó, vui lòng xem bài viết sau về Hàm mất Entropy chéo và đọc nó. Hẹn gặp bạn lần sau và đọc tốt. -) Hàm mất Entropy chéoMột hàm mất mát được sử dụng trong hầu hết các bài toán phân loại để tối ưu hóa mô hình máy học…hướng tới khoa học dữ liệu. com Tham gia phương tiện trên https. //trung bình. com/@kiprono_65591/membership để có quyền truy cập đầy đủ vào mọi câu chuyện trên Medium Bạn cũng có thể nhận các bài báo vào hộp thư đến email của mình bất cứ khi nào tôi đăng bài bằng liên kết này. https. //trung bình. com/đăng ký/@kiprono_65591 Bootstrapping có phải là một kỹ thuật xác thực không?Xác thực khởi động là một cách để dự đoán mức độ phù hợp của một mô hình với bộ thử nghiệm giả định khi không có bộ thử nghiệm rõ ràng .
Sự khác biệt giữa bootstrapping và đóng gói là gì?Về bản chất, bootstrapping là lấy mẫu ngẫu nhiên có thay thế từ dữ liệu huấn luyện có sẵn. Đóng gói (= tổng hợp bootstrap) đang thực hiện nó nhiều lần và đào tạo một công cụ ước tính cho từng tập dữ liệu đã khởi động. Nó có sẵn ở dạng modAL cho cả mô hình ActiveLearner cơ bản và mô hình Ủy ban
Đâu là sự khác biệt giữa crossSự khác biệt lớn giữa các kỹ thuật đóng gói và xác thực là các mô hình trung bình đóng gói (hoặc dự đoán của một tập hợp các mô hình) để giảm phương sai mà dự đoán phải tuân theo trong khi lấy mẫu lại xác thực, chẳng hạn như xác thực chéo và xác thực ngoài bootstrap đánh giá một số
Mục đích của bootstrapping là gì?Bootstrapping mô tả tình huống trong đó một doanh nhân thành lập công ty với ít vốn, dựa vào tiền chứ không phải đầu tư bên ngoài. Một cá nhân được cho là đang khởi động khi họ cố gắng thành lập và xây dựng một công ty từ nguồn tài chính cá nhân hoặc doanh thu hoạt động của công ty mới . |