Hướng dẫn sample from empirical distribution python - mẫu từ python phân phối theo kinh nghiệm
Cập nhật lần cuối vào ngày 28 tháng 8 năm 2020 Show
Chức năng phân phối thực nghiệm cung cấp một cách để mô hình hóa và xác suất tích lũy mẫu cho một mẫu dữ liệu không phù hợp với phân phối xác suất tiêu chuẩn. Như vậy, đôi khi nó được gọi là hàm phân phối tích lũy theo kinh nghiệm, hoặc ngắn gọn là ECDF.empirical cumulative distribution function, or ECDF for short. Trong hướng dẫn này, bạn sẽ khám phá chức năng phân phối xác suất thực nghiệm. Sau khi hoàn thành hướng dẫn này, bạn sẽ biết:
Bắt đầu dự án của bạn với xác suất sách mới của tôi cho học máy, bao gồm các hướng dẫn từng bước và các tệp mã nguồn Python & NBSP; cho tất cả các ví dụ. with my new book Probability for Machine Learning, including step-by-step tutorials and the Python source code files for all examples. Bắt đầu nào. Cách sử dụng chức năng phân phối thực nghiệm trong Pythonphoto của Gigi Griffis, một số quyền được bảo lưu. Tổng quan hướng dẫnHướng dẫn này được chia thành ba phần; họ đang:
Chức năng phân phối thực nghiệmPhân phối dữ liệu bimodal Lấy mẫu phân phối thực nghiệm Thông thường, phân phối các quan sát cho một mẫu dữ liệu phù hợp với phân phối xác suất nổi tiếng. Ví dụ, chiều cao của con người sẽ phù hợp với phân phối xác suất bình thường (Gaussian). Đây không phải là luôn luôn như vậy. Đôi khi các quan sát trong mẫu dữ liệu được thu thập không phù hợp với bất kỳ phân phối xác suất đã biết nào và không thể dễ dàng bị buộc vào phân phối hiện có bằng cách chuyển đổi dữ liệu hoặc tham số hóa hàm phân phối.
Hàm mật độ xác suất (PDF). Hàm phân phối tích lũy (CDF). PDF trả về xác suất dự kiến để quan sát một giá trị. Đối với dữ liệu riêng biệt, PDF được gọi là hàm khối xác suất (PMF). CDF trả về xác suất dự kiến để quan sát giá trị nhỏ hơn hoặc bằng một giá trị nhất định. Hàm mật độ xác suất thực nghiệm có thể phù hợp và được sử dụng để lấy mẫu dữ liệu bằng phương pháp ước tính mật độ không theo tỷ lệ, chẳng hạn như ước tính mật độ hạt nhân (KDE). Một hàm phân phối tích lũy thực nghiệm được gọi là hàm phân phối thực nghiệm, hoặc viết tắt là EDF. Nó cũng được gọi là hàm phân phối tích lũy thực nghiệm, hoặc ECDF.
Như sau: Edf (x) = số lượng quan sát Giống như các hàm phân phối tích lũy khác, tổng xác suất sẽ tiến hành từ 0,0 đến 1,0 vì các quan sát trong miền được liệt kê từ nhỏ nhất đến lớn nhất.Để làm cho chức năng phân phối thực nghiệm bê tông, hãy để Lôi xem xét một ví dụ với một bộ dữ liệu rõ ràng không phù hợp với phân phối xác suất đã biết. Muốn học xác suất cho việc học máy Phân phối dữ liệu bimodalLấy mẫu phân phối thực nghiệm Thông thường, phân phối các quan sát cho một mẫu dữ liệu phù hợp với phân phối xác suất nổi tiếng. Ví dụ, chiều cao của con người sẽ phù hợp với phân phối xác suất bình thường (Gaussian). Đây không phải là luôn luôn như vậy. Đôi khi các quan sát trong mẫu dữ liệu được thu thập không phù hợp với bất kỳ phân phối xác suất đã biết nào và không thể dễ dàng bị buộc vào phân phối hiện có bằng cách chuyển đổi dữ liệu hoặc tham số hóa hàm phân phối. Thay vào đó, một phân phối xác suất thực nghiệm phải được sử dụng.
EDF được tính toán bằng cách đặt hàng tất cả các quan sát duy nhất trong mẫu dữ liệu và tính xác suất tích lũy cho mỗi lần quan sát nhỏ hơn hoặc bằng với một quan sát nhất định chia cho tổng số quan sát. Như sau:: Your results may vary given the stochastic nature of the algorithm or evaluation procedure, or differences in numerical precision. Consider running the example a few times and compare the average outcome. Chúng ta có ít mẫu hơn với giá trị trung bình 20 so với các mẫu có giá trị trung bình là 40, chúng ta có thể thấy được phản ánh trong biểu đồ với mật độ mẫu lớn hơn khoảng 40 so với khoảng 20. Biểu đồ biểu đồ của mẫu dữ liệu với phân phối xác suất lưỡng kim Dữ liệu với phân phối này không phù hợp với phân phối xác suất chung theo thiết kế. Dưới đây là một biểu đồ của hàm mật độ xác suất (PDF) của mẫu dữ liệu này. Chức năng mật độ xác suất thực nghiệm cho mẫu dữ liệu lưỡng kim Đó là một trường hợp tốt để sử dụng chức năng phân phối thực nghiệm. Tính chức năng phân phối thực nghiệmMột chức năng phân phối thực nghiệm có thể phù hợp với một mẫu dữ liệu trong Python. Thư viện Python Statmodels cung cấp lớp ECDF để phù hợp với chức năng phân phối tích lũy theo kinh nghiệm và tính toán xác suất tích lũy cho các quan sát cụ thể từ miền. Phân phối phù hợp bằng cách gọi ECDF () và truyền trong mẫu dữ liệu thô.
Khi phù hợp, hàm có thể được gọi để tính xác suất tích lũy cho một quan sát nhất định.
Khi phù hợp, hàm có thể được gọi để tính xác suất tích lũy cho một quan sát nhất định.
Khi phù hợp, hàm có thể được gọi để tính xác suất tích lũy cho một quan sát nhất định.
Khi phù hợp, hàm có thể được gọi để tính xác suất tích lũy cho một quan sát nhất định.: Your results may vary given the stochastic nature of the algorithm or evaluation procedure, or differences in numerical precision. Consider running the example a few times and compare the average outcome. # Nhận xác suất tích lũy cho các giá trị
Lớp cũng cung cấp một danh sách các quan sát độc đáo trong dữ liệu (thuộc tính .x) và xác suất liên quan của chúng (thuộc tính .y). Chúng ta có thể truy cập các thuộc tính này và vẽ trực tiếp chức năng CDF. # vẽ sơ đồ CDF Kết hợp điều này lại với nhau, ví dụ hoàn chỉnh về việc phù hợp với chức năng phân phối thực nghiệm cho mẫu dữ liệu lưỡng kim là bên dưới. # phù hợp với một cdf thực nghiệm vào bộ dữ liệu lưỡng kimtừ pyplot nhập khẩu matplotlib từ numpy.random nhập khẩu bình thường
# Tạo mẫu
Chạy ví dụ phù hợp với CDF thực nghiệm vào mẫu dữ liệu, sau đó in xác suất tích lũy để quan sát ba giá trị.
Phần này cung cấp nhiều tài nguyên hơn về chủ đề nếu bạn đang muốn đi sâu hơn.Sách Mục 2.3.4 Phân phối thực nghiệm, học máy: Một quan điểm xác suất, 2012.
Bài viết Chức năng phân phối thực nghiệm, Wikipedia.Chức năng phân phối tích lũy, Wikipedia.Hàm mật độ xác suất, wikipedia. Ước tính mật độ hạt nhân, Wikipedia. Bản tóm tắtself-study tutorials and end-to-end projects on: Trong hướng dẫn này, bạn đã phát hiện ra chức năng phân phối xác suất thực nghiệm.Cụ thể, bạn đã học được: Một số mẫu dữ liệu không thể được tóm tắt bằng cách sử dụng phân phối tiêu chuẩn. Phân phối thực nghiệm của một mẫu là gì?Phân phối thực nghiệm, hoặc chức năng phân phối thực nghiệm, có thể được sử dụng để mô tả một mẫu quan sát của một biến nhất định. Giá trị của nó tại một điểm nhất định bằng tỷ lệ quan sát từ mẫu nhỏ hơn hoặc bằng điểm đó.a sample of observations of a given variable. Its value at a given point is equal to the proportion of observations from the sample that are less than or equal to that point.
Sự khác biệt giữa phân phối thực nghiệm và phân phối lấy mẫu là gì?Nói một cách đơn giản, một phân phối thực nghiệm thay đổi W.R.T.Đối với mẫu thực nghiệm, trong khi phân phối lý thuyết không w.r.t.đến mẫu đến từ nó.Hoặc đặt nó một cách khác, một phân phối thực nghiệm được xác định bởi mẫu, trong khi phân phối lý thuyết có thể xác định mẫu ra khỏi nó.an empirical distribution changes w.r.t. to the empirical sample, whereas a theoretical distribution doesn't w.r.t. to the sample coming from it. Or put it another way, an empirical distribution is determined by the sample, whereas a theoretical distribution can determine the sample coming out of it.
Làm thế nào để Python tính toán ECDF?Instructions.. Tính toán số lượng điểm dữ liệu, n, sử dụng hàm Len () .. Giá trị là dữ liệu được sắp xếp .. Dữ liệu của ECDF đi từ 1/N đến 1 theo mức tăng cách đều nhau.Bạn có thể xây dựng điều này bằng NP.Arange ().Tuy nhiên, hãy nhớ rằng giá trị cuối cùng trong NP..... Hàm trả về các giá trị x và y .. Phân phối thực nghiệm có nghĩa là gì?Một phân phối thực nghiệm là một trong đó mỗi sự kiện có thể được gán một xác suất xuất phát từ quan sát thử nghiệm.Người ta cho rằng các sự kiện là độc lập và tổng của xác suất là 1. Một phân phối thực nghiệm có thể đại diện cho một liên tục hoặc rời rạc.phân bổ.one for which each possible event is assigned a probability derived from experimental observation. It is assumed that the events are independent and the sum of the probabilities is 1. An empirical distribution may represent either a continuous or a discrete. distribution. |