Hướng dẫn how do you calculate possibilities in python? - làm thế nào để bạn tính toán các khả năng trong python?

Do you want iteration? itertools.combinations. Common usage:

>>> import itertools
>>> itertools.combinations('abcd',2)

>>> list(itertools.combinations('abcd',2))
[('a', 'b'), ('a', 'c'), ('a', 'd'), ('b', 'c'), ('b', 'd'), ('c', 'd')]
>>> [''.join(x) for x in itertools.combinations('abcd',2)]
['ab', 'ac', 'ad', 'bc', 'bd', 'cd']

If you just need to compute the formula, math.factorial can be used, but is not fast for large combinations, but see math.comb below for an optimized calculation available in Python 3.8+:

import math

def nCr(n,r):
    f = math.factorial
    return f(n) // f(r) // f(n-r)

if __name__ == '__main__':
    print nCr(4,2)

Output:

6

As of Python 3.8, math.comb can be used and is much faster:

>>> import math
>>> math.comb(4,2)
6

Ngày 18 tháng 7 năm 2018

Hướng dẫn how do you calculate possibilities in python? - làm thế nào để bạn tính toán các khả năng trong python?

Khi nghiên cứu số liệu thống kê cho khoa học dữ liệu, chắc chắn bạn sẽ phải tìm hiểu về xác suất. Thật dễ dàng đánh mất chính mình trong các công thức và lý thuyết đằng sau xác suất, nhưng nó có cách sử dụng thiết yếu trong cả cuộc sống làm việc và cuộc sống hàng ngày. Trước đây chúng tôi đã thảo luận về một số khái niệm cơ bản trong thống kê mô tả; Bây giờ chúng tôi sẽ khám phá cách thống kê liên quan đến xác suất.

Prerequisites:

Tương tự như bài viết trước, bài viết này giả định không có kiến ​​thức về thống kê trước đó, nhưng ít nhất là yêu cầu kiến ​​thức chung về Python và khoa học dữ liệu chung. Nếu bạn không thoải mái với các vòng lặp và danh sách, tôi khuyên bạn nên bao gồm chúng một thời gian ngắn trong khóa học Python giới thiệu của chúng tôi trước khi tiến triển.

Xác suất là gì?

Ở cấp độ cơ bản nhất, xác suất tìm cách trả lời câu hỏi, thì cơ hội của một sự kiện xảy ra là gì? Một sự kiện là một số kết quả quan tâm. Để tính toán cơ hội của một sự kiện xảy ra, chúng ta cũng cần xem xét tất cả các sự kiện khác có thể xảy ra. Đại diện tinh túy của xác suất là việc ném đồng xu khiêm tốn. Trong một đồng xu Toss, các sự kiện duy nhất có thể xảy ra là:event is some outcome of interest. To calculate the chance of an event happening, we also need to consider all the other events that can occur. The quintessential representation of probability is the humble coin toss. In a coin toss the only events that can happen are:

  1. Lật một cái đầu
  2. Lật một cái đuôi

Hai sự kiện này tạo thành không gian mẫu, tập hợp tất cả các sự kiện có thể xảy ra. Để tính toán xác suất của một sự kiện xảy ra, chúng tôi đếm số lần là sự kiện quan tâm có thể xảy ra (giả sử lật đầu) và chia nó cho không gian mẫu. Do đó, xác suất sẽ cho chúng ta biết rằng một đồng xu lý tưởng sẽ có cơ hội 1 trong 2 là đầu hoặc đuôi. Bằng cách xem xét các sự kiện có thể xảy ra, xác suất cho chúng ta một khuôn khổ để đưa ra dự đoán về tần suất các sự kiện sẽ xảy ra. Tuy nhiên, mặc dù có vẻ rõ ràng, nếu chúng ta thực sự cố gắng ném một số đồng tiền, chúng ta có thể sẽ nhận được số lượng đầu cao hoặc thấp bất thường mỗi lần một lần. Nếu chúng ta không muốn đưa ra giả định rằng đồng xu là công bằng, chúng ta có thể làm gì? Chúng tôi có thể thu thập dữ liệu! Chúng ta có thể sử dụng số liệu thống kê để tính toán xác suất dựa trên các quan sát từ thế giới thực và kiểm tra cách nó so sánh với lý tưởng.sample space, the set of all possible events that can happen. To calculate the probability of an event occurring, we count how many times are event of interest can occur (say flipping heads) and dividing it by the sample space. Thus, probability will tell us that an ideal coin will have a 1-in-2 chance of being heads or tails. By looking at the events that can occur, probability gives us a framework for making predictions about how often events will happen. However, even though it seems obvious, if we actually try to toss some coins, we’re likely to get an abnormally high or low counts of heads every once in a while. If we don’t want to make the assumption that the coin is fair, what can we do? We can gather data! We can use statistics to calculate probabilities based on observations from the real world and check how it compares to the ideal.

Từ thống kê đến xác suất

Dữ liệu của chúng tôi sẽ được tạo bằng cách lật một đồng xu 10 lần và đếm số lần chúng tôi nhận được. Chúng tôi sẽ gọi một bộ 10 đồng xu ném một thử nghiệm. Điểm dữ liệu của chúng tôi sẽ là số lượng người đứng đầu chúng tôi quan sát. Chúng tôi có thể không nhận được những người đứng đầu lý tưởng của nhóm 5, nhưng chúng tôi đã giành được lo lắng quá nhiều vì một thử nghiệm chỉ là một điểm dữ liệu. Nếu chúng tôi thực hiện nhiều, nhiều thử nghiệm, chúng tôi hy vọng số lượng đầu trung bình trong tất cả các thử nghiệm của chúng tôi sẽ tiếp cận 50%. Mã dưới đây mô phỏng các thử nghiệm 10, 100, 1000 và 1000000, sau đó tính toán tỷ lệ trung bình của các đầu được quan sát. Quá trình của chúng tôi được tóm tắt trong hình ảnh dưới đây là tốt.

Hướng dẫn how do you calculate possibilities in python? - làm thế nào để bạn tính toán các khả năng trong python?


import random
def coin_trial():
heads = 0
for i in range(100):
    if random.random() <= 0.5:
        heads +=1
    return heads
def simulate(n):
    trials = [] 
    for i in range(n):
        trials.append(coin_trial())
    return(sum(trials)/n)
simulate(10)
>>> 5.4
simulate(100)
>>> 4.83
simulate(1000)
>>> 5.055
simulate(1000000)
>>> 4.999781

Hàm

import math

def nCr(n,r):
    f = math.factorial
    return f(n) // f(r) // f(n-r)

if __name__ == '__main__':
    print nCr(4,2)
1 là những gì đại diện cho một mô phỏng 10 đồng xu. Nó sử dụng hàm
import math

def nCr(n,r):
    f = math.factorial
    return f(n) // f(r) // f(n-r)

if __name__ == '__main__':
    print nCr(4,2)
2 để tạo ra một chiếc phao từ 0 đến 1 và tăng số lượng
import math

def nCr(n,r):
    f = math.factorial
    return f(n) // f(r) // f(n-r)

if __name__ == '__main__':
    print nCr(4,2)
3 của chúng tôi nếu nó trong vòng một nửa phạm vi đó. Sau đó,
import math

def nCr(n,r):
    f = math.factorial
    return f(n) // f(r) // f(n-r)

if __name__ == '__main__':
    print nCr(4,2)
4 lặp lại các thử nghiệm này tùy thuộc vào số lần bạn thích, trả lại số lượng đầu trung bình trên tất cả các thử nghiệm. Các mô phỏng Toss Coin cho chúng tôi một số kết quả thú vị.

Đầu tiên, dữ liệu xác nhận rằng số lượng đầu trung bình của chúng tôi tiếp cận xác suất nào cho thấy nó nên có. Hơn nữa, trung bình này cải thiện với nhiều thử nghiệm hơn. Trong 10 thử nghiệm, có một số lỗi nhỏ, nhưng lỗi này gần như biến mất hoàn toàn với 1.000.000 thử nghiệm. Khi chúng ta nhận được nhiều thử nghiệm hơn, độ lệch ra khỏi mức trung bình giảm. Nghe có vẻ quen? Chắc chắn, chúng tôi có thể tự lật đồng xu, nhưng Python giúp chúng tôi tiết kiệm rất nhiều thời gian bằng cách cho phép chúng tôi mô hình hóa quá trình này trong mã. Khi chúng ta nhận được ngày càng nhiều dữ liệu, thế giới thực bắt đầu giống với lý tưởng.

Do đó, được cung cấp đủ dữ liệu, số liệu thống kê cho phép chúng tôi tính toán xác suất bằng cách sử dụng các quan sát trong thế giới thực. Xác suất cung cấp lý thuyết, trong khi số liệu thống kê cung cấp các công cụ để kiểm tra lý thuyết đó bằng cách sử dụng dữ liệu. Các thống kê mô tả, cụ thể là trung bình và độ lệch chuẩn, trở thành proxy cho lý thuyết. Bạn có thể hỏi, Tại sao tôi cần một proxy nếu tôi có thể tính toán xác suất lý thuyết? Tiền xu là một ví dụ đồ chơi đơn giản, nhưng xác suất thú vị hơn không dễ tính.

Cơ hội của một người nào đó đang phát triển một căn bệnh theo thời gian là gì? Xác suất mà một thành phần xe hơi quan trọng sẽ thất bại khi bạn đang lái xe là gì? Không có cách nào dễ dàng để tính toán xác suất, vì vậy chúng ta phải quay lại sử dụng dữ liệu và số liệu thống kê để tính toán chúng. Được cung cấp ngày càng nhiều dữ liệu, chúng ta có thể trở nên tự tin hơn rằng những gì chúng ta tính toán thể hiện xác suất thực sự của các sự kiện quan trọng này xảy ra. Điều đó đang được nói, hãy nhớ từ bài viết thống kê trước đây của chúng tôi rằng bạn là một người đào tạo sommelier. Bạn cần tìm ra loại rượu nào tốt hơn những loại khác trước khi bạn bắt đầu mua chúng. Bạn có rất nhiều dữ liệu trong tay, vì vậy chúng tôi sẽ sử dụng số liệu thống kê của chúng tôi để hướng dẫn quyết định của chúng tôi.

Dữ liệu và phân phối

Trước khi chúng ta có thể giải quyết câu hỏi về loại rượu nào tốt hơn mức trung bình, thì chúng ta phải quan tâm đến bản chất của dữ liệu. Theo trực giác, chúng tôi muốn sử dụng điểm số của các loại rượu để so sánh các nhóm, nhưng có một vấn đề: điểm số thường rơi vào phạm vi. Làm thế nào để chúng ta so sánh các nhóm điểm giữa các loại rượu vang và biết với một mức độ chắc chắn nào đó rằng cái này tốt hơn loại kia? Nhập phân phối bình thường. Phân phối bình thường đề cập đến một hiện tượng đặc biệt quan trọng trong lĩnh vực xác suất và thống kê. Phân phối bình thường trông như thế này:normal distribution. The normal distribution refers to a particularly important phenomenon in the realm of probability and statistics. The normal distribution looks like this:

Hướng dẫn how do you calculate possibilities in python? - làm thế nào để bạn tính toán các khả năng trong python?

Những phẩm chất quan trọng nhất cần chú ý về phân phối bình thường là sự đối xứng và hình dạng của nó. Chúng tôi đã gọi nó là một bản phân phối, nhưng chính xác thì điều gì đang được phân phối? Nó phụ thuộc vào ngữ cảnh. Trong xác suất, phân phối bình thường là một phân phối cụ thể của xác suất trên tất cả các sự kiện. Trục X đảm nhận các giá trị của các sự kiện mà chúng tôi muốn biết xác suất. Trục Y là xác suất liên quan đến mỗi sự kiện, từ 0 đến 1.symmetry and its shape. We’ve been calling it a distribution, but what exactly is being distributed? It depends on the context. In probability, the normal distribution is a particular distribution of the probability across all of the events. The x-axis takes on the values of events we want to know the probability of. The y-axis is the probability associated with each event, from 0 to 1.

Chúng tôi đã thảo luận về phân phối xác suất chuyên sâu ở đây, nhưng biết rằng phân phối bình thường là một loại phân phối xác suất đặc biệt quan trọng. Trong thống kê, đó là các giá trị của dữ liệu của chúng tôi đang được phân phối. Ở đây, trục X là giá trị của dữ liệu của chúng tôi và trục y là số lượng của từng giá trị này. Ở đây, cùng một bức tranh về phân phối bình thường, nhưng được dán nhãn theo xác suất và bối cảnh thống kê:

Hướng dẫn how do you calculate possibilities in python? - làm thế nào để bạn tính toán các khả năng trong python?

Trong bối cảnh xác suất, điểm cao trong phân phối bình thường thể hiện sự kiện với xác suất cao nhất xảy ra. Khi bạn rời xa sự kiện này ở hai bên, xác suất giảm nhanh chóng, tạo thành hình chuông quen thuộc đó. Điểm cao trong bối cảnh thống kê thực sự đại diện cho giá trị trung bình. Như trong xác suất, khi bạn đi xa hơn mức trung bình, bạn nhanh chóng giảm tần số. Điều đó có nghĩa là, độ lệch cực kỳ cao và thấp so với giá trị trung bình có mặt nhưng cực kỳ hiếm.

Nếu bạn nghi ngờ có một mối quan hệ khác giữa xác suất và số liệu thống kê thông qua phân phối bình thường, thì bạn đã đúng khi nghĩ như vậy! Chúng tôi sẽ khám phá mối quan hệ quan trọng này sau này trong bài viết, vì vậy hãy giữ chặt. Vì chúng tôi sẽ sử dụng phân phối điểm số để so sánh các loại rượu khác nhau, chúng tôi sẽ thực hiện một số thiết lập để thu được một số loại rượu mà chúng tôi quan tâm. Chúng tôi sẽ mang dữ liệu rượu và sau đó tách ra các điểm của một số loại rượu vang quan tâm đến chúng tôi. Để mang lại dữ liệu, chúng tôi cần mã sau:

import csv
with open("wine-data.csv", "r", encoding="latin-1") as f:
    wines = list(csv.reader(f))

Dữ liệu được hiển thị dưới đây ở dạng bảng. Chúng tôi cần cột

import math

def nCr(n,r):
    f = math.factorial
    return f(n) // f(r) // f(n-r)

if __name__ == '__main__':
    print nCr(4,2)
5, vì vậy chúng tôi sẽ trích xuất điều này vào danh sách của riêng mình. Chúng tôi đã nghe từ một chuyên gia rượu vang rằng rượu vang Tokaji Hungary rất tuyệt vời, trong khi một người bạn đã gợi ý rằng chúng tôi bắt đầu với Lambrusco của Ý. Chúng tôi có dữ liệu để so sánh các loại rượu này! Nếu bạn không nhớ dữ liệu trông như thế nào, thì đây là một bảng nhanh để tham khảo và được làm quen.

mục lụcquốc giasự mô tảchỉ địnhđiểmgiá bánđịa bàn tỉnhregion_1region_2đa dạngrượu vang
0 CHÚNG TAĐây là 100%nàyVươn nho của Martha96 235 Californiathung lũng NapaNapaCabernet SauvignonHeitz
1 Tây ban nhaMùi hương thơm của hình FigCarodorum selecci đặc biệt96 110 Phía bắc Tây Ban NhaToro Tinta de ToroBodega Carmen Rodriguez
2 CHÚNG TAĐây là 100%nàyVươn nho của Martha96 90 Californiathung lũng NapaNapaCabernet SauvignonHeitz
3 CHÚNG TAĐây là 100%nàyVươn nho của Martha96 65 Californiathung lũng Napathung lũng NapaNapaCabernet Sauvignon
4 HeitzTây ban nhaMùi hương thơm của hình Fig95 66 Carodorum selecci đặc biệtPhía bắc Tây Ban Nha ToroTinta de Toro


# Extract the Tokaji scores
tokaji = []
non_tokaji = []
for wine in wines:
    if points != '':
        points = wine[4]
    if wine[9] == "Tokaji":
    tokaji.append(float(points))
    else:
        non_tokaji.append(points)
# Extract the Lambrusco scores
lambrusco = []
non_lambrusco = []
for wine in wines:
    if points != '':
        points = wine[4]
    if wine[9] == "Lambrusco":
        lambrusco.append(float(points))
    else:
        non_lambrusco.append(float(points))

Bodega Carmen Rodriguez

Hướng dẫn how do you calculate possibilities in python? - làm thế nào để bạn tính toán các khả năng trong python?

Mac Mac Watson Danh dự

Thu hoạch muộn được chọn đặc biệt

Thung lũng Hiệp sĩthe Central Limit Theorem and the Three Sigma Rule.

Sonoma

Sauvignon Blanc

Macauleydistribution of these estimates will look like a normal distribution. The zenith of this distribution will line up with the true value that the estimates should take on. In statistics, the peak of the normal distribution lines up with the mean, and that’s exactly what we observed. Thus, given multiple “trials” as our data, the Central Limit Theorem suggests that we can hone in on the theoretical ideal given by probability, even when we don’t know the true probability. Central Limit Theorem lets us know that the average of many trials means will approach the true mean, the Three Sigma Rule will tell us how much the data will be spread out around this mean.

“Điều này đã dành 20 tháng

Dự trữgiven a normal distribution, 68% of your observations will fall between one standard deviation of the mean. 95% will fall within two, and 99.7% will fall within three. A lot of complicated math goes into the derivation of these values, and as such, is out of the scope of this article. The key takeaway is to know that the Three Sigma Rule enables us to know how much data is contained under different intervals of a normal distribution. The picture below is a great summary of what the Three Sigma Rule represents.

Hướng dẫn how do you calculate possibilities in python? - làm thế nào để bạn tính toán các khả năng trong python?

Oregonrarity of extreme values. Any value that is more than three standard deviations away from the mean should be treated with caution or care. By taking advantage of the Three Sigma Rule and the Z-score, we’ll finally be able to prescribe a value to how likely Chardonnay and Pinot Noir are different from the average wine.

Z-score

Điểm Z là một tính toán đơn giản trả lời câu hỏi, đưa ra một điểm dữ liệu, có bao nhiêu độ lệch chuẩn là cách xa trung bình? Phương trình dưới đây là phương trình điểm z.

Hướng dẫn how do you calculate possibilities in python? - làm thế nào để bạn tính toán các khả năng trong python?

Chính nó, điểm Z không cung cấp nhiều thông tin cho bạn. Nó đạt được giá trị cao nhất khi so sánh với bảng Z, điều này lập bảng xác suất tích lũy của phân phối bình thường tiêu chuẩn cho đến khi điểm Z nhất định. Một tiêu chuẩn bình thường là một phân phối bình thường với giá trị trung bình là 0 và độ lệch chuẩn là 1. Điểm Z cho phép chúng tôi tham khảo bảng Z này ngay cả khi phân phối bình thường của chúng tôi không phải là tiêu chuẩn. Xác suất tích lũy là tổng của xác suất của tất cả các giá trị xảy ra, cho đến một điểm nhất định.Z-table, which tabulates the cumulative probability of a standard normal distribution up until a given Z-score. A standard normal is a normal distribution with a mean of 0 and a standard deviation of 1. The Z-score lets us reference this the Z-table even if our normal distribution is not standard. The cumulative probability is the sum of the probabilities of all values occurring, up until a given point.

Một ví dụ dễ dàng là chính nó. Giá trị trung bình là giữa chính xác của phân phối bình thường, vì vậy chúng tôi biết rằng tổng của tất cả các xác suất nhận các giá trị từ phía bên trái trở lên cho đến khi trung bình là 50%. Các giá trị từ quy tắc ba Sigma thực sự xuất hiện nếu bạn cố gắng tính xác suất tích lũy giữa các độ lệch chuẩn. Hình ảnh dưới đây cung cấp một hình ảnh về xác suất tích lũy. Chúng tôi biết rằng tổng của tất cả các xác suất phải bằng 100%, vì vậy chúng tôi có thể sử dụng bảng Z để tính xác suất ở cả hai phía của điểm Z trong phân phối bình thường. Tính toán xác suất này đã qua một điểm Z nhất định là hữu ích cho chúng tôi. Nó cho phép chúng tôi hỏi đi từ một giá trị từ giá trị trung bình đến mức nào đến mức độ có khả năng là một giá trị này xa so với giá trị trung bình của cùng một nhóm quan sát? Do đó, xác suất xuất phát từ bảng Z và bảng Z sẽ trả lời các câu hỏi dựa trên rượu vang của chúng tôi.

Hướng dẫn how do you calculate possibilities in python? - làm thế nào để bạn tính toán các khả năng trong python?
We know that the sum of all probabilities must equal 100%, so we can use the Z-table to calculate probabilities on both sides of the Z-score under the normal distribution.
Hướng dẫn how do you calculate possibilities in python? - làm thế nào để bạn tính toán các khả năng trong python?
This calculation of probability of being past a certain Z-score is useful to us. It lets us ask go from “how far is a value from the mean” to “how likely is a value this far from the mean to be from the same group of observations?” Thus, the probability derived from the Z-score and Z-table will answer our wine based questions.


import numpy as np
tokaji_avg = np.average(tokaji)
lambrusco_avg = np.average(lambrusco)
tokaji_std = np.std(tokaji)
lambrusco = np.std(lambrusco)
# Let's see what the results are
print("Tokaji: ", tokaji_avg, tokaji_std)
print("Lambrusco: ", lambrusco_avg, lambrusco_std)
>>> Tokaji: 90.9 2.65015722804
>>> Lambrusco: 84.4047619048 1.61922267961

Điều này không có vẻ tốt cho lời giới thiệu của bạn bè của chúng tôi! Với mục đích của bài viết này, chúng tôi sẽ đối xử với cả điểm Tokaji và Lambrusco như được phân phối bình thường. Do đó, điểm trung bình của mỗi loại rượu sẽ đại diện cho điểm số thực sự của họ về chất lượng. Chúng tôi sẽ tính toán điểm Z và xem mức trung bình của Tokaji cách Lambrusco bao xa.


z = (tokaji_avg - lambrusco_avg) / lambrusco_std
>>> 4.0113309781438229
# We'll bring in scipy to do the calculation of probability from the Z-table
import scipy.stats as st
st.norm.cdf(z)
>>> 0.99996981130231266
# We need the probability from the right side, so we'll flip it!
1 - st.norm.cdf(z)
>>> 3.0188697687338895e-05

Câu trả lời khá nhỏ, nhưng chính xác thì nó có nghĩa là gì? Sự nhỏ bé vô hạn của xác suất này đòi hỏi một số cách giải thích cẩn thận. Hãy để nói rằng chúng tôi tin rằng không có sự khác biệt giữa người bạn của chúng tôi, Lam Lambrusco và chuyên gia rượu vang Tekaji. Điều đó có nghĩa là, chúng tôi tin rằng chất lượng của Lambrusco và Tokaji giống nhau. Tương tự như vậy, do sự khác biệt cá nhân giữa các loại rượu vang, sẽ có một số sự lây lan của điểm số của các loại rượu này. Điều này sẽ tạo ra điểm số phân phối bình thường nếu chúng ta tạo ra một biểu đồ của rượu vang Tokaji và Lambrusco, nhờ định lý giới hạn trung tâm.there was no difference between our friend’s Lambrusco and the wine expert’s Tokaji. That is to say, we believe that the quality of the Lambrusco and the Tokaji to be about the same. Likewise, due to individual differences between wines, there will be some spread of the scores of these wines. This will produce normally distributed scores if we make a histogram of the Tokaji and Lambrusco wines, thanks to Central Limit Theorem.

Bây giờ, chúng tôi có một số dữ liệu cho phép chúng tôi tính toán độ lệch trung bình và độ lệch chuẩn của cả hai loại rượu vang được đề cập. Những giá trị này cho phép chúng tôi thực sự kiểm tra niềm tin của chúng tôi rằng Lambrusco và Tokaji có chất lượng tương tự. Chúng tôi đã sử dụng điểm số rượu Lambrusco làm cơ sở và so sánh mức trung bình của tokaji, nhưng chúng tôi có thể dễ dàng thực hiện nó theo cách khác. Sự khác biệt duy nhất sẽ là điểm Z tiêu cực. Điểm Z là 4.01! Hãy nhớ rằng ba quy tắc Sigma cho chúng ta biết rằng 99,7% dữ liệu sẽ nằm trong 3 độ lệch chuẩn, giả sử rằng Tokaji và Lambrusco là tương tự nhau.99.7% of the data should fall within 3 standard deviations, assuming that Tokaji and Lambrusco were similar.

Xác suất của điểm trung bình điểm cực kỳ như Tokaji, trong một thế giới nơi rượu vang Lambrusco và Tokaji được coi là giống nhau là rất, rất nhỏ. Nhỏ đến mức chúng tôi buộc phải xem xét các loại rượu vang ngược: Tokaji khác với rượu vang Lambrusco và sẽ tạo ra một bản phân phối điểm khác. Chúng tôi đã chọn cách diễn đạt của chúng tôi ở đây một cách cẩn thận: Tôi đã cẩn thận không nói, rượu vang Tokaji tốt hơn Lambrusco. Họ rất có thể xảy ra. Điều này là do chúng tôi tính toán xác suất, mặc dù nhỏ bằng kính hiển vi, không phải là không. Để chính xác, chúng ta có thể nói rằng rượu vang Lambrusco và Tokaji chắc chắn không phải từ cùng một bản phân phối điểm, nhưng chúng ta không thể nói rằng cái này tốt hơn hoặc tệ hơn so với loại khác.

Loại lý luận này nằm trong lĩnh vực thống kê suy luận và bài viết này chỉ tìm cách cung cấp cho bạn một giới thiệu ngắn gọn về lý do đằng sau nó. Chúng tôi đã trình bày rất nhiều khái niệm trong bài viết này, vì vậy nếu bạn thấy mình bị lạc, hãy quay lại và làm cho nó chậm. Có khuôn khổ tư duy này là vô cùng mạnh mẽ, nhưng dễ sử dụng và hiểu lầm.inferential statistics, and this article only seeks to give you a brief introduction into the rationale behind it. We covered a lot of concepts in this article, so if you found yourself getting lost, go back and take it slow. Having this framework of thinking is immensely powerful, but easy to misuse and misunderstand.

Sự kết luận

Chúng tôi bắt đầu với số liệu thống kê mô tả và sau đó kết nối chúng với xác suất. Từ xác suất, chúng tôi đã phát triển một cách để hiển thị định lượng nếu hai nhóm đến từ cùng một phân phối. Trong trường hợp này, chúng tôi đã so sánh hai khuyến nghị rượu vang và thấy rằng rất có thể chúng không đến từ cùng một phân phối điểm. Nói cách khác, một loại rượu vang rất có thể tốt hơn loại khác. Thống kê không phải là một lĩnh vực được chuyển sang các nhà thống kê. Là một nhà khoa học dữ liệu, có một sự hiểu biết trực quan về các biện pháp thống kê phổ biến đại diện cho bạn sẽ mang lại cho bạn lợi thế trong việc phát triển các lý thuyết của riêng bạn và khả năng sau đó kiểm tra các lý thuyết này. Chúng tôi hầu như không làm trầy xước bề mặt của các số liệu thống kê suy luận ở đây, nhưng những ý tưởng chung tương tự ở đây sẽ giúp hướng dẫn trực giác của bạn trong hành trình thống kê của bạn. Bài viết của chúng tôi đã thảo luận về những lợi thế của phân phối bình thường, nhưng các nhà thống kê cũng đã phát triển các kỹ thuật để điều chỉnh các phân phối mà không phải là bình thường.

Đọc thêm

Bài viết này tập trung vào phân phối bình thường và kết nối của nó với thống kê và xác suất. Nếu bạn quan tâm đến việc đọc về các phân phối liên quan khác hoặc tìm hiểu thêm về số liệu thống kê suy luận, vui lòng tham khảo các tài nguyên dưới đây.

  • Học sinh T-phân phối: Khi chúng ta chỉ có một vài điểm dữ liệu
  • Một cuộc đi sâu hơn về kiểm tra giả thuyết và thống kê suy luận
  • Một chuyến đi sâu vào số liệu thống kê với Python

Nhận tài nguyên khoa học dữ liệu miễn phí

Đăng ký miễn phí để nhận bản tin hàng tuần của chúng tôi với các liên kết tài nguyên dữ liệu, Python, R và SQL. Thêm vào đó, bạn có quyền truy cập vào nội dung khóa học trực tuyến tương tác miễn phí của chúng tôi!Python, R, and SQL resource links. Plus, you get access to our free, interactive online course content!

ĐĂNG KÝ

Làm thế nào chúng ta có thể tính toán xác suất trong Python?

Để tính toán xác suất này, bạn chia số lượng kết quả sự kiện có thể cho không gian mẫu. Điều này có nghĩa là bạn phải xem xét trước tiên có bao nhiêu cách có thể để đồng xu hạ cánh trên đuôi và số lượng kết quả có thể xảy ra. Cái trước là 1, vì bạn chỉ có một cách có thể để có được đuôi.divide the number of possible event outcomes by the sample space. This means that you have to consider first how many possible ways there are for the coin to land on tails, and the number of possible outcomes. The former is 1, as you have only one possible way to get tails.

Làm thế nào để bạn tính toán số lượng khả năng?

Kết hợp là một cách để tính tổng kết quả của một sự kiện mà thứ tự của các kết quả không quan trọng.Để tính toán các kết hợp, chúng tôi sẽ sử dụng công thức ncr = n!/ r!* (n - r) !, trong đó n đại diện cho tổng số mặt hàng và r đại diện cho số lượng vật phẩm được chọn tại một thời điểm.nCr = n! / r! * (n - r)!, where n represents the total number of items, and r represents the number of items being chosen at a time.

Làm thế nào để bạn tìm thấy số lượng khả năng trong xác suất?

Tính toán xác suất..
Xác định một sự kiện duy nhất với một kết quả duy nhất.....
Xác định tổng số kết quả có thể xảy ra.....
Chia số lượng sự kiện cho số lượng kết quả có thể xảy ra.....
Xác định từng sự kiện bạn sẽ tính toán.....
Tính xác suất của mỗi sự kiện.....
Nhân tất cả các xác suất với nhau ..