Hướng dẫn how do you use glm in python? - làm thế nào để bạn sử dụng glm trong python?

Các mô hình tuyến tính tổng quát hiện đang hỗ trợ ước tính bằng cách sử dụng các họ theo cấp số nhân một tham số.

Xem tham chiếu mô -đun cho các lệnh và đối số.

Ví dụ;

# Load modules and data
In [1]: import statsmodels.api as sm

In [2]: data = sm.datasets.scotland.load[]

In [3]: data.exog = sm.add_constant[data.exog]

# Instantiate a gamma family model with the default link function.
In [4]: gamma_model = sm.GLM[data.endog, data.exog, family=sm.families.Gamma[]]

In [5]: gamma_results = gamma_model.fit[]

In [6]: print[gamma_results.summary[]]
                 Generalized Linear Model Regression Results                  
==============================================================================
Dep. Variable:                    YES   No. Observations:                   32
Model:                            GLM   Df Residuals:                       24
Model Family:                   Gamma   Df Model:                            7
Link Function:          inverse_power   Scale:                       0.0035843
Method:                          IRLS   Log-Likelihood:                -83.017
Date:                Wed, 02 Nov 2022   Deviance:                     0.087389
Time:                        17:12:43   Pearson chi2:                   0.0860
No. Iterations:                     6   Pseudo R-squ. [CS]:             0.9800
Covariance Type:            nonrobust                                         
======================================================================================
                         coef    std err          z      P>|z|      [0.025      0.975]
--------------------------------------------------------------------------------------
const                 -0.0178      0.011     -1.548      0.122      -0.040       0.005
COUTAX              4.962e-05   1.62e-05      3.060      0.002    1.78e-05    8.14e-05
UNEMPF                 0.0020      0.001      3.824      0.000       0.001       0.003
MOR                -7.181e-05   2.71e-05     -2.648      0.008      -0.000   -1.87e-05
ACT                    0.0001   4.06e-05      2.757      0.006    3.23e-05       0.000
GDP                -1.468e-07   1.24e-07     -1.187      0.235   -3.89e-07    9.56e-08
AGE                   -0.0005      0.000     -2.159      0.031      -0.001   -4.78e-05
COUTAX_FEMALEUNEMP -2.427e-06   7.46e-07     -3.253      0.001   -3.89e-06   -9.65e-07
======================================================================================

Các ví dụ chi tiết có thể được tìm thấy ở đây:

GLM
Công thức

Tài liệu kỹ thuật¶

Mô hình thống kê cho mỗi quan sát \ [i \] được coi là\[i\] is assumed to be

\ [Y_i \ sim f_ {edm} [\ cdot | \ theta, \ Phi, w_i] \] và \ [\ mu_i = e [y_i | x_i] \]. and \[\mu_i = E[Y_i|x_i] = g^{-1}[x_i^\prime\beta]\].

trong đó \ [g \] là hàm liên kết và \ [f_ {edm} [\ cdot | \ theta, \ Phi, w] \] là phân phối của họ các mô hình phân tán theo cấp số nhân [EDM] với tham số tự nhiên \ [\ theta \], tham số tỷ lệ \ [\ Phi \] và Trọng lượng \ [w \]. Mật độ của nó được đưa ra bởi\[g\] is the link function and \[F_{EDM}[\cdot|\theta,\phi,w]\] is a distribution of the family of exponential dispersion models [EDM] with natural parameter \[\theta\], scale parameter \[\phi\] and weight \[w\]. Its density is given by

\ [f_ {edm} [y | \ theta, \ phi, w] = c [y, \ Phi, w] \ exp \ left [\ frac {y \ theta-b [\ theta]} \bên phải]\,.\]

Theo sau đó \ [\ mu = b '[\ theta] \] và \ [var [y | x] = \ frac {\ Phi} {w} b' '[\ theta] \]. Nghịch đảo của phương trình đầu tiên cho tham số tự nhiên là hàm của giá trị dự kiến \ [\ theta [\ mu] \] sao cho điều đó\[\mu = b'[\theta]\] and \[Var[Y|x]=\frac{\phi}{w}b''[\theta]\]. The inverse of the first equation gives the natural parameter as a function of the expected value \[\theta[\mu]\] such that

\ [Var [y_i | x_i] = \ frac {\ Phi} {w_i} V [\ mu_i] \]

với \ [v [\ mu] = b '' [\ theta [\ mu]] \]. Do đó, người ta nói rằng GLM được xác định bởi hàm liên kết \ [g \] và hàm phương sai \ [v [\ mu] \] [và \ [x \] tất nhiên].\[v[\mu] = b''[\theta[\mu]]\]. Therefore it is said that a GLM is determined by link function \[g\] and variance function \[v[\mu]\] alone [and \[x\] of course].

Lưu ý rằng trong khi \ [\ Phi \] giống nhau cho mọi quan sát \ [y_i \] và do đó không ảnh hưởng đến ước tính của \ [\ beta \], trọng số \ [w_i \] có thể khác nhau đối với mỗi \ [y_i \] sao cho việc ước tính \ [\ beta \] phụ thuộc vào chúng.\[\phi\] is the same for every observation \[y_i\] and therefore does not influence the estimation of \[\beta\], the weights \[w_i\] might be different for every \[y_i\] such that the estimation of \[\beta\] depends on them.

Phân bổ

Miền

\ [\ mu = e [y | x] \]

\ [v [\ mu] \]

\ [\ theta [\ mu] \]

\ [b [\ theta] \]

\ [\ Phi \]

Binomial \ [b [n, p] \]\[B[n,p]\]	\ [0,1, \ ldots, n \]	\ [NP \]	\ [\ mu- \ frac {\ mu^2} {n} \]	\ [\ log \ frac {p} {1-p} \]	\ [n \ log [1+e^\ theta] \]	1
Poisson \ [p [\ mu] \]\[P[\mu]\]	\ [0,1, \ ldots, \ infty \]	\ [\ mu \]	\ [\ mu \]	\ [\ log [\ mu] \]	\ [e^\ theta \]	1
Neg. Nhị thức. \ [Nb [\ mu, \ alpha] \]\[NB[\mu,\alpha]\]	\ [0,1, \ ldots, \ infty \]	\ [\ mu \]	\ [\ log [\ mu] \]	\ [e^\ theta \]	Neg. Nhị thức. \ [Nb [\ mu, \ alpha] \]	1
\ [\ mu+\ alpha \ mu^2 \]\[N[\mu,\sigma^2]\]	\ [\ log [\ frac {\ alpha \ mu} {1+ \ alpha \ mu}] \]	\ [\ mu \]	\ [\ log [\ mu] \]	\ [\ mu \]	\ [\ log [\ mu] \]	\ [e^\ theta \]
Neg. Nhị thức. \ [Nb [\ mu, \ alpha] \]\[N[\mu,\nu]\]	\ [\ mu+\ alpha \ mu^2 \]	\ [\ mu \]	\ [\ log [\ mu] \]	\ [e^\ theta \]	Neg. Nhị thức. \ [Nb [\ mu, \ alpha] \]	\ [\ mu+\ alpha \ mu^2 \]
\ [\ log [\ frac {\ alpha \ mu} {1+ \ alpha \ mu}] \]\[IG[\mu,\sigma^2]\]	\ [\ mu+\ alpha \ mu^2 \]	\ [\ mu \]	\ [\ log [\ mu] \]	\ [e^\ theta \]	Neg. Nhị thức. \ [Nb [\ mu, \ alpha] \]	\ [e^\ theta \]
Neg. Nhị thức. \ [Nb [\ mu, \ alpha] \]\[p\geq 1\]	\ [\ mu+\ alpha \ mu^2 \]\[p\]	\ [\ mu \]	\ [\ log [\ mu] \]	\ [e^\ theta \]	Neg. Nhị thức. \ [Nb [\ mu, \ alpha] \]	\ [\ Phi \]

Binomial \ [b [n, p] \]\[p=0,1,2\] not listed in the table and uses \[\alpha=\frac{p-2}{p-1}\].

\ [0,1, \ ldots, n \]

\ [NP \] and \[y\] are coded as endog, the variable one wants to model
\ [\ mu- \ frac {\ mu^2} {n} \] is coded as exog, the covariates alias explanatory variables
\ [\ log \ frac {p} {1-p} \] is coded as params, the parameters one wants to estimate
\ [n \ log [1+e^\ theta] \] is coded as mu, the expectation [conditional on \[x\]] of \[Y\]
Poisson \ [p [\ mu] \] is coded as link argument to the class Family
\ [0,1, \ ldots, \ infty \] is coded as scale, the dispersion parameter of the EDM
\ [\ mu \] is not yet supported [i.e. \[w=1\]], in the future it might be
```
>>> sm.families.family..links
```
0
\ [\ log [\ mu] \] is coded as
```
>>> sm.families.family..links
```
1 for the power of the variance function \[v[\mu]\] of the Tweedie distribution, see table
\ [e^\ theta \] is either
- Neg. Nhị thức. \ [Nb [\ mu, \ alpha] \]
- \ [\ mu+\ alpha \ mu^2 \]\[\frac{p-2}{p-1}\] of the power \[p\] of the variance function, see table

\ [\ log [\ frac {\ alpha \ mu} {1+ \ alpha \ mu}] \]

\ [-\ frac {1} {\ alpha} \ log [1- \ alpha e^\ theta] \]
Gaussian/bình thường \ [n [\ mu, \ sigma^2] \]
\ [[-\ infty, \ infty] \]
\ [1 \]

\ [\ frac {1} {2} \ theta^2 \]

\ [\ Sigma^2 \]

>>> sm.families.family..links

3[endog, exog[, family, offset, exposure, ...]]

Gamma \ [n [\ mu, \ nu] \]

\ [[0, \ infty] \]

>>> sm.families.family..links

4[model, params, ...[, cov_type, ...]]

\ [\ mu^2 \]

>>> sm.families.family..links

5[predicted_mean, var_pred_mean]

Attributes::

\ [-\ frac {1} {\ mu} \]

\ [-\ log [-\ theta] \]

>>> sm.families.family..links 6[link, variance]	\ [\ frac {1} {\ nu} \]
>>> sm.families.family..links 7[[link]]	Inv. Gauss. \ [Ig [\ mu, \ sigma^2] \]
>>> sm.families.family..links 8[[link]]	\ [\ mu^3 \]
>>> sm.families.family..links 9[[link]]	\ [-\ frac {1} {2 \ mu^2} \]
>>> sm.families..variance 0[[link]]	\ [-\ sqrt {-2 \ theta} \]
>>> sm.families..variance 1[[link, alpha]]	Tweedie \ [p \ geq 1 \]
>>> sm.families..variance 2[[link]]	Gia đình theo cấp số nhân Poisson.
>>> sm.families..variance 3[[link, var_power, eql]]	Gia đình Tweedie.

Liên kết chức năng Jo

Các chức năng liên kết hiện được thực hiện là như sau. Không phải tất cả các chức năng liên kết đều có sẵn cho mỗi gia đình phân phối. Danh sách các chức năng liên kết có sẵn có thể được lấy bởi

>>> sm.families.family..links

>>> sm.families..variance 4[]	Một hàm liên kết chung cho họ theo cấp số nhân một tham số.
>>> sm.families..variance 5[[dbn]]	Việc sử dụng CDF của phân phối scipy.stats
>>> sm.families..variance 6[]	Biến đổi log-log bổ sung
>>> sm.families..variance 7[]	Biến đổi log-log
>>> sm.families..variance 8[]	Biến đổi nhật ký
>>> sm.families..variance 9[]	Biến đổi logit
>>> sm.families..variance 1[[alpha]]	Hàm liên kết nhị thức âm
`endog`1[[power]]	Sự biến đổi sức mạnh
`endog`2[]	Biến đổi Cauchy [Cauchy CDF] tiêu chuẩn
`endog`3[]	Chức năng liên kết biến đổi Cloglog.
`endog`4[]	Chức năng liên kết biến đổi loglog.
`endog`5[]	Biến đổi danh tính
`endog`6[]	Biến đổi nghịch đảo
`endog`7[]	Biến đổi bình phương nghịch đảo
`endog`8[]	Biến đổi nhật ký
`endog`9[]	Biến đổi logit
`exog`0[[alpha]]	Hàm liên kết nhị thức âm
`exog`1[[dbn]]	Sự biến đổi sức mạnh

Biến đổi Cauchy [Cauchy CDF] tiêu chuẩn

Chức năng liên kết biến đổi Cloglog.

>>> sm.families..variance

`exog`2[]	Chức năng liên kết biến đổi loglog.
`exog`3	Biến đổi danh tính
`endog`1[[power]]	Biến đổi nghịch đảo
`mu`	Biến đổi bình phương nghịch đảo
`exog`6	Phương pháp
`exog`7	Hàm liên kết nhị thức âm.
>>> sm.families.family..links 7[[n]]	Biến đổi probit [cdf bình thường]
`exog`9	Chức năng phương sai
>>> sm.families..variance 1[[alpha]]	Mỗi gia đình có một chức năng phương sai liên quan. Bạn có thể truy cập các hàm phương sai ở đây:
`exog`0	Liên quan đến phương sai của một biến ngẫu nhiên với giá trị trung bình của nó.

GLM hoạt động như thế nào?

GLM khái quát hóa hồi quy tuyến tính bằng cách cho phép mô hình tuyến tính có liên quan đến biến phản hồi thông qua hàm liên kết và bằng cách cho phép độ lớn của phương sai của mỗi phép đo là một hàm của giá trị dự đoán của nó.allowing the linear model to be related to the response variable via a link function and by allowing the magnitude of the variance of each measurement to be a function of its predicted value.

Làm cách nào để tạo một mô hình GLM?

GLM trong R: Mô hình tuyến tính tổng quát với ví dụ..

Hồi quy logistic là gì?.

Làm thế nào để tạo mô hình lớp lót tổng quát [GLM].

Bước 1] Kiểm tra các biến liên tục ..

Bước 2] Kiểm tra các biến nhân tố ..

Bước 3] Kỹ thuật tính năng ..

Bước 4] Thống kê tóm tắt ..

Bước 5] Bộ đào tạo/thử nghiệm ..

Bước 6] Xây dựng mô hình ..

Bạn có thể sử dụng GLM cho hồi quy tuyến tính không?

Các mô hình tuyến tính tổng quát [GLM] là một loại mô hình thống kê có thể được sử dụng để mô hình hóa dữ liệu không được phân phối bình thường. Đây là một khung chung linh hoạt có thể được sử dụng để xây dựng nhiều loại mô hình hồi quy, bao gồm hồi quy tuyến tính, hồi quy logistic và hồi quy Poisson.can be used to build many types of regression models, including linear regression, logistic regression, and Poisson regression.

Khi nào GLM nên được sử dụng?

Các mô hình tuyến tính tổng quát [GLM] được dạy theo quy ước là phương pháp chính để phân tích dữ liệu đếm, các thành phần chính của đặc điểm kỹ thuật của chúng là một tuyên bố về cách phản ứng trung bình liên quan đến một tập hợp các yếu tố dự đoán và cách thức phương sai được giả định là thay đổi khi có giá trị trung bình khác nhau[McCullagh & Nelder 1989; Wood 2006].primary method for analysis of count data, key components of their specification being a statement of how the mean response relates to a set of predictors and how the variance is assumed to vary as the mean varies [McCullagh & Nelder 1989; Wood 2006].

Tại sao chúng ta sử dụng GLM?

Các mô hình GLM cho phép chúng tôi xây dựng mối quan hệ tuyến tính giữa phản hồi và dự đoán, mặc dù mối quan hệ cơ bản của chúng không phải là tuyến tính.Điều này được thực hiện bằng cách sử dụng hàm liên kết, liên kết biến phản hồi với mô hình tuyến tính.allow us to build a linear relationship between the response and predictors, even though their underlying relationship is not linear. This is made possible by using a link function, which links the response variable to a linear model.

Làm thế nào để cv glm [] hoạt động?

CV.Hàm Glm [] tạo ra một danh sách với một số thành phần. Hai số trong vectơ delta chứa kết quả xác thực chéo.Trong trường hợp này, các con số giống hệt nhau [tối đa hai vị trí thập phân] và tương ứng với thống kê LOOCV: Ước tính xác thực chéo của chúng tôi cho lỗi kiểm tra là khoảng 24,23.produces a list with several components. The two numbers in the delta vector contain the cross-validation results. In this case the numbers are identical [up to two decimal places] and correspond to the LOOCV statistic: our cross-validation estimate for the test error is approximately 24.23.