Negative log likelihood là gì

Các khái niệm trong Học máy [Machine Learning] [7] Một số vídụ

Ước lượng tham số của phân phối chuẩn [normal distribution]: Ở bài thứ 3, ta đã thấy một ví dụ sử dụng công thức Bayes để ước lượng xác suất của tham số. Trong ví dụ này, ta sẽ thử sử dụng nguyên tắc cực đại hóa khả năng [maximum likelihood estimation MLE] để ước lượng tham số.

Ví dụ 1. Giả sử dữ liệu được lấy từ phân phối chuẩn . Hãy xác định .

Giải: Giá trị của phải cực đại hóa khả năng [likelihood] của dữ liệu

Lấy logarit cơ số tự nhiên cả hai vế và loại bỏ đi hằng số, việc cực đại hóa tương đương với việc cực đại hóa hàm log-likelihood sau

Lấy đạo hàm và đặt bằng rồi giải ra ta được ước lượng MLE của là

Ví dụ 2. Giả sử dữ liệu được lấy từ phân phối chuẩn . Hãy xác định .

Giải: Tương tự như trên hàm log-likelihood là:

Đầu tiên, cực đại hóa theo , ta được

Tiếp tục cực đại hóa theo ta có

Lưu ý:

  1. Qua 2 ví dụ trên, ta thấy xác định qua nguyên tắc cực đại hóa khả năng chính là các đại lượng trung bình cộng của dữ liệu và trung bình bình phương sai số.
  2. Đối với dữ liệu nhiều chiều, , với cách làm tương tự [có phức tạp hơn 1 chút], ta cũng có thể tính được


Ví dụ 3. Giả sử có hai lớp đối tượng , ta biết rằng

Nghĩa là phân bố của hai lớp đối tượng đều là phân phối chuẩn, có phương sai giống nhau. Đồng thời giả sử . Hãy xây dựng luật phân lớp tối ưu và ước lượng xác suất lỗi.

Giải: Do nên luật phân lớp tối ưu là

Lấy logarith cơ số tự nhiên cả hai vế của bất đẳng thức rồi loại bỏ hằng số chung ta được

Tức là nếu ở gần hơn thì sẽ được phân vào lớp và ngược lại. Hoặc nếu , ta có thể viết

Để tính xác suất lỗi [generalization error], ta có

Do và tính đối xứng của các phân bố ta có

Trong đó là hàm phân bố xác suất [cummulative distribution function] của phân bố chuẩn .

Ví dụ 4. Xét trường hợp tổng quát hơn và

Điều kiện để phân vào lớp là

Lấy logarit cơ số tự nhiên cả 2 vế, ta có

Như vậy, ở trường hợp phân phối chuẩn tổng quát, đường phân ranh giới tối ưu giữa 2 lớp là một đường cong bậc 2. Nó có thể là đường thẳng, elipsoid, hyperbol hay parabol tùy thuộc vào và . Ta xét một số trường hợp đơn giản:

  • : khi đó bất đẳng thức trên tương đương với

    Nghĩa là quyết định phân lớp tương đương với việc so sánh khoảng cách Euclid [Euclidean distance] từ đến kì vọng của 2 phân phối. Trường hợp này, đường ranh giới là một đường thẳng vuông góc với đường thẳng nối và .

  • : khi đó bất đẳng thức tương đương với

    Đại lượng gọi là khoảng cách Mahalanobis [Mahalanobis distance] tương ứng với ma trận . Tiếp tục đơn giản bất đẳng thức trên ta có


    Nghĩa là đường phân ranh giới giữa 2 lớp là một siêu phẳng có véctơ pháp tuyến .

Lưu ý:

  1. Do ma trận là ma trận xác định dương nên dễ thấy các tính chất sau




    [bất đẳng thức tam giác]

    Tức là khoảng cách Mahalanobis thỏa mãn các tính chất cần có của khoảng cách trong không gian metric.

  2. Với giả sử phân phối của 2 lớp là phân phối chuẩn với ma trận hiệp phương sai giống nhau, theo ví dụ trên, đường phân giới tối ưu là một siêu phẳng. Vì vậy một số phương pháp phân lớp trực tiếp tìm một siêu phẳng để phân tách 2 lớp [linear discriminant analysis LDA]. Trong các bài sau, ta sẽ thấy đây là một phương pháp phân lớp rất mạnh [về độ chính xác/tốc độ học/tốc độ phân lớp], đặc biệt khi ta có thể biến đổi không gian đặc trưng lên không gian nhiều chiều hơn [tức là tạo một ánh xạ với và tiến hành phân lớp bằng siêu phẳng trên ]. Đây cũng là ý tưởng cơ bản của các phương pháp sử dụng vectơ hỗ trợ [Support Vector Machines] do giáo sư Vapnik đề xuất [từ hỗ trợ ở đây có nghĩa là siêu phẳng được một số véctơ/điểm dữ liệu đỡ lấy].

Posted in Lý thuyết học máy | Thẻ: cực đại hóa khả năng, CDF, cummulative distribution function, Euclidean distance, generalization error, khoảng cách Euclid, khoảng cách Mahalanobis, LDA, linear discriminant analysis, log-likelihood, Mahalanobis distance, maximum likelihood estimation, MLE, phân bố xác suất, phân cách 2 lớp bằng siêu phẳng, Support Vector Machines, SVM, vectơ hỗ trợ, xác suất lỗi, ước lượng tham số | Leave a Comment »

Video liên quan

Chủ Đề