Hoi Quy Tuyen Tinh [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

FASTECHSEED

Trước khi đi vào chủ đề , chúng ta cùng tìm hiểu một số thuật ngữ tiếng Anh: -

Học có giám sát: Supervised Learning

-

Học không giám sát: Unsupervised Learning

-

Tập huấn luyện: Train dataset

-

Tập kiểm tra: Test dataset

-

Hồi quy: Regression

-

Hồi quy tuyến tính: Linear Regression

-

Hàm chi phí: Loss Function

-

Điều chuẩn: Regularization

-

Thành phần tiêu chuẩn: Regularization Term

-

Quá khớp: Overfitting

I.

BÀI TOÁN DỰ BÁO

Ở chương này, chúng ta sẽ bắt đầu tìm hiểu về các thuật toán machine learning. Tôi khuyên bạn nên nắm vững các kiến thức về đại số tuyến tính, xác suất thống kê, giải tích bởi đây là nền tảng giúp bạn các thể hiểu và nắm vững về thuật toán machine learning. Như chúng ta đã biết, thuật toán của machine learning được chia thành 2 loại là học có giám sát (Supervised Learning) và học không có giám sát (Unsupervised Learning). Học có giám sát là lớp bài toán được xây dựng dựa trên dữ liệu có nhãn nhầm tìm ra mối quan hệ giữa biến đầu vào (hoặc biến độc lập) với biến đầu ra (hoặc biến mục tiêu, biến phụ thuộc). Trong khi đó, bài toán học không giám sát được xây dựng dựa dữ liệu không có nhãn dựa trên từng quan sát và phân cụm dữ liệu dựa trên đặc trưng tìm ẩn của dữ liệu đầu vào. Vì cần phải gắn nhãn dữ liệu nên chi phí chuẩn bị của học có giám sát thường lớn hơn của học không giám sát. Trong học có giám sát chúng ta còn chia thành bài toán phân loại (classification) và dự báo (prediction), tùy thuộc vào biến đầu ra là rời rạc hay liên tục. Những lớp mô hình phân loại áp dụng trên biến đầu ra rời rạc giúp trả lời cho câu hỏi quan sát nhãn này là gì? Những mô hình dự báo được áp dụng trên biến đầu ra liên tục giúp trả lời cho câu hỏi giá trị dự báo là bao nhiêu? Những lớp mô hình machine learning phức tạp thường có độ chuẩn xác cao nhưng chúng có độ tường minh thấp. Điều đó được thể hiện qua việc chúng ta không thể dễ dàng giải thích tác động của biến đầu vào lên biến mục tiêu. Trái lại bài toán hồi quy tuyến tính trong mô hình dự báo lại là lớp mô hình có phương trình biểu diễn cụ thể giúp diễn giải và đánh giá dễ dàng.Chính vì thế hồi quy tuyến tính được ứng dụng trong nhiều lĩnh vực Phương trình kiểu mẫu trong bài toán dự báo Trong trường hợp đơn giản nhất với một biến đầu vào của phương trình tuyến tính: 𝑦 = 𝑎𝑥 + 𝑏 Với a, b là các hằng số, a khác 0 Vì có một biến đầu vào nên gọi là phương trình hồi quy đơn biến. Trên mặt phẳng 2 chiều x, y thể hiện bằng một đường thẳng. Trong trường hợp tổng quát, phương trình tuyến tính có dạng:

FASTECHSEED

𝑦 = 𝑎0 + 𝑎1 𝑥1 + 𝑎2 𝑥2 + ⋯ + 𝑎𝑛 𝑥𝑛 Phương trình trên có nhiều hơn một biến đầu vào nên gọi là phương hồi quy tuyến tính đa biến. Tập hợp những điểm (x,y) tạo thành mặt phẳng (plane) trong trường hợp hai chiều và siêu phẳng (hyperplane) đối với không gian nhiều hơn hai chiều. Tại sao phương trình hồi quy lại được chọn là tuyến tính? Có một số lý do khiến cho phương trình tuyến tính được lựa chọn để biểu diễn biến đầu vào và biến mục tiêu như sau: •

Phương trình tuyến tính có thể biểu diễn tổng quát phương trình tích và phương trình lũy thừa thông qua

logarith. Ví dụ như hàm Cobb-Douglas biểu diễn mối quan hệ giữa sản lượng và số lượng lao động L và K là vốn: 𝑦 = 𝑓(𝐿, 𝐾) = 𝐶 ∗ 𝐿𝛼 ∗ 𝐾 𝛼 . Để đơn giản hóa chúng ta thường sử dụng logarith hai vế để chuyển qua phương trình tuyến tính: log(𝑦) = 𝛼 log(𝐿) + 𝛽 log(𝐾) + log⁡(𝐶) •

Phương trình tuyến tính là một định dạng đơn giản và tổng quát.



Phương trình tuyến tính có thể dễ dàng giải thích cho mối quan hệ giữa biến đầu vào và biến mục tiêu theo

sự thay đổi của bậc đa thức. Chúng ta có thể thấy sự thay đổi của đa thức 𝑦 = 𝑎𝑥 + 𝑏 là một đường thẳng nhưng có thể phức tạp hơn bằng cách thêm vào số hạng 𝑥 2 . Khi đó, đường thẳng trở thành một đường cong phi tuyến. Khi tăng bậc thì khả năng biểu diển của phương trình tuyến tính càng cao. 1.1. Ứng dụng của hồi quy tuyến tính. Phương trình hồi quy tuyến tính có rất nhiều ứng dụng trong thực tiễn và là một trong những mô hình đặc biệt quan trọng trong machine learning. Một vài ứng dụng tiêu biểu của hồi quy tuyến tính như chỉ số lạm phát, tốc độ tăng trưởng GDP, nhu cầu thị trường của một doanh nghiệp, dự báo các giá trị chứng khoán,… Hầu hết các bài toán liên quan tới tới biến mục tiêu liên tục thì có thể sử dụng hồi quy tuyến tính để dự báo. 1.2. Hàm mất mát. Mục tiêu của các mô hình giám sát là trong machine learning là tìm ra một hàm dự báo mà giá trị của chúng sai khác với hàm thực tế (ground truth) là nhỏ nhất. Sai khác sử dụng hàm mất mát (loss function). Huấn luyện machine learning thực chất là tìm cực trị của hàm mất mát. Tùy thuộc vào bài toán mà chúng ta có các hàm mất mát khác nhau. Trong bài toán dự báo, chúng ta sẽ sử dụng hàm MSE (Mean Square Error) để làm hàm mất mát. Hàm số này có giá trị bằng trung bình của tổng bình phương sai số giữa giá trị dự báo và ground truth. Giả sử chúng ta xét phương trình hồi quy tuyến tính đơn giản gồm n quan sát có biến phụ thuộc y = {y1, y2,…, yn) và biến đầu vào x = {x1, x2,…, xn}. Vector w=(w0, w1) có w0 và w1 lần lượt là hệ số góc và hệ số ước lượng. Phương trình hồi quy tuyến tính có dạng: 𝑦̂𝑖 = 𝑓(𝑥𝑖 ) = 𝑤0 + 𝑤1 ∗ 𝑥𝑖 Trong đó (xi, yi) là điểm dữ liệu thứ i. Mục tiêu của chúng ta là đi tìm véc tơ ww sao cho sai số giữa giá trị dự báo và thực tế là nhỏ nhất. Tức là tối thiểu hoá hàm mất mát chính là hàm MSE:

FASTECHSEED

𝑛

𝑛

𝑖=1

𝑖=1

2

1 1 𝐿(𝑤) = ⁡ ∑(𝑦𝑖 − 𝑦̂)^2 = ⁡ ∑(𝑦𝑖 − 𝑤𝑜 − 𝑤𝑖 ∗ 𝑥𝑖 ) 𝑖 2𝜋 2𝜋

Kí hiệu L(w) thể hiện rằng hàm mất mát là một hàm theo ww trong điều kiện ta đã biết đầu vào là véc tơ x và véc tơ biến phụ thuộc y. Ta có thể tìm cực trị của phương trình trên dựa vào đạo hàm theo 𝑤0 và 𝑤1 như sau: •

Đạo hàm theo 𝑤0 :



Đạo hàm theo 𝑤1 :

Từ phương trình (1) ta suy ra: 𝑤0 = 𝑦̅ − 𝑤1 𝑥̅ . Thế vào phương trình (2) ta được:

Từ đó suy ra:

Sau khi tính được 𝑤1 thế vào ta được:

Đạo hàm bậc nhất bằng 0 mới chỉ là điều kiện cần để w là cực trị của hàm mất mát. Để khẳng định cực trị đó là cực tiểu thì chúng ta cần chứng minh thêm đạo hàm bậc hai lớn hơn hoặc bằng 0 hay hàm số đó là hàm lồi. Điều này khá dễ dàng và mình xin dành cho bạn đọc. Bài tập bên dưới dây sẽ giúp bạn hiểu dễ hơn cách tìm nghiệm của phương trình hồi qui tuyến tính đơn biến.

FASTECHSEED

1.3. Hồi quy tuyến tính đa biến. Hồi qui tuyến tính đa biến là hồi qui tuyến tính với nhiều hơn một biến đầu vào. Hồi qui tuyến tính đa biến phổ biến hơn so với đơn biến vì trên thực tế rất hiếm các tác vụ dự báo chỉ gồm một biến đầu vào. Phương trình hồi qui của nó có dạng:

Ở đây ta xem xixi là một véc tơ đại diện cho quan sát thứ i. Cụ thể nó gồm các giá trị (xi1,xi2,…,xip). Ma trận X có kích thước n×p có mỗi dòng là một quan sát và mỗi cột là một biến. Giá trị xip là quan sát thứ i của biến thứ p. Ma trận mở rộng của X được ký hiệu là 𝑋̅ chính là ma trận có thêm véc tơ cột 1 được thêm vào đầu tiên. Khi đó đối với toàn bộ tập dữ liệu ta có:

Vecto sai số giữa 𝑦 − 𝑦̂ có thể biểu diễn bởi:

Hàm mất mát MSE là trung bình tổng bình phương của các sai số nên nó có dạng:

Ký hiệu ‖𝑋̅𝑤 − 𝑦‖22 ⁡chính là bình phương của norm chuẩn bậc hai mà các bạn đã được tìm hiểu ở chương đại số. Bằng cách khai triển đại số tuyến tính ta tính được đạo hàm hàm mất mát:

Nghiệm của phương trình hồi qui:

Ở Trên để ta đã rút gọn :

Phương hình hồi qui đa biến có nghiệm khi A là khả nghịch. 1.4. Diễn giải xác suất của hồi quy tuyến tính Dưới góc nhìn của xác suất chúng ta có thể chứng minh được những ước lượng đạt được từ hồi qui tuyến tính dựa trên việc tối thiểu hoá tổng bình phương sai số từ hàm MSE là hoàn toàn tự nhiên và hợp lý. Thật vậy, chúng ta giả định biến mục tiêu và biến dầu vào liên hệ với nhau qua phương trình:

FASTECHSEED

Trong đó \epsion i\ đại diện cho sai số ngẫu nhiên mà bất kì phương trình nào cũng có. Đó là những yếu tố không thể giải thích được bởi mô hình. Do ước lượng của chúng ta là không chệch nên sai số ngẫu nhiên này được giả định là thoả mãn một số tính chất theo giả thuyết của Gauss-Markov: - Các sai số ϵi là đại lượng ngẫu nhiên có kỳ vọng bằng 0.

- Các sai số ngẫu nhiên không có sự tương quan.

- Phương sai của sai số ngẫu nhiên là bất biến.

- Sai số ngẫu nhiên eiei và các biến dầu vào xixi không có sự tương quan.

Như vậy về bản chất thì các giá trị sai số ngẫu nhiên ϵϵ sẽ tạo thành một phân phối Gaussian (hoặc phân phối chuẩn) với trung bình bằng 0 và phương sai bằng σ2σ2. Chúng ta có thể ký hiệu phân phối này dưới dạng ∈𝑖 𝑁(0, 𝜎 2 ). Bạn đọc có thể xem thêm về phân phối Gaussian tại 1.1 Phân phối gaussian. Tại mỗi một điểm ϵi thì hàm mật độ xác suất là:

Thay ∈𝑖 = 𝑦𝑖 − 𝑤 𝑇 𝑥𝑖 vào hàm mật độ xác suất:

Ở trên thì ký hiệu 𝑝𝑑𝑓 = (𝑦𝑖 |𝑥𝑖 ; 𝑤) cho biết xác suất của yiyi tương ứng với xixi được tham số hoá bởi ww. Ở đây ww là đã biết và không được xem như là điều kiện của yiyi. Đó là lý do vì sao chúng ta không kí hiệu là 𝑝𝑑𝑓 = (𝑦𝑖 |𝑥𝑖 , 𝑤) mà phải sử dụng dấu ;. Dưới góc độ xác suất thì 𝑝𝑑𝑓 = (𝑦𝑖 |𝑥𝑖 ; 𝑤) là một hàm phụ thuộc vào dữ liệu đầu vào xixi khi đã biết trọng số ww. Khi muốn xem xác suất dưới góc nhìn như là một hàm của trọng số ww thì đó là hàm hợp lý (Likelihood):

Theo điều kiện 2 của giả thuyết Gauss-Markov thì các phương sai là độc lập nên xác suất đồng thời của dữ liệu bằng tích mật số xác suất của từng điểm dữ liệu và bằng:

FASTECHSEED

Như vậy hàm hợp lý bản chất là một góc nhìn xác suất liên kết sự kiện y với đầu vào X. Vậy đâu sẽ là giá trị w để mối quan hệ giữa y và X là phù hợp nhất? Theo ước lượng hợp lý tối đa (Maximum Likelihood Estimation) thì chúng ta sẽ lựa chọn ww sao cho hàm L(w)là lớn nhất. Lấy logarith hai vế sẽ tương đương với việc giải bài toán tối ưu:

Như vậy việc tối ưu hàm Likelihood tương đương với tối ưu MSE:

Như vậy dưới góc nhìn xác suất ta đã chứng mình được rằng hồi qui tuyến tính dựa trên tối thiểu hoá tổng bình phương sai số tương đương với quá trình tối ưu hoá hàm hợp lý để tìm ra trong số ww phản ảnh hợp lý nhất mối quan hệ giữa biến mục tiêu và biến đầu vào. Ngoài ra khi các điều kiện của giả thuyết Gauss-Markov được thoả mãn thì ước lượng của chúng ta được xem là ước lượng không chệch tốt nhất (best linear unbiased estimator - BLUE). Các giả thuyết về khoảng tin cậy của giá trị dự báo, đánh giá ý nghĩa của các trọng số ước lượng thông qua P-value khi đó có thể được thực hiện dựa trên phân phối chuẩn. 1.5. Đánh giá mô hình hồi quy tuyến tính đa biến: Ngoài MSE là hàm mất mát dùng để làm mục tiêu tối ưu loss function thì chúng ta có thể dựa trên nhiều chỉ số khác để đánh giá một mô hình hồi qui tuyến tính đa biến. Cụ thể như sau: 1.5.1.

Chỉ số R-square:

R-squared cho ta biết mức độ các biến đầu vào (biến đầu vào) sẽ giải thích được bao nhiêu phần trăm các biến mục tiêu. R-squared càng lớn thì mô hình càng tốt, khi R-squared bằng 95% điều đó có nghĩa rằng các biến đầu vào đã giải thích được 95% sự biến động của biến mục tiêu. R-squared được xây dựng dựa trên ba chỉ số:

FASTECHSEED

Trong đó TSS là tổng bình phương sai số toàn bộ mô hình (Total Sum Squared), RSS là tổng bình phương sai số ngẫu nhiên (Residual Sum Squared), ESS là tổng bình phương sai số được giải thích bởi mô hình (Explained Sum Squared) Ta sẽ chứng mình được:

Ta sẽ chứng minh cả hai hạng tử A và B đều bằng 0. Thật vậy, từ phương trình đạo hàm bậc nhất của loss function theo w0 và w1 ta có :

Do đó:

Nhân biểu thức (3) với w1 và biểu thức (4) với w0 và cộng vế với vế :

FASTECHSEED

Dòng 2 suy ra 3 là vì 𝑦̂𝑖 = 𝑤0 + 𝑤1 𝑥1 . Như vậy A=B=0 suy ra TSS=ESS+RSS. Chứng minh đẳng thức trên về mặt toán học không quá khó phải không nào ? Khi đó:

Như vậy R2 càng lớn thì giá trị tổng bình phương sai số càng nhỏ. 1.5.2.

Chỉ số MAE và MAPE

MAE là chỉ số đo lường trung bình trị tuyệt đối sai số giữa giá trị dự báo và giá trị thực tế.

Chúng ta có thể thấy về bản chất thì MAE chính là norm chuẩn bậc 1. Khi MAE càng nhỏ thì khoảng cách giữa giá trị dự báo và giá trị thực tế càng nhỏ và mô hình càng tốt. Tuy nhiên giá trị MAE không bao hàm được sự khác biệt về mặt đơn vị. Ví dụ như khi chúng ta đo lường sai số về cân nặng của những con voi và cân nặng của những con chuột thì khả năng rất cao là voi có sai số lớn hơn so với chuột. Nhưng sai số này lớn là do chúng ta chưa xét đến kích cỡ của voi và chuột. Chính vì thế để loại bỏ sự khác biệt về mặt đơn vị thì chúng ta sử dụng chỉ số MAPE. MAPE là chỉ số đo lường tỷ lệ phần trăm sai số giữa giá trị dự báo và giá trị thực tế . Nó là viết tắt của cụm từ mean absolute percentage error có công thức như sau:

Khi một mô hình có MAPE=5% ta nói rằng mô hình có trung bình sai số là 5% so với giá trị trung bình.

FASTECHSEED