Phân tích hồi quy – Wikipedia tiếng Việt

Phân tích hồi quy là một phân tích thống kê để xác định xem các biến độc lập (biến thuyết minh) quy định các biến phụ thuộc (biến được thuyết minh) như thế nào.

Đây là một phương pháp thống kê mà giá trị kỳ vọng của một hay nhiều biến ngẫu nhiên được dự đoán dựa vào điều kiện của các biến ngẫu nhiên (đã tính toán) khác. Cụ thể, có hồi qui tuyến tính, hồi qui lôgic, hồi qui Poisson và học có giám sát. Phân tích hồi qui không chỉ là trùng khớp đường cong (lựa chọn một đường cong mà vừa khớp nhất với một tập điểm dữ liệu); nó còn phải trùng khớp với một mô hình với các thành phần ngẫu nhiên và xác định (deterministic and stochastic components). Thành phần xác định được gọi là bộ dự đoán (predictor) và thành phần ngẫu nhiên được gọi là phần sai số (error term).

Dạng đơn thuần nhất của một quy mô hồi qui chứa một biến phụ thuộc vào ( còn gọi là ” biến đầu ra, ” ” biến nội sinh, ” ” biến được thuyết minh “, hay ” biến-Y ” ) và một biến độc lập đơn ( còn gọi là ” thông số, ” ” biến ngoại sinh “, ” biến thuyết minh “, hay ” biến-X ” ) .

Ví dụ thường dùng là sự phụ thuộc của huyết áp Y theo tuổi tác X của một người, hay sự phụ thuộc của trọng lượng Y của một con thú nào đó theo khẩu phần thức ăn hằng ngày X. Sự phụ thuộc này được gọi là hồi qui của Y lên X.

Xem thêm: phân phối chuẩn đa biến (multivariate normal distribution), các ẩn bản quan trọng trong phân tích hồi qui.

Hồi qui thường được xếp vào loại bài toán tối ưu vì tất cả chúng ta nỗ lực để tìm kiếm một giải pháp để cho sai số và phần dư là tốt nhất. Phương pháp sai số chung nhất được sử dụng là chiêu thức bình phương cực tiểu : chiêu thức này tương ứng với một hàm hài hòa và hợp lý dạng Gauss của những tài liệu quan sát khi biết biến ngẫu nhiên ( ẩn ). Về một mặt nào đó, bình phương cực tiểu là một giải pháp ước đạt tối ưu : xem định lý Gauss-Markov .Để xử lý bài toán tối ưu trong hồi qui thường dùng những giải thuật như giải thuật hạ bậc gradient gradient descent, giải thuật Gauss-Newton, và giải thuật Levenberg-Marquardt. Các giải thuật Phần Trăm như RANSAC hoàn toàn có thể được dùng để tìm một tương thích tốt cho tập mẫu, khi cho trước một quy mô tham số hóa của hàm đường cong .

Hồi qui có thể được biểu diễn bằng phương pháp hàm hợp lý ước lượng các tham số của một mô hình nào đó. Tuy nhiên, với một lượng nhỏ dữ liệu, ước lượng này có thể có phương sai lớn (high variance). Các phương pháp Bayesian có thể được sử dụng để ước lượng các mô hình hồi qui. Các tham số có một phân phối điều kiện được giả định trước, nó bao gồm mọi thông tin thống kê đã biết trước về các biến. (Ví dụ, nếu một tham số được biết là không âm thì một phân phối không âm sẽ được gán cho nó.) Phân phối được giả định trước này sau đó được áp dụng cho vector tham số. Phương pháp Bayes có ưu điểm là khai thác được toàn bộ các thông tin đã có và nó là ước lượng chính xác, không phải ước lượng chệch và do đó rất tốt cho các tập số liệu nhỏ. Trong thực hành, người ta sử dụng phương pháp MAP maximum a posteriori, phương pháp này đơn giản hơn phân tích Bayes đầy đủ, trong đó các tham số được chọn sao cho cực đại hóa phân phối giả định trước posterior. Các phương pháp MAP có liên hệ với Occam’s Razor: ở chỗ có sự ưu tiên cho sự đơn giản, khi có nhiều mô hình hồi qui (đường cong) cũng như khi có nhiều lý thuyết thì chọn cái đơn giản.

Công thức tổng quát[sửa|sửa mã nguồn]

Chúng ta muốn dự báo giá trị của một biến ngẫu nhiên Y có điều kiện dựa trên một biến ngẫu nhiên khác gọi là nhân tố. Đặt

p

N

{\displaystyle p\in \mathbb {N} ^{*}}

{\displaystyle p\in \mathbb {N} ^{*}} là số nhân tố được sử dụng cho dự đoán này.

(
Ω
,

A

,
P
)

{\displaystyle (\Omega ,{\mathcal {A}},P)}

{\displaystyle (\Omega ,{\mathcal {A}},P)} xác định một không gian xác suất và

(
Γ
,
S
)

{\displaystyle (\Gamma ,S)}

{\displaystyle (\Gamma ,S)} là một không gian đo được trong đó

(
Γ
,
+
,
.
)

{\displaystyle (\Gamma ,+,.)}

{\displaystyle (\Gamma ,+,.)}

Γ
=

R

n

{\displaystyle \Gamma =\mathbb {R} ^{n}}

{\displaystyle \Gamma =\mathbb {R} ^{n}}

S
=

B

n

{\displaystyle S={\mathcal {B}}_{n}}

{\displaystyle S={\mathcal {B}}_{n}} với

n

N

{\displaystyle n\in \mathbb {N} ^{*}}

{\displaystyle n\in \mathbb {N} ^{*}}). Bây giờ chúng ta có thể xác định biến phụ thuộc

Y
:
(
Ω
,

A

)

(
Γ
,
S
)

{\displaystyle Y:(\Omega ,{\mathcal {A}})\rightarrow (\Gamma ,S)}

{\displaystyle Y:(\Omega ,{\mathcal {A}})\rightarrow (\Gamma ,S)}


i

{
1
,

,
p
}
,

X

i

:
(
Ω
,

A

)

(
Γ
,
S
)

{\displaystyle \forall i\in \{1,\cdots ,p\},X_{i}:(\Omega ,{\mathcal {A}})\rightarrow (\Gamma ,S)}

{\displaystyle \forall i\in \{1,\cdots ,p\},X_{i}:(\Omega ,{\mathcal {A}})\rightarrow (\Gamma ,S)}. Bây giờ, đặt

F

{\displaystyle F}

{\displaystyle F} là tập các hàm được xác định bởi

Ω

{\displaystyle \Omega }

\Omega nhận các giá trị trong

Γ

{\displaystyle \Gamma }

{\displaystyle \Gamma }

Y
,

X

1

,

,

X

p


F

{\displaystyle Y,X_{1},\cdots ,X_{p}\in F}

{\displaystyle Y,X_{1},\cdots ,X_{p}\in F}

d

{\displaystyle d}

d là một metric (độ đo) sao cho

(
F
,
d
)

{\displaystyle (F,d)}

{\displaystyle (F,d)} là một không gian metric đầy đủ complete metric space.

Chúng ta đang tìm một hàm đo được

f
:
(

Γ

p

,

S

p

)

(
Γ
,
S
)

{\displaystyle f:(\Gamma ^{p},S^{p})\rightarrow (\Gamma ,S)}

{\displaystyle f:(\Gamma ^{p},S^{p})\rightarrow (\Gamma ,S)} sao cho

d
(
ω

Y
(
ω
)
,
ω

f
(

X

1

(
ω
)
,

,

X

p

(
ω
)
)

{\displaystyle d(\omega \mapsto Y(\omega ),\omega \mapsto f(X_{1}(\omega ),\cdots ,X_{p}(\omega ))}

{\displaystyle d(\omega \mapsto Y(\omega ),\omega \mapsto f(X_{1}(\omega ),\cdots ,X_{p}(\omega ))} là nhỏ nhất.

Hồi qui tuyến tính[sửa|sửa mã nguồn]

Hồi quy tuyến tính là một trường hợp rất phổ biến trong thực tế. Ta giả thiết rằng hàm

f

{\displaystyle f}

f phụ thuộc tuyến tính vào bộ

X

1

,

,

X

p

{\displaystyle X_{1},\cdots ,X_{p}}

{\displaystyle X_{1},\cdots ,X_{p}} như vậy ta chỉ cần tìm kiếm các hệ số phù hợp.

Đặt

Θ

{\displaystyle \Theta }

{\displaystyle \Theta } là tập các hệ số. Đối thuyết của hồi quy tuyến tính là:

∃ ( β 0, ⋯, β p ) ∈ θ p + 1 : { \ displaystyle \ exists ( \ beta ^ { 0 }, \ cdots, \ beta ^ { p } ) \ in \ theta ^ { p + 1 } : }{\displaystyle \exists (\beta ^{0},\cdots ,\beta ^{p})\in \theta ^{p+1}:}
E ( Y | X 1, ⋯, X p ) = β 0 + ∑ j = 1 p β j X j { \ displaystyle \ mathbb { E } ( Y | X_ { 1 }, \ cdots, X_ { p } ) = \ beta ^ { 0 } + \ sum _ { j = 1 } ^ { p } \ beta ^ { j } X_ { j } }{\displaystyle \mathbb {E} (Y|X_{1},\cdots ,X_{p})=\beta ^{0}+\sum _{j=1}^{p}\beta ^{j}X_{j}}

và matric được sử dụng ở đây là :

∀ f, g ∈ F, d ( f, g ) = E [ ( f − g ) 2 ] { \ displaystyle \ forall f, g \ in F, d ( f, g ) = \ mathbb { E } [ ( f-g ) ^ { 2 } ] }{\displaystyle \forall f,g\in F,d(f,g)=\mathbb {E} [(f-g)^{2}]}

Chúng ta muốn cực tiểu hóa

E

[
(
Y

f
(

X

1

,

,

X

p

)

)

2

]

{\displaystyle \mathbb {E} [(Y-f(X_{1},\cdots ,X_{p}))^{2}]}

{\displaystyle \mathbb {E} [(Y-f(X_{1},\cdots ,X_{p}))^{2}]}, có nghĩa là

f
(

X

1

,

,

X

p

)
=

E

(
Y

|

X

1

,

,

X

p

)
=

β

0

+

j
=
1

p

β

j

X

j

{\displaystyle f(X_{1},\cdots ,X_{p})=\mathbb {E} (Y|X_{1},\cdots ,X_{p})=\beta ^{0}+\sum _{j=1}^{p}\beta ^{j}X_{j}}

{\displaystyle f(X_{1},\cdots ,X_{p})=\mathbb {E} (Y|X_{1},\cdots ,X_{p})=\beta ^{0}+\sum _{j=1}^{p}\beta ^{j}X_{j}}

Như vậy chỉ cần tìm

β

0

,

,

β

p

{\displaystyle \beta ^{0},\cdots ,\beta ^{p}}

{\displaystyle \beta ^{0},\cdots ,\beta ^{p}}.
Để giải quyết bài toán này một cách hiệu quả, một số phương pháp đã được đưa ra. Phương pháp phổ biến nhất là phương pháp Gauss-Markov, nhưng nó đòi hỏi thêm một số đối thuyết nữa.

Mô hình tuyến tính Gauss-Markov[sửa|sửa mã nguồn]

Ước lượng bình phương cực tiểu của những thông số[sửa|sửa mã nguồn]

Xem thêm bình phương cực tiểu

Ví dụ đơn giản nhất của hồi qui là trong trường hợp 1 chiều. Chúng ta được cấp một vec-tơ của các giá trị x và một vec-tơ khác của các giá trị y và chúng ta đang cố gắng tìm kiếm một hàm mà

f
(

x

i

)
=

y

i

{\displaystyle f(x_{i})=y_{i}}

{\displaystyle f(x_{i})=y_{i}}.

giả sử x → = ( − 2 − 1 0 1 2 ), y → = ( 5 2 1 2 5 ) { \ displaystyle { \ vec { x } } = { \ begin { pmatrix } – 2 \ \ – 1 \ \ 0 \ \ 1 \ \ 2 \ \ \ end { pmatrix } }, { \ vec { y } } = { \ begin { pmatrix } 5 \ \ 2 \ \ 1 \ \ 2 \ \ 5 \ \ \ end { pmatrix } } }{\displaystyle {\vec {x}}={\begin{pmatrix}-2\\-1\\0\\1\\2\\\end{pmatrix}},{\vec {y}}={\begin{pmatrix}5\\2\\1\\2\\5\\\end{pmatrix}}}

Giả thiết rằng giải pháp (hàm) của chúng ta là thuộc họ các hàm được định bởi chuỗi Fourier mở rộng cấp 3 (3rd degree Fourier expansion) được viết dưới dạng:

f ( x ) = a 0 / 2 + a 1 cos ⁡ ( x ) + b 1 sin ⁡ ( x ) + a 2 cos ⁡ ( 2 x ) + b 2 sin ⁡ ( 2 x ) + a 3 cos ⁡ ( 3 x ) + b 3 sin ⁡ ( 3 x ) { \ displaystyle f ( x ) = a_ { 0 } / 2 + a_ { 1 } \ cos ( x ) + b_ { 1 } \ sin ( x ) + a_ { 2 } \ cos ( 2 x ) + b_ { 2 } \ sin ( 2 x ) + a_ { 3 } \ cos ( 3 x ) + b_ { 3 } \ sin ( 3 x ) }{\displaystyle f(x)=a_{0}/2+a_{1}\cos(x)+b_{1}\sin(x)+a_{2}\cos(2x)+b_{2}\sin(2x)+a_{3}\cos(3x)+b_{3}\sin(3x)}

với

a

i

,

b

i

{\displaystyle a_{i},b_{i}}

{\displaystyle a_{i},b_{i}} là các số thực. Bài toán này có thể được biểu diễn theo dạng ma trận như sau:

( 1 / 2, cos ⁡ ( x ), sin ⁡ ( x ), cos ⁡ ( 2 x ), sin ⁡ ( 2 x ), cos ⁡ ( 3 x ), sin ⁡ ( 3 x ), ) ( a 0 a 1 b 1 a 2 b 2 a 3 b 3 ) = y → { \ displaystyle { \ begin { pmatrix } 50%, và \ cos ( x ), và \ sin ( x ), và \ cos ( 2 x ), và \ sin ( 2 x ), và \ cos ( 3 x ), và \ sin ( 3 x ), \ \ \ end { pmatrix } } { \ begin { pmatrix } a_ { 0 } \ \ a_ { 1 } \ \ b_ { 1 } \ \ a_ { 2 } \ \ b_ { 2 } \ \ a_ { 3 } \ \ b_ { 3 } \ \ \ end { pmatrix } } = { \ vec { y } } }{\displaystyle {\begin{pmatrix}1/2,&\cos(x),&\sin(x),&\cos(2x),&\sin(2x),&\cos(3x),&\sin(3x),\\\end{pmatrix}}{\begin{pmatrix}a_{0}\\a_{1}\\b_{1}\\a_{2}\\b_{2}\\a_{3}\\b_{3}\\\end{pmatrix}}={\vec {y}}}

điền vào dạng này các giá trị của chúng ta sẽ cho ta bài toán với dạng Xw = y

( 1 / 2 cos ⁡ ( − 2 ) sin ⁡ ( − 2 ) cos ⁡ ( − 4 ) sin ⁡ ( − 4 ) cos ⁡ ( − 6 ) sin ⁡ ( − 6 ) 1 / 2 cos ⁡ ( − 1 ) sin ⁡ ( − 1 ) cos ⁡ ( − 2 ) sin ⁡ ( − 2 ) cos ⁡ ( − 3 ) sin ⁡ ( − 3 ) 1 / 2 1 0 1 0 1 0 1 / 2 cos ⁡ ( 1 ) sin ⁡ ( 1 ) cos ⁡ ( 2 ) sin ⁡ ( 2 ) cos ⁡ ( 3 ) sin ⁡ ( 3 ) 1 / 2 cos ⁡ ( 2 ) sin ⁡ ( 2 ) cos ⁡ ( 4 ) sin ⁡ ( 4 ) cos ⁡ ( 6 ) sin ⁡ ( 6 ) ). ( a 0 a 1 b 1 a 2 b 2 a 3 b 3 ) = ( 5 2 1 2 5 ) { \ displaystyle { \ begin { pmatrix } 50% và \ cos ( – 2 ) và \ sin ( – 2 ) và \ cos ( – 4 ) và \ sin ( – 4 ) và \ cos ( – 6 ) và \ sin ( – 6 ) \ \ 50% và \ cos ( – 1 ) và \ sin ( – 1 ) và \ cos ( – 2 ) và \ sin ( – 2 ) và \ cos ( – 3 ) và \ sin ( – 3 ) \ \ 50% và 1 và 0 và 1 và 0 và 1 và 0 \ \ 50% và \ cos ( 1 ) và \ sin ( 1 ) và \ cos ( 2 ) và \ sin ( 2 ) và \ cos ( 3 ) và \ sin ( 3 ) \ \ 50% và \ cos ( 2 ) và \ sin ( 2 ) và \ cos ( 4 ) và \ sin ( 4 ) và \ cos ( 6 ) và \ sin ( 6 ) \ \ \ end { pmatrix } }. { \ begin { pmatrix } a_ { 0 } \ \ a_ { 1 } \ \ b_ { 1 } \ \ a_ { 2 } \ \ b_ { 2 } \ \ a_ { 3 } \ \ b_ { 3 } \ \ \ end { pmatrix } } = { \ begin { pmatrix } 5 \ \ 2 \ \ 1 \ \ 2 \ \ 5 \ \ \ end { pmatrix } } }{\displaystyle {\begin{pmatrix}1/2&\cos(-2)&\sin(-2)&\cos(-4)&\sin(-4)&\cos(-6)&\sin(-6)\\1/2&\cos(-1)&\sin(-1)&\cos(-2)&\sin(-2)&\cos(-3)&\sin(-3)\\1/2&1&0&1&0&1&0\\1/2&\cos(1)&\sin(1)&\cos(2)&\sin(2)&\cos(3)&\sin(3)\\1/2&\cos(2)&\sin(2)&\cos(4)&\sin(4)&\cos(6)&\sin(6)\\\end{pmatrix}}.{\begin{pmatrix}a_{0}\\a_{1}\\b_{1}\\a_{2}\\b_{2}\\a_{3}\\b_{3}\\\end{pmatrix}}={\begin{pmatrix}5\\2\\1\\2\\5\\\end{pmatrix}}}

Bài toán này giờ đây hoàn toàn có thể chuyển thành bài toán tối ưu để tìm ra tổng cực tiểu của bình phương sai số .
hàm Fourier bậc 3

min w → ∑ i = 1 n ( x i → w → − y i ) 2 { \ displaystyle \ min _ { \ vec { w } } \ sum _ { i = 1 } ^ { n } ( { \ vec { x_ { i } } } { \ vec { w } } – y_ { i } ) ^ { 2 } }{\displaystyle \min _{\vec {w}}\sum _{i=1}^{n}({\vec {x_{i}}}{\vec {w}}-y_{i})^{2}}
min w → ‖ X w → − y → ‖ 2. { \ displaystyle \ min _ { \ vec { w } } \ | X { \ vec { w } } – { \ vec { y } } \ | ^ { 2 }. }{\displaystyle \min _{\vec {w}}\|X{\vec {w}}-{\vec {y}}\|^{2}.}

giải bằng giải pháp bình phương cực tiểu cho ra :

w

=

(

0

4.25

0


6.13

0

2.88

0

)

{\displaystyle {\vec {w}}={\begin{pmatrix}0\\4.25\\0\\-6.13\\0\\2.88\\0\\\end{pmatrix}}}

{\displaystyle {\vec {w}}={\begin{pmatrix}0\\4.25\\0\\-6.13\\0\\2.88\\0\\\end{pmatrix}}}

do đó hàm Fourier bậc 3 mà trùng khớp nhất với tài liệu có công thức đơn cử :

f ( x ) = 4.25 cos ⁡ ( x ) − 6.13 cos ⁡ ( 2 x ) + 2.88 cos ⁡ ( 3 x ). { \ displaystyle f ( x ) = 4.25 \ cos ( x ) – 6.13 \ cos ( 2 x ) + 2.88 \ cos ( 3 x ). }{\displaystyle f(x)=4.25\cos(x)-6.13\cos(2x)+2.88\cos(3x).}
  • Audi, R., Ed. (1996) The Cambridge Dictionary of Philosophy. Cambridge, Cambridge University Press. curve fitting problem p. 172-173.
  • David Birkes and Yadolah Dodge, Alternative Methods of Regression (1993), ISBN 0-471-56881-3
  • W. Hardle, Applied Nonparametric Regression (1990), ISBN 0-521-42950-1
  • J. Fox, Applied Regression Analysis, Linear Models and Related Methods. (1997), Sage

Liên kết ngoài[sửa|sửa mã nguồn]

Trả lời

Email của bạn sẽ không được hiển thị công khai.