Chuyển tới nội dung chính

OLS — Hồi quy bình phương nhỏ nhất

OLS (Ordinary Least Squares) là mô hình hồi quy tuyến tính nền tảng, ước lượng hệ số bằng cách tối thiểu hóa tổng bình phương phần dư. Đây là điểm khởi đầu của hầu hết phân tích thực nghiệm và là cơ sở để so sánh với các ước lượng phức tạp hơn.

Khi nào dùng

OLS phù hợp cho dữ liệu chéo (cross-section) với biến phụ thuộc liên tục và quan hệ tuyến tính theo tham số. Nếu vi phạm giả định (phương sai sai số thay đổi, nội sinh, dữ liệu bảng…), hãy chuyển sang ước lượng phù hợp.


Đặc tả mô hình

Yi=β0+β1X1i++βkXki+εiY_i = \beta_0 + \beta_1 X_{1i} + \dots + \beta_k X_{ki} + \varepsilon_i

Ước lượng OLS (dạng ma trận): β^=(XX)1XY\hat{\beta} = (X'X)^{-1} X'Y, là nghiệm của bài toán minβi=1nεi2\min_{\beta} \sum_{i=1}^{n} \varepsilon_i^2.


Giả định Gauss-Markov

  1. Tuyến tính theo tham số và mô hình đặc tả đúng.
  2. Kỳ vọng sai số bằng 0: E[εiX]=0E[\varepsilon_i \mid X] = 0 (ngoại sinh).
  3. Không phương sai sai số thay đổi: Var(εi)=σ2\mathrm{Var}(\varepsilon_i) = \sigma^2 (homoskedasticity).
  4. Không tự tương quan giữa các sai số.
  5. Không đa cộng tuyến hoàn hảo giữa các biến giải thích.

Khi 1–5 thỏa, OLS là BLUE (ước lượng tuyến tính không chệch tốt nhất).


Chẩn đoán & xử lý

Vấn đềKiểm địnhXử lý
Phương sai sai số thay đổiBreusch-Pagan, WhiteSai số chuẩn robust (HC0–HC3)
Tự tương quanDurbin-Watson, Breusch-GodfreyNewey-West / GLS
Đa cộng tuyếnVIFBỏ biến / Ridge, Lasso
Nội sinhHausmanIV/2SLS
Sai phân phối chuẩn phần dưJarque-BeraBiến đổi biến / mẫu lớn
Sai số chuẩn vững

Khi nghi ngờ phương sai sai số thay đổi, chọn cấu trúc White Robust (HC0–HC3) hoặc Clustered để t-stat và p-value tin cậy hơn — đây chính là cách EcoLab tạo nhiều bộ ước lượng từ cùng một mô hình.


Thực hiện trong EcoLab

  1. Module Mô hình hóa → họ Hồi quy tuyến tính cổ điểnOLS.
  2. Chọn biến phụ thuộc YY và các biến độc lập X1,,XkX_1, \dots, X_k.
  3. Chọn cấu trúc sai số chuẩn (Homoskedastic / Robust / Clustered).
  4. Chạy và đọc thẻ Ước lượng, Chẩn đoán, Mã tái lập.

Ví dụ đầu vào / đầu ra

Đầu vào (minh họa): wage (lương) theo educ (số năm học), exper (kinh nghiệm).

Đầu ra (định dạng, số liệu minh họa — không phải kết quả thực):

BiếnHệ sốSE (robust)p-value
educ0.0780.0120.000
exper0.0210.0060.001
R2R^20.34

Minh họa mã tái lập

* === OLS với sai số chuẩn robust ===
* Tạo biến kinh nghiệm bậc 2
gen exper2 = exper^2

* Hồi quy OLS, sai số chuẩn robust (HC1)
regress lnwage educ exper exper2, vce(robust)

* Kiểm định phương sai sai số thay đổi (Breusch-Pagan)
estat hettest

* Kiểm tra đa cộng tuyến
vif

Hạn chế

  • Nhạy với outlier và sai đặc tả dạng hàm.
  • Không phù hợp khi YY rời rạc/bị chặn (dùng Logit/Probit/Tobit) hoặc dữ liệu bảng (dùng FE/RE).

Video minh họa

Video Tutorial: Hướng dẫn chạy OLS trong EcoLab

Xem thêm