LeVanLoi miscellaneous articles

  1. Trang chủ
  2. Lưu
  3. Thẻ
  4. Hỏi - Đáp

 
 
LeVanLoi'log, ⌚ 2024-11-08
***
What is 'regression' in theory of probability?
Tác giả: Lê Văn Lợi tổng hợp

English:

In the theory of probability, regression refers to the statistical relationship between a dependent random variable YY (also called the response or outcome) and one or more independent random variables XX (also called predictors, covariates, or explanatory variables). Regression aims to model how the conditional expectation of YY depends on XX.


Core Idea of Regression in Probability

The goal is to find the conditional expectation of YY given XX, denoted as E[YX]mathbb{E}[Y | X]. This is called the regression function. It provides the best estimate of YY, in the sense of minimizing the expected squared error, given the value of XX.

Mathematically:

E[YX]=g(X),mathbb{E}[Y | X] = g(X),

where g(X)g(X) is a function determined by the joint probability distribution of (X,Y)(X, Y). This function is the regression function, which captures the relationship between XX and YY.


Types of Regression

  1. Linear Regression:

    • Assumes a linear relationship between YY and XX: E[YX]=β0+β1X.mathbb{E}[Y | X] = beta_0 + beta_1 X.
    • The parameters β0beta_0 (intercept) and β1beta_1 (slope) are determined by minimizing the expected squared difference between YY and E[YX]mathbb{E}[Y | X]: minβ0,β1E[(Y(β0+β1X))2].min_{beta_0, beta_1} mathbb{E}left[left(Y - (beta_0 + beta_1 X)right)^2right].
  2. Nonlinear Regression:

    • The relationship between YY and XX is not linear. The regression function g(X)g(X) can be a more general, nonlinear function such as E[YX]=α+βsin(X)mathbb{E}[Y | X] = alpha + beta sin(X).
  3. Multiple Regression:

    • When YY depends on multiple independent variables X=(X1,X2,,Xk)mathbf{X} = (X_1, X_2, dots, X_k), the regression function becomes: E[YX]=g(X1,X2,,Xk).mathbb{E}[Y | mathbf{X}] = g(X_1, X_2, dots, X_k).
  4. Logistic Regression:

    • Used for modeling the probability of a binary outcome Y{0,1}Y in {0, 1}: P(Y=1X)=11+e(β0+β1X).mathbb{P}(Y = 1 | X) = frac{1}{1 + e^{-(beta_0 + beta_1 X)}}.

Key Theoretical Properties

  1. Best Predictor in Mean-Square Sense:

    • The regression function E[YX]mathbb{E}[Y | X] minimizes the mean squared error: E[(Yg(X))2].mathbb{E}left[left(Y - g(X)right)^2right].
    • This makes E[YX]mathbb{E}[Y | X] the optimal prediction of YY given XX.
  2. Law of Total Expectation:

    • Regression relates to the law of total expectation: E[Y]=E[E[YX]].mathbb{E}[Y] = mathbb{E}[mathbb{E}[Y | X]].
    • This decomposes the expectation of YY into the expectation of its conditional expectation.
  3. Decomposition of Variance:

    • The total variance of YY can be decomposed as: Var(Y)=E[Var(YX)]+Var(E[YX]),text{Var}(Y) = mathbb{E}[text{Var}(Y | X)] + text{Var}(mathbb{E}[Y | X]), where:
      • E[Var(YX)]mathbb{E}[text{Var}(Y | X)]: Expected variance of YY given XX.
      • Var(E[YX])text{Var}(mathbb{E}[Y | X]): Variance of the conditional expectation.

Regression vs. Correlation

While correlation measures the strength and direction of a linear relationship between two random variables, regression explicitly models the conditional relationship, focusing on predicting YY given XX. Correlation is symmetric (no dependent/independent distinction), but regression is asymmetric (predicting one variable from another).


Applications in Probability and Statistics

  1. Prediction:

    • Use regression to estimate YY based on observed XX, such as forecasting sales or weather.
  2. Causal Inference:

    • Analyze how changes in XX affect YY, such as studying the effect of a drug dose on recovery time.
  3. Exploratory Data Analysis:

    • Understand relationships between variables by modeling E[YX]mathbb{E}[Y | X].
  4. Uncertainty Quantification:

    • Incorporate probabilistic methods to assess the variability of predictions.

In summary, regression in the theory of probability focuses on modeling the conditional expectation of one random variable YY based on another XX, providing a foundational tool for prediction, inference, and understanding relationships in data.

Vietnamese:

Trong lý thuyết xác suất, hồi quy (regression) đề cập đến mối quan hệ thống kê giữa một biến ngẫu nhiên phụ thuộc YY (còn gọi là biến đáp ứng hoặc kết quả) và một hoặc nhiều biến ngẫu nhiên độc lập XX (còn gọi là biến giải thích hoặc biến dự đoán). Mục tiêu của hồi quy là mô hình hóa cách kỳ vọng có điều kiện của YY phụ thuộc vào XX.


Ý tưởng cốt lõi của hồi quy trong xác suất

Mục tiêu là tìm kỳ vọng có điều kiện của YY với XX, ký hiệu là E[YX]mathbb{E}[Y | X]. Đây được gọi là hàm hồi quy. Nó cung cấp ước lượng tốt nhất của YY, theo nghĩa tối thiểu hóa sai số bình phương kỳ vọng, dựa trên giá trị của XX.

Toán học:

E[YX]=g(X),mathbb{E}[Y | X] = g(X),

trong đó g(X)g(X) là một hàm được xác định bởi phân phối xác suất chung của (X,Y)(X, Y). Hàm này là hàm hồi quy, mô tả mối quan hệ giữa XX và YY.


Các loại hồi quy

  1. Hồi quy tuyến tính:

    • Giả định mối quan hệ tuyến tính giữa YY và XX: E[YX]=β0+β1X.mathbb{E}[Y | X] = beta_0 + beta_1 X.
    • Các tham số β0beta_0 (hệ số chặn) và β1beta_1 (hệ số góc) được xác định bằng cách tối thiểu hóa sai số bình phương kỳ vọng: minβ0,β1E[(Y(β0+β1X))2].min_{beta_0, beta_1} mathbb{E}left[left(Y - (beta_0 + beta_1 X)right)^2right].
  2. Hồi quy phi tuyến (Nonlinear Regression):

    • Mối quan hệ giữa YY và XX không tuyến tính. Hàm hồi quy g(X)g(X) có thể là một hàm phi tuyến, ví dụ: E[YX]=α+βsin(X).mathbb{E}[Y | X] = alpha + beta sin(X).
  3. Hồi quy đa biến (Multiple Regression):

    • Khi YY phụ thuộc vào nhiều biến độc lập X=(X1,X2,,Xk)mathbf{X} = (X_1, X_2, dots, X_k), hàm hồi quy trở thành: E[YX]=g(X1,X2,,Xk).mathbb{E}[Y | mathbf{X}] = g(X_1, X_2, dots, X_k).
  4. Hồi quy logistic (Logistic Regression):

    • Dùng để mô hình hóa xác suất của một kết quả nhị phân Y{0,1}Y in {0, 1}: P(Y=1X)=11+e(β0+β1X).mathbb{P}(Y = 1 | X) = frac{1}{1 + e^{-(beta_0 + beta_1 X)}}.

Các tính chất lý thuyết chính

  1. Dự đoán tốt nhất theo nghĩa bình phương trung bình:

    • Hàm hồi quy E[YX]mathbb{E}[Y | X] tối thiểu hóa sai số bình phương trung bình: E[(Yg(X))2].mathbb{E}left[left(Y - g(X)right)^2right].
    • Điều này làm cho E[YX]mathbb{E}[Y | X] trở thành dự đoán tối ưu của YY dựa trên XX.
  2. Định luật kỳ vọng toàn phần (Law of Total Expectation):

    • Hồi quy liên quan đến định luật kỳ vọng toàn phần: E[Y]=E[E[YX]].mathbb{E}[Y] = mathbb{E}[mathbb{E}[Y | X]].
    • Điều này phân rã kỳ vọng của YY thành kỳ vọng của kỳ vọng có điều kiện.
  3. Phân rã phương sai (Variance Decomposition):

    • Phương sai tổng của YY có thể được phân rã như sau: Var(Y)=E[Var(YX)]+Var(E[YX]),text{Var}(Y) = mathbb{E}[text{Var}(Y | X)] + text{Var}(mathbb{E}[Y | X]), trong đó:
      • E[Var(YX)]mathbb{E}[text{Var}(Y | X)]: Phương sai kỳ vọng của YY với điều kiện XX.
      • Var(E[YX])text{Var}(mathbb{E}[Y | X]): Phương sai của kỳ vọng có điều kiện.

Hồi quy và tương quan

Mặc dù tương quan (correlation) đo lường độ mạnh và hướng của mối quan hệ tuyến tính giữa hai biến ngẫu nhiên, hồi quy (regression) mô hình hóa mối quan hệ có điều kiện, tập trung vào việc dự đoán YY dựa trên XX. Tương quan là đối xứng (không phân biệt biến phụ thuộc/độc lập), trong khi hồi quy là không đối xứng (dự đoán một biến từ biến kia).


Ứng dụng trong xác suất và thống kê

  1. Dự đoán (Prediction):

    • Sử dụng hồi quy để ước lượng YY dựa trên XX, như dự đoán doanh số hoặc thời tiết.
  2. Suy diễn nhân quả (Causal Inference):

    • Phân tích cách thay đổi trong XX ảnh hưởng đến YY, như nghiên cứu tác động của liều lượng thuốc đến thời gian phục hồi.
  3. Phân tích dữ liệu thăm dò (Exploratory Data Analysis):

    • Hiểu mối quan hệ giữa các biến bằng cách mô hình hóa E[YX]mathbb{E}[Y | X].
  4. Định lượng độ bất định (Uncertainty Quantification):

    • Áp dụng các phương pháp xác suất để đánh giá sự biến động trong các dự đoán.

Tóm lại, hồi quy trong lý thuyết xác suất tập trung vào việc mô hình hóa kỳ vọng có điều kiện của một biến ngẫu nhiên YY dựa trên biến ngẫu nhiên XX, cung cấp một công cụ nền tảng để dự đoán, suy luận và hiểu các mối quan hệ trong dữ liệu.