|
|
LeVanLoi'log, ⌚ 2024-11-08
***
What is 'regression' in theory of probability?
Tác giả: Lê Văn Lợi tổng hợp
English:
In the theory of probability, regression refers to the statistical relationship between a dependent random variable (also called the response or outcome) and one or more independent random variables (also called predictors, covariates, or explanatory variables). Regression aims to model how the conditional expectation of depends on .
Core Idea of Regression in Probability
The goal is to find the conditional expectation of given , denoted as . This is called the regression function. It provides the best estimate of , in the sense of minimizing the expected squared error, given the value of .
Mathematically:
where is a function determined by the joint probability distribution of . This function is the regression function, which captures the relationship between and .
Types of Regression
-
Linear Regression:
- Assumes a linear relationship between and :
- The parameters (intercept) and (slope) are determined by minimizing the expected squared difference between and :
-
Nonlinear Regression:
- The relationship between and is not linear. The regression function can be a more general, nonlinear function such as .
-
Multiple Regression:
- When depends on multiple independent variables , the regression function becomes:
-
Logistic Regression:
- Used for modeling the probability of a binary outcome :
Key Theoretical Properties
-
Best Predictor in Mean-Square Sense:
- The regression function minimizes the mean squared error:
- This makes the optimal prediction of given .
-
Law of Total Expectation:
- Regression relates to the law of total expectation:
- This decomposes the expectation of into the expectation of its conditional expectation.
-
Decomposition of Variance:
- The total variance of Y can be decomposed as: where:
- : Expected variance of given .
- : Variance of the conditional expectation.
Regression vs. Correlation
While correlation measures the strength and direction of a linear relationship between two random variables, regression explicitly models the conditional relationship, focusing on predicting given . Correlation is symmetric (no dependent/independent distinction), but regression is asymmetric (predicting one variable from another).
Applications in Probability and Statistics
-
Prediction:
- Use regression to estimate based on observed , such as forecasting sales or weather.
-
Causal Inference:
- Analyze how changes in affect , such as studying the effect of a drug dose on recovery time.
-
Exploratory Data Analysis:
- Understand relationships between variables by modeling .
-
Uncertainty Quantification:
- Incorporate probabilistic methods to assess the variability of predictions.
In summary, regression in the theory of probability focuses on modeling the conditional expectation of one random variable based on another , providing a foundational tool for prediction, inference, and understanding relationships in data.
Vietnamese:
Trong lý thuyết xác suất, hồi quy (regression) đề cập đến mối quan hệ thống kê giữa một biến ngẫu nhiên phụ thuộc (còn gọi là biến đáp ứng hoặc kết quả) và một hoặc nhiều biến ngẫu nhiên độc lập (còn gọi là biến giải thích hoặc biến dự đoán). Mục tiêu của hồi quy là mô hình hóa cách kỳ vọng có điều kiện của phụ thuộc vào .
Ý tưởng cốt lõi của hồi quy trong xác suất
Mục tiêu là tìm kỳ vọng có điều kiện của với , ký hiệu là . Đây được gọi là hàm hồi quy. Nó cung cấp ước lượng tốt nhất của , theo nghĩa tối thiểu hóa sai số bình phương kỳ vọng, dựa trên giá trị của .
Toán học:
trong đó là một hàm được xác định bởi phân phối xác suất chung của . Hàm này là hàm hồi quy, mô tả mối quan hệ giữa và .
Các loại hồi quy
-
Hồi quy tuyến tính:
- Giả định mối quan hệ tuyến tính giữa và :
- Các tham số (hệ số chặn) và (hệ số góc) được xác định bằng cách tối thiểu hóa sai số bình phương kỳ vọng:
-
Hồi quy phi tuyến (Nonlinear Regression):
- Mối quan hệ giữa và không tuyến tính. Hàm hồi quy có thể là một hàm phi tuyến, ví dụ:
-
Hồi quy đa biến (Multiple Regression):
- Khi phụ thuộc vào nhiều biến độc lập , hàm hồi quy trở thành:
-
Hồi quy logistic (Logistic Regression):
- Dùng để mô hình hóa xác suất của một kết quả nhị phân :
Các tính chất lý thuyết chính
-
Dự đoán tốt nhất theo nghĩa bình phương trung bình:
- Hàm hồi quy tối thiểu hóa sai số bình phương trung bình:
- Điều này làm cho trở thành dự đoán tối ưu của dựa trên .
-
Định luật kỳ vọng toàn phần (Law of Total Expectation):
- Hồi quy liên quan đến định luật kỳ vọng toàn phần:
- Điều này phân rã kỳ vọng của thành kỳ vọng của kỳ vọng có điều kiện.
-
Phân rã phương sai (Variance Decomposition):
- Phương sai tổng của có thể được phân rã như sau: trong đó:
- : Phương sai kỳ vọng của với điều kiện .
- : Phương sai của kỳ vọng có điều kiện.
Hồi quy và tương quan
Mặc dù tương quan (correlation) đo lường độ mạnh và hướng của mối quan hệ tuyến tính giữa hai biến ngẫu nhiên, hồi quy (regression) mô hình hóa mối quan hệ có điều kiện, tập trung vào việc dự đoán dựa trên . Tương quan là đối xứng (không phân biệt biến phụ thuộc/độc lập), trong khi hồi quy là không đối xứng (dự đoán một biến từ biến kia).
Ứng dụng trong xác suất và thống kê
-
Dự đoán (Prediction):
- Sử dụng hồi quy để ước lượng dựa trên , như dự đoán doanh số hoặc thời tiết.
-
Suy diễn nhân quả (Causal Inference):
- Phân tích cách thay đổi trong ảnh hưởng đến , như nghiên cứu tác động của liều lượng thuốc đến thời gian phục hồi.
-
Phân tích dữ liệu thăm dò (Exploratory Data Analysis):
- Hiểu mối quan hệ giữa các biến bằng cách mô hình hóa .
-
Định lượng độ bất định (Uncertainty Quantification):
- Áp dụng các phương pháp xác suất để đánh giá sự biến động trong các dự đoán.
Tóm lại, hồi quy trong lý thuyết xác suất tập trung vào việc mô hình hóa kỳ vọng có điều kiện của một biến ngẫu nhiên dựa trên biến ngẫu nhiên , cung cấp một công cụ nền tảng để dự đoán, suy luận và hiểu các mối quan hệ trong dữ liệu.
|
|
|
|
|