Il modello OLS: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
+ tl risorsa
Nessun oggetto della modifica
Riga 2:
|avanzamento=00
|materia1=Econometria
|precedente1=Analisi preliminare delle variabili
|successivo1=Il modello GLS
}}
 
{{risorsa|tipo=lezione|materia1=Econometria|avanzamento=000%}}
 
Supponiamo di avere disposizioni dati campionari relativi a due fenomeni: ''salario mensile'', che chiamiamo <math>Y</math>, e ''anni di istruzione'', che chiamiamo <math>X</math>. Potremmo essere interessati a sapere se è vero che "studiare di più serve a guadagnare di più in futuro", e cercare di scoprire anche "quanto". In altri termini, cerchiamo una funzione che associa a ogni quantità di anni impiegati nello studio una '''previsione''' il più precisa possibile di quello è lecito aspettarsi di guadagnare in futuro, non sulla base di teorie ma a partire da dati campionari raccolti.
Riga 17:
* <math>x_i</math> è l'i-esimo livello della variabile <math>X</math>, che è il fenomeno che "usiamo" per spiegare <math>Y</math> poiché lo riteniamo ad esso in qualche modo correlato;
* i vari <math>\beta</math> che sono '''parametri''' costanti '''oggetto della nostra stima OLS''';
* <math>u_i</math> è '''l'errore''' associato, cioè quella parte di <math>Yy_i</math> che è incorrelata con <math>Xx_i</math> e che dunque '''non so spiegare'''.
Naturalmente non sappiamo quali siano <math>\beta_0</math> e <math>\beta_1</math>, e dobbiamo stimarli attraverso dati campionari e opportuni '''stimatori''' (che in questa lezione sono appunto gli stimatori OLS). Trovati delle '''stime''' di <math>\beta_0</math> e <math>\beta_1</math> a partire da osservazioni campionarie di <math>Y</math> e <math>X</math>, che chiamiamo <math>\hat{\beta_0}</math> e <math>\hat{\beta}_1</math>, abbiamo la stima di <math>y_i</math> che chiamiamo <math>\hat{y}_i</math> e anche una la stima degli errori, cioè i '''residui''' <math>\hat{u}_i=y_i-\hat{y}_i=y_i-\hat{\beta}_0-\hat{\beta}_1 x_i</math> che banalmente rappresentano quanto la retta di regressione non è stata capace di spiegare.
 
==Condizioni di applicabilità degli OLS==
== Stimatori OLS ==
===Gli errori non sono correlati con la variabile esplicativa===
Gli stimatori OLS sono variabili casuali <math>\hat{\beta}_0</math> e <math>\hat{\beta}_1</math> tali che la somma degli ''i'' residui è minimizzata.
Si deve avere che <math>\mathbb{E}(u_i|x_i)=0</math> e conseguentemente che <math>\text{Cov}(u_i,x_i)=0</math>. In altri termini, per ogni livello della variabile esplicativa <math>X</math>, <math>x_i</math>, possono esserci errore più o meno grossi, ma devono comunque compensarsi, cioè avere media nulla. Se ciò non avviene è perché la variabile esplicativa è influenzata a sua volta dalla variabile dipendente che deve spiegare, generando una specie di loop. Se uno shock di <math>u_i</math>, incrementando <math>y_i</math>, modifica a sua volta <math>x_i</math>, allora la prima condizione degli OLS è violata.
 
Per esempio, supponiamo di voler spiegare la quantità prodotta di arance attraverso il prezzo delle arance sul mercato, prefigurandoci una qualche correlazione positiva tra prezzo <math>P</math> e quantità <math>Q</math>. Il modello di regressione lineare con i minimi quadrati ordinari è
<math display="block">\hat{\beta}_1=\frac{\text{Cov}(X,Y)}{\text{Var}(X)}=\frac{\sum_{i=1}^n (x_i-\bar{X})(y_i-\bar{Y})}{\sum_{i=1}^n (x-\bar{X})^2}</math><math display="block">\hat{\beta}_0 = \bar{Y}-\hat{\beta}_1 \bar{X}</math>Se valgono le condizioni sotto, allora i due stimatori OLS sono i migliori stimatori lineari non distorti (Best Linear Unbiased Estimator).
<center><math>q_i=\beta_0+\beta_1 p_i + u_i</math></center>
Supponiamo ora un qualsiasi shock su <math>u_i</math>, per esempio l'avvento di un parassita che distrugge una rilevante parte del raccolto. Si ha ovviamente che la quantità <math>q_i</math>, '''ma questo ha effetto anche sul prezzo''' <math>p_i</math> (che nell'esempio dovrebbe aumentare, ma ciò è irrilevante nel caso generale). Questo mostra che gli errori sono correlati con la variabile esplicativa.
 
Quando invece shock sugli errori che si ripercuotono sulla variabile dipendente non generano a loro volta effetti sulla variabile esplicativa, allora l'indipendenza tra la variabile esplicativa e gli errori è assicurata.
=== Distribuzione degli OLS ===
A prescindere dalla forma delle popolazioni, per campioni sufficientemente grandi gli stimatori OLS hanno distribuzione normale con la seguente media e varianza:
 
<math display="block">\mathbb{E}(\hat{\beta}_1)=\beta_1</math><math display="block">\text{Var}(\hat{\beta}_1)=\frac{\sigma^2_u}{n (\sigma_X^2)^2}</math>
 
==Condizioni degli OLS==
===Gli errori non sono correlati con la variabile esplicativa===
Se gli errori sono correlati con la variabile esplicativa <math>\hat{\beta}_0</math> e <math>\hat{\beta}_1</math> sono distorti, cioè <math>\mathbb{E}(\hat{\beta}_i) \neq \beta_i</math>.
 
Line 43 ⟶ 41:
 
<math display="block">0<\mathbb{E}(X^4)<+\infty</math>In realtà spesso gli outlier sono riconoscibili anche graficamente nello scatter plot.
 
== Stimatori OLS ==
Gli stimatori OLS sono variabili casuali <math>\hat{\beta}_0</math> e <math>\hat{\beta}_1</math> tali che la somma degli ''i'' residui è minimizzata. Denotando per comodità <math>\bar{X}=\mathbb{E}(X)</math> e <math>\bar{Y}=\mathbb{E}(Y)</math>, si ha:
 
<center><math>\hat{\beta}_1=\frac{\text{Cov}(X,Y)}{\text{Var}(X)}=\frac{\sum_{i=1}^n (x_i-\bar{X})(y_i-\bar{Y})}{\sum_{i=1}^n (x-\bar{X})^2}</math></center>
<center><math>\hat{\beta}_0 = \bar{Y}-\hat{\beta}_1 \bar{X}</math></center>
 
'''Se valgono le condizioni sopra''', allora i due stimatori OLS sono i migliori stimatori lineari non distorti (Best Linear Unbiased Estimator). I '''residui della regressione''' sono:
<center><math>\hat{u}_i=y_i-\hat{y_i}=y_i-\hat{\beta_0}-\hat{\beta_1} x_i</math></center>
{{cassetto
|titolo=Dimostrazione
|testo=da fare. Mostrare che gli stimatori OLS sono il risultato della minimizzazione ottima.
}}
 
=== Distribuzione degli OLS ===
A prescindere dalla forma delle popolazioni, per campioni sufficientemente grandi gli stimatori OLS hanno distribuzione normale con la seguente media e varianza:
 
<math display="block">\mathbb{E}(\hat{\beta}_1)=\beta_1</math><math display="block">\text{Var}(\hat{\beta}_1)=\frac{\sigma^2_u}{n (\sigma_X^2)^2}</math>
 
 
[[Categoria:Econometria|Il modello OLS]]