Il modello OLS: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
+ tl risorsa |
Nessun oggetto della modifica |
||
Riga 2:
|avanzamento=00
|materia1=Econometria
|precedente1=Analisi preliminare delle variabili
|successivo1=Il modello GLS
}}
{{risorsa|tipo=lezione|materia1=Econometria|avanzamento=
Supponiamo di avere disposizioni dati campionari relativi a due fenomeni: ''salario mensile'', che chiamiamo <math>Y</math>, e ''anni di istruzione'', che chiamiamo <math>X</math>. Potremmo essere interessati a sapere se è vero che "studiare di più serve a guadagnare di più in futuro", e cercare di scoprire anche "quanto". In altri termini, cerchiamo una funzione che associa a ogni quantità di anni impiegati nello studio una '''previsione''' il più precisa possibile di quello è lecito aspettarsi di guadagnare in futuro, non sulla base di teorie ma a partire da dati campionari raccolti.
Riga 17:
* <math>x_i</math> è l'i-esimo livello della variabile <math>X</math>, che è il fenomeno che "usiamo" per spiegare <math>Y</math> poiché lo riteniamo ad esso in qualche modo correlato;
* i vari <math>\beta</math> che sono '''parametri''' costanti '''oggetto della nostra stima OLS''';
* <math>u_i</math> è '''l'errore''' associato, cioè quella parte di <math>
Naturalmente non sappiamo quali siano <math>\beta_0</math> e <math>\beta_1</math>, e dobbiamo stimarli attraverso dati campionari e opportuni '''stimatori''' (che in questa lezione sono appunto gli stimatori OLS). Trovati delle '''stime''' di <math>\beta_0</math> e <math>\beta_1</math> a partire da osservazioni campionarie di <math>Y</math> e <math>X</math>, che chiamiamo <math>\hat{\beta_0}</math> e <math>\hat{\beta}_1</math>, abbiamo la stima di <math>y_i</math> che chiamiamo <math>\hat{y}_i</math> e anche una la stima degli errori, cioè i '''residui''' <math>\hat{u}_i=y_i-\hat{y}_i=y_i-\hat{\beta}_0-\hat{\beta}_1 x_i</math> che banalmente rappresentano quanto la retta di regressione non è stata capace di spiegare.
==Condizioni di applicabilità degli OLS==▼
== Stimatori OLS ==▼
===Gli errori non sono correlati con la variabile esplicativa===▼
Gli stimatori OLS sono variabili casuali <math>\hat{\beta}_0</math> e <math>\hat{\beta}_1</math> tali che la somma degli ''i'' residui è minimizzata.▼
Si deve avere che <math>\mathbb{E}(u_i|x_i)=0</math> e conseguentemente che <math>\text{Cov}(u_i,x_i)=0</math>. In altri termini, per ogni livello della variabile esplicativa <math>X</math>, <math>x_i</math>, possono esserci errore più o meno grossi, ma devono comunque compensarsi, cioè avere media nulla. Se ciò non avviene è perché la variabile esplicativa è influenzata a sua volta dalla variabile dipendente che deve spiegare, generando una specie di loop. Se uno shock di <math>u_i</math>, incrementando <math>y_i</math>, modifica a sua volta <math>x_i</math>, allora la prima condizione degli OLS è violata.
Per esempio, supponiamo di voler spiegare la quantità prodotta di arance attraverso il prezzo delle arance sul mercato, prefigurandoci una qualche correlazione positiva tra prezzo <math>P</math> e quantità <math>Q</math>. Il modello di regressione lineare con i minimi quadrati ordinari è
<center><math>q_i=\beta_0+\beta_1 p_i + u_i</math></center>
Supponiamo ora un qualsiasi shock su <math>u_i</math>, per esempio l'avvento di un parassita che distrugge una rilevante parte del raccolto. Si ha ovviamente che la quantità <math>q_i</math>, '''ma questo ha effetto anche sul prezzo''' <math>p_i</math> (che nell'esempio dovrebbe aumentare, ma ciò è irrilevante nel caso generale). Questo mostra che gli errori sono correlati con la variabile esplicativa.
Quando invece shock sugli errori che si ripercuotono sulla variabile dipendente non generano a loro volta effetti sulla variabile esplicativa, allora l'indipendenza tra la variabile esplicativa e gli errori è assicurata.
=== Distribuzione degli OLS ===▼
A prescindere dalla forma delle popolazioni, per campioni sufficientemente grandi gli stimatori OLS hanno distribuzione normale con la seguente media e varianza:▼
<math display="block">\mathbb{E}(\hat{\beta}_1)=\beta_1</math><math display="block">\text{Var}(\hat{\beta}_1)=\frac{\sigma^2_u}{n (\sigma_X^2)^2}</math>▼
▲==Condizioni degli OLS==
▲===Gli errori non sono correlati con la variabile esplicativa===
Se gli errori sono correlati con la variabile esplicativa <math>\hat{\beta}_0</math> e <math>\hat{\beta}_1</math> sono distorti, cioè <math>\mathbb{E}(\hat{\beta}_i) \neq \beta_i</math>.
Line 43 ⟶ 41:
<math display="block">0<\mathbb{E}(X^4)<+\infty</math>In realtà spesso gli outlier sono riconoscibili anche graficamente nello scatter plot.
▲== Stimatori OLS ==
▲Gli stimatori OLS sono variabili casuali <math>\hat{\beta}_0</math> e <math>\hat{\beta}_1</math> tali che la somma degli ''i'' residui è minimizzata. Denotando per comodità <math>\bar{X}=\mathbb{E}(X)</math> e <math>\bar{Y}=\mathbb{E}(Y)</math>, si ha:
<center><math>\hat{\beta}_1=\frac{\text{Cov}(X,Y)}{\text{Var}(X)}=\frac{\sum_{i=1}^n (x_i-\bar{X})(y_i-\bar{Y})}{\sum_{i=1}^n (x-\bar{X})^2}</math></center>
<center><math>\hat{\beta}_0 = \bar{Y}-\hat{\beta}_1 \bar{X}</math></center>
'''Se valgono le condizioni sopra''', allora i due stimatori OLS sono i migliori stimatori lineari non distorti (Best Linear Unbiased Estimator). I '''residui della regressione''' sono:
<center><math>\hat{u}_i=y_i-\hat{y_i}=y_i-\hat{\beta_0}-\hat{\beta_1} x_i</math></center>
{{cassetto
|titolo=Dimostrazione
|testo=da fare. Mostrare che gli stimatori OLS sono il risultato della minimizzazione ottima.
}}
▲=== Distribuzione degli OLS ===
▲A prescindere dalla forma delle popolazioni, per campioni sufficientemente grandi gli stimatori OLS hanno distribuzione normale con la seguente media e varianza:
▲<math display="block">\mathbb{E}(\hat{\beta}_1)=\beta_1</math><math display="block">\text{Var}(\hat{\beta}_1)=\frac{\sigma^2_u}{n (\sigma_X^2)^2}</math>
[[Categoria:Econometria|Il modello OLS]]
|