Il modello OLS
Supponiamo di avere disposizioni dati campionari relativi a due fenomeni: salario mensile, che chiamiamo , e anni di istruzione, che chiamiamo . Potremmo essere interessati a sapere se è vero che "studiare di più serve a guadagnare di più in futuro", e cercare di scoprire anche "quanto". In altri termini, cerchiamo una funzione che associa a ogni quantità di anni impiegati nello studio una previsione il più precisa possibile di quello è lecito aspettarsi di guadagnare in futuro, non sulla base di teorie ma a partire da dati campionari raccolti.
Dal grafico di esempio e dal buon senso è lecito aspettarsi una qualche correlazione positiva tra anni di istruzione e stipendio guadagnato.
Per "previsione il più precisa possibile" in questa sede intendiamo una retta che minimizza gli errori di previsione. Nel caso di funzioni lineari, come quelle a cui facciamo riferimento in questa lezione, il modello OLS è dunque così composto:
dove:
- è l'i-esimo livello della variabile , che è il fenomeno che vogliamo spiegare;
- è l'i-esimo livello della variabile , che è il fenomeno che "usiamo" per spiegare poiché lo riteniamo ad esso in qualche modo correlato;
- i vari che sono parametri costanti oggetto della nostra stima OLS;
- è l'errore associato, cioè quella parte di che è incorrelata con e che dunque non so spiegare.
Naturalmente non sappiamo quali siano e , e dobbiamo stimarli attraverso dati campionari e opportuni stimatori (che in questa lezione sono appunto gli stimatori OLS). Trovati delle stime di e a partire da osservazioni campionarie di e , che chiamiamo e , abbiamo la stima di che chiamiamo e anche una la stima degli errori, cioè i residui che banalmente rappresentano quanto la retta di regressione non è stata capace di spiegare.
Condizioni di applicabilità degli OLS
modificaGli errori non sono correlati con la variabile esplicativa
modificaSi deve avere che e conseguentemente che . In altri termini, per ogni livello della variabile esplicativa , , possono esserci errore più o meno grossi, ma devono comunque compensarsi, cioè avere media nulla. Se ciò non avviene è perché la variabile esplicativa è influenzata a sua volta dalla variabile dipendente che deve spiegare, generando una specie di loop. Se uno shock di , incrementando , modifica a sua volta , allora la prima condizione degli OLS è violata.
Per esempio, supponiamo di voler spiegare la quantità prodotta di arance attraverso il prezzo delle arance sul mercato, prefigurandoci una qualche correlazione positiva tra prezzo e quantità . Il modello di regressione lineare con i minimi quadrati ordinari è
Supponiamo ora un qualsiasi shock su , per esempio l'avvento di un parassita che distrugge una rilevante parte del raccolto. Si ha ovviamente che la quantità , ma questo ha effetto anche sul prezzo (che nell'esempio dovrebbe aumentare, ma ciò è irrilevante nel caso generale). Questo mostra che gli errori sono correlati con la variabile esplicativa.
Quando invece shock sugli errori che si ripercuotono sulla variabile dipendente non generano a loro volta effetti sulla variabile esplicativa, allora l'indipendenza tra la variabile esplicativa e gli errori è assicurata.
Se gli errori sono correlati con la variabile esplicativa e sono distorti, cioè .
La variabile dipendente e le variabili esplicative indipendenti e identicamente distribuite
modificaGli elementi estratti di devono appartenere alla medesima popolazione, cioè una popolazione avente media e varianza , e la medesima cosa vale per . Se le variabili non appartengono alla medesima distribuzione, allora gli OLS potrebbero essere distorti, inefficienti o anche privi di senso. Per esempio i dati della variabile esplicativa potrebbero essere presi da due popolazioni aventi diversa media e varianza, oppure solo diversa varianza (eteroschedasticità).
Inoltre l'estrazione di un elemento della popolazione deve essere del tutto casuale e non dipendente dall'estrazione (o dalla non estrazione) di un altro elemento , e la medesima cosa vale per .
Outlier rari e improbabili
modificaUn outlier è una osservazione anomala, o meglio, sospetta, che potrebbe celare un errore di battitura o comunque una situazione particolare che non merita di essere considerata e di influenzare l'intera analisi. Formalmente la curtosi della distribuzione della variabile deve essere finita e non nulla, dunque:
In realtà spesso gli outlier sono riconoscibili anche graficamente nello scatter plot.
Stimatori OLS
modificaGli stimatori OLS sono variabili casuali e tali che la somma degli i residui è minimizzata. Denotando per comodità e , si ha:
Se valgono le condizioni sopra, allora i due stimatori OLS sono i migliori stimatori lineari non distorti (Best Linear Unbiased Estimator). I residui della regressione sono:
Distribuzione degli OLS
modificaA prescindere dalla forma delle popolazioni, per campioni sufficientemente grandi gli stimatori OLS hanno distribuzione normale con la seguente media e varianza: