Popolazioni e campioni
Nello studio di un determinato fenomeno della natura ci interessa comprendere le proprietà di una determinata popolazione. Se questa proprietà è descritta da una variabile aleatoria, la popolazione può essere rappresentata dalla distribuzione di una variabile aleatoria.
Nello studio dei fenomeni naturali però incontriamo una grossa limitazione: le popolazioni accomunate da una determinata proprietà sono spesso sterminate, se non infinite. Dunque studiare le proprietà di un insieme infinito risulta poco efficiente. Nella prassi scientifica quindi viene selezionato un sottogruppo della popolazione, detto campione. Affinché lo studio delle proprietà del campione sia utile a comprendere le proprietà della popolazione, esso deve garantire la rappresentatività.
La distribuzione dei valori della variabile aleatoria del campione è detta distribuzione campione e ha a sua volta carattere aleatorio.
L'inferenza statistica è lo strumento che ci permette di stimare le proprietà della popolazione a partire dallo studio del campione.
Quando la dimensione del campione aumenta la distribuzione tende a stabilizzarsi e si adatta sempre più alla forma della popolazione. Questa convergenza ha carattere aleatorio ed è codificata da un insieme di teoremi cui ci si riferisce comunemente come Legge dei Grandi Numeri. Nella sua formulazione debole si scrive:
- per
Media e varianza della popolazione
modificaPosizione e dispersione delle popolazioni sono descritte rispettivamente dalla media e dalla varianza. Per una variabile aleatoria discreta con frequenza di
- , .
Per una variabile aleatoria continua con probability density function
- , .
Media e varianza dei campioni
modificaPosizione e dispersione dei campioni sono invece date dalla media campionaria e dalla varianza campionaria.
- , .
Stima dei parametri della popolazione
modificaA questo punto dunque vogliamo usare gli strumenti dell'inferenza statistica per estrarre più informazioni possibili sulla popolazione a partire dal nostro campione limitato.
- Ipotizziamo la forma di distribuzione della popolazione, ad esempio Gauss, Binomiale o Poisson;
- verifichiamo la bontà dell'ipotesi con un test statistico;
- stimiamo quantitativamente i parametri della popolazione a partire dai del campione.
Ci concentreremo sull'ultimo punto. Poiché generati da variabili aleatorie, anche i parametri sono variabili aleatorie e possiedono una distribuzione di probabilità. Noi chiediamo che la distribuzione di , il miglior stimatore di , possieda le seguenti proprietà:
- consistenza: per grande ;
- correttezza: il valore atteso dello stimatore è il parametro della popolazione ;
- efficienza: la varianza è minima.
Criterio di massima verosimiglianza
modificaUn criterio che permette di trovare degli stimatori soddisfacenti si chiama criterio di massima verosimiglianza, e consiste nel massimizzare la funzione verosimiglianza, ovvero la probability density function presa però in funzione dei .