In questo articolo studieremo la legge dei grandi numeri, un importante teorema di teoria della probabilità e statistica. In termini semplici questa legge afferma che, effettuando delle misurazioni su un campione preso da una popolazione, al crescere della grandezza del campione la media aritmetica di una grandezza misurata del campione si avvicina alla media di tutta la popolazione.
In altri termini la frequenza osservata di un particolare evento tende alla probabilità dell’evento, all’aumentare del numero degli esperimenti. Ad esempio, se lanciamo una moneta non truccata un numero elevato di volte, ci aspettiamo che la frequenza dei due risultati testa e croce si avvicini al valore teorico del \(50 \text{%}\).
In questo articolo descriveremo le due versioni fondamentali del teorema, la legge debole dei grandi numeri e la legge forte dei grandi numeri, e studieremo alcune applicazioni significative.

1) Storia della legge dei grandi numeri

Poisson, 1837

In un articolo precedente abbiamo studiato la nascita dei primi concetti di Calcolo delle probabilità ad opera in particolare di Gerolamo Cardano (1501-1575). L’interesse principale di Cardano era lo studio del gioco d’azzardo. Lo stesso Cardano espresse il contenuto della legge dei grandi numeri in una forma ancora semplicistica e rudimentale, prima che fossero ancora definiti i fondamenti della teoria della probabilità. Sostanzialmente Cardano osservò che, considerato un esperimento in cui un evento ha probabilità teorica \(p\) di verificarsi, se facciamo un numero grande \(n\) di ripetizioni dell’esperimento allora il numero dei casi in cui si verifica l’evento si approssima al valore teorico atteso \(np\).
Il nome “legge dei grandi numeri” è stato scelto nel \(1837\) dal matematico francese Poisson (1781-1840).
Esistono due versioni fondamentali: la legge debole dei grandi numeri e la legge forte dei grandi numeri. Per ognuna esistono varie formulazioni, ciascuna valida sotto particolari condizioni.
La prima formulazione matematica della legge debole dei grandi numeri è dovuta a Jacob Bernoulli (1654–1705), che ha dato importanti contributi allo sviluppo del calcolo delle probabilità. Le sue scoperte sono contenute nel libro ‘Ars Conjectandi’, pubblicato nel 1713 dopo la sua morte.
Un obiettivo fondamentale di Bernoulli era definire un metodo per stimare un valore teorico di probabilità mediante un numero sufficientemente grande di ripetizioni di un esperimento.
Il teorema di Bernoulli afferma che, ripetendo un esperimento un numero elevato di volte nelle stesse condizioni, la frequenza osservata di un evento converge al valore teorico della probabilità dell’evento stesso. Le situazioni in cui si può applicare sono molteplici: lancio di una moneta, lancio di un dado, estrazioni del lotto, ecc.
Il fatto che la frequenza si approssimi la valore teorico della probabilità è utile in molte situazioni pratiche e dà fiducia nell’utilizzare la frequenza come interpretazione della probabilità.
Un esempio che Bernoulli studiò è il problema dell’estrazione di palline da un’urna, contenente ad esempio \(300\) palline bianche e \(200\) palline nere. La procedura utilizzata per le prove è l’estrazione con restituzione di un certo numero di palline, ad esempio \(50\) palline. Ripetendo l’esperimento un certo numero di volte, ad esempio \(1000\) volte, ci si aspetta che la frequenza osservata delle palline bianche sia vicina al valore \(\dfrac{3}{5}\) e quella delle palline nere sia \(\dfrac{2}{5}\). Naturalmente Bernoulli era consapevole che gli esperimenti non permettono di determinare il valore esatto della probabilità, ma l’obiettivo era di stimare questo valore con un certo grado di approssimazione, cioè stimare un intervallo in cui con alta probabilità dovrebbe trovarsi il valore teorico cercato.
Negli anni successivi diversi matematici hanno contribuito ad estendere i risultati di Bernoulli; tra questi in particolare i matematici Poisson, De Moivre, Laplace, Markov e Chebyshev.
Nel \(1929\) il matematico russo Khinchin (1894-1959) diede una dimostrazione completa della legge debole dei grandi numeri, valida nel caso di variabili aleatorie indipendenti e identicamente distribuite, con valore atteso finito.
Nel \(1930\) il matematico russo Kolmogorov (1903-1987) dimostrò la validità della legge forte dei grandi numeri nel caso di variabili aleatorie indipendenti e identicamente distribuite sotto condizioni molto generali per il valore atteso e la varianza.

2) Variabili aleatorie e disuguaglianza di Chebyshev

Per un ripasso dei concetti fondamentali del calcolo delle probabilità vedere l’articolo su questo sito.
Dato uno spazio di probabilità \((\Omega,\mathfrak{F},P)\), una variabile aleatoria \(X\) è una funzione che assegna un numero reale ad ogni evento elementare dello spazio campionario \(\Omega\). In simboli:

\[ X: \omega \to X(\omega) \in \mathbb{R}, \quad \omega \in \Omega \]

Per maggiori dettagli su questo concetto importante vedere l’articolo su questo sito.
Una variabile aleatoria si dice discreta se assume solo un numero finito di valori, oppure una infinità numerabile (ad esempio i numeri naturali o i numeri interi). In caso contrario si dice continua.
Una variabile aleatoria discreta è rappresentata dalla sua distribuzione di probabilità, cioè dalla lista delle probabilità assegnate a tutti i possibili valori. Data una variabile aleatoria \(X\) che assume l’insieme di valori \(\{x_{k},\ k=1,2,\cdots\} \), indichiamo con \(p_{k}=P(X=x_{k})\) la probabilità che la variabile aleatoria assuma il valore \(x_{k}\). Chiaramente si ha:

\[ \begin{array}{l} \sum\limits_{k=1}^{\infty}p_{k}= 1 \ ,\quad p_{k} \ge 0 \end{array} \]

2.1) Valore medio e varianza di una variabile aleatoria

Due parametri importanti che descrivono le proprietà di una variabile aleatoria discreta \(X\) sono la media \(E(X)\), chiamata anche valore atteso, e la varianza \(Var(X)\):

\[ \begin{array}{l} \mu=E(X)=\sum\limits_{k}^{}x_{k}P(X=x_{k})=\sum\limits_{k}^{}x_{k}p_{k} \\ \sigma^{2}= Var(X)=E[(X-\mu)^{2}]= E(X^{2}) – \mu^{2} \end{array} \]

Nel caso continuo non si calcola la probabilità che la variabile assuma un valore preciso in un punto, ma si calcola la probabilità che la variabile aleatoria assuma valori in un dato intervallo reale \([a,b]\). Per questo viene definita la funzione densità di probabilità \(f(x)\), associata alla variabile aleatoria \(X\), nel seguente modo:

\[ P(a \le X \le b)= \int\limits_{a}^{b}f(x)dx \]

La funzione densità di probabilità soddisfa la seguente relazione:

\[ \begin{array}{l} \int\limits_{-\infty}^{\infty}f(x)dx=1 \ ,\quad f(x) \ge 0 \end{array} \]

La funzione di distribuzione di una variabile aleatoria continua è

\[ F(x) =P(X \le x)= \int\limits_{-\infty}^{x}f(t)dt \]

È facile verificare che se la funzione \(f(x)\) è continua allora

\[ \frac{dF(x)}{dx}= f(x) \]

La media e la varianza di una variabile aleatoria continua sono così definite:

\[ \begin{array}{l} \mu=E(X)=\int\limits_{-\infty}^{+\infty}x f(x)dx \\ \sigma^{2}=Var(X)=E[(X-\mu)^{2}]= \int\limits_{-\infty}^{+\infty}x^{2} f(x)dx – \mu^{2}\\ \end{array} \]

Esercizio 2.1
Dimostrare le seguenti relazioni:

\[ \begin{array}{l} 0 \le F(x) \le 1 \\ F(a) \le F(b) \quad \text{se } a \lt b \\ \lim\limits_{x \to -\infty}F(x) = 0 \\ \lim\limits_{x \to +\infty}F(x) = 1 \\ \end{array} \]

Esercizio 2.2
Sia \(a\) un numero reale. Dimostrare le seguenti relazioni:

\[ \begin{array}{l} E(a) = a \\ E(aX) = a E(X) \\ E(X + Y) = E(X) + E(Y) \\ Var(a) = 0 \\ Var(aX) = a^{2}Var(X) \\ Var (a+ X) = Var(X) \end{array} \]

Esempio 2.1 – Variabile di Bernoulli
Una variabile aleatoria di Bernoulli \(X\) assume due soli valori, ad esempio \(\{0,1\}\), con le seguenti probabilità:

\[ \begin{array}{l} P(X=1)=p \\ P(X=0)=q=1-p \end{array} \]

Chiaramente \(E(X)=p\) e \(Var(X)=pq\).

Esercizio 2.3 – Distribuzione geometrica
Supponiamo di effettuare prove ripetute indipendenti di Bernoulli. Vogliamo calcolare il numero di prove necessarie per avere il primo successo. Indichiamo con \(X\) la variabile aleatoria che conta il numero di fallimenti prima di avere un successo. I valori possibili sono \(X=\{0,1,2,\cdots\}\). La distribuzione di probabilità di \(X\) è la distribuzione geometrica:

\[ P(X=k)= (1-p)^{k}p \ ,\quad k=0,1,2,\cdots \]

Dimostrare che \(E(x)=\dfrac{q}{p}\), \(Var(X)= \dfrac{q}{p^{2}}\).

Esercizio 2.4 – Distribuzione Normale di Gauss
La distribuzione normale con parametri \(\mu\) e \(\sigma^{2}\), indicata con \(N(\mu,\sigma^{2})\), ha la seguente densità di probabilità:

\[ f(x)= \frac{1}{\sqrt{2\pi\sigma^{2}}}e^{-\dfrac{(x -\mu)^{2}}{2\sigma^{2}}} \ ,\quad -\infty \lt x \lt \infty \]

Dimostrare che \(E(X)= \mu\), \(Var(X)= \sigma^{2}\).
Dimostrare inoltre che il massimo si ha nel punto \(x=\mu\).
Nel caso \(\mu=0\) e \(\sigma=1\), la \(N(0,1)\) viene chiamata distribuzione normale standard.

Esempio 2.2
Supponiamo di effettuare \(n\) misurazioni di una certa grandezza fisica \(X\), nelle stesse condizioni. In genere avremo valori diversi a causa di errori casuali nelle misure, dovuti a vari fattori che non possono essere eliminati. Possiamo indicare i risultati delle misurazioni con i valori \(X_{1}, \cdots, X_{n}\). Definiamo la media aritmetica delle variabili aleatorie \(X_{k}\):

\[ \dfrac{S_{n}}{n} = \dfrac{X_{1}+ X_{2}+ \cdots + X_{n}}{n} \]

Questa è una variabile aleatoria importante, per la quale possiamo calcolare il valore atteso e la varianza:

\[ \begin{array}{l} E\left(\dfrac{S_{n}}{n}\right) = \dfrac{E(X_{1})+ E(X_{2})+ \cdots + E(X_{n})}{n}=E(X) \\ Var \left(\dfrac{S_{n}}{n}\right) = \dfrac{n Var (X)}{n^{2}}= \dfrac{Var (X)}{n} \end{array} \]

Quindi possiamo riassumere questo importante risultato: la media aritmetica di \(n\) variabili aleatorie indipendenti e identicamente distribuite ha lo stesso valore atteso delle singole variabili, mentre la varianza è uguale alla varianza delle singole variabili divisa per \(n\).

2.2) Funzione caratteristica di una variabile aleatoria

Data una variabile aleatoria \(X\) con densità di probabilità \(f(x)\), la funzione caratteristica, indicata con \(\phi_{X}(\omega)\), è così definita:

\[ \begin{array}{l} \phi_{X}(\omega) = E(e^{i \omega x})=\sum\limits_{x}{}e^{i \omega x}f(x) \ ,\quad \text{caso discreto} \\ \phi_{X}(\omega) =E(e^{i \omega x}) =\int\limits_{-\infty}^{+\infty}e^{i \omega x}f(x)dx \ ,\quad \text{caso continuo} \\ \end{array} \]

Chiaramente la funzione caratteristica esiste per ogni funzione di distribuzione di probabilità. Dalla conoscenza della funzione caratteristica di una variabile aleatoria è possibile ottenere informazioni sulla distribuzione di probabilità e i vari parametri, come media, varianza, ecc.

Esercizio 2.5
Dimostrare che

\[ \begin{array}{l} \phi_{X}(0) = 1 \\ |\phi_{X}(\omega)| \le 1 \ ,\quad -\infty \lt \omega \lt + \infty \\ E(X) = \dfrac{1}{i}\phi_{X}^{(1)}(0) \quad \text{se } E(|X|) \lt \infty \\ E(X^{2}) = -\phi_{X}^{(2)}(0) \quad \text{se } E(X^{2}) \lt \infty \end{array} \]

Esercizio 2.6
Consideriamo la distribuzione di Poisson di parametro \(\lambda\):

\[ \begin{array}{l} P(X=k) = p_{k} = e^{-\lambda} \dfrac{\lambda^{k}}{k!}, \quad k = 0,1,2,3\cdots \end{array} \]

Dimostrare che la funzione caratteristica è \(\phi_{X}(\omega) = e^{\lambda(e^{i\omega}-1)}\). Quindi mediante la funzione caratteristica dimostrare che \(\mu = \lambda, \sigma^{2}=\lambda\).
La funzione caratteristica è uno strumento potente per dimostrare molti teoremi complessi. La sua proprietà fondamentale è espressa nel seguente teorema.

Teorema 2.1 – Unicità
Siano \(X,Y\) due variabili aleatorie con funzioni caratteristiche rispettivamente \(\phi_{X}(\omega)\) e \(\phi_{Y}(\omega)\). Allora \(X\) e \(Y\) hanno la stessa distribuzione di probabilità se e solo se vale la seguente identità:

\[ \begin{array}{l} \phi_{X}(\omega) = \phi_{Y}(\omega) \quad \forall \omega \in \mathbb{R} \end{array} \]

Vale questo importante teorema:

Teorema 2.2 – Somma di variabili indipendenti
La funzione caratteristica della somma di due variabili aleatorie indipendenti \(X,Y\) è uguale al prodotto delle funzioni caratteristiche delle singole variabili aleatorie. Cioè

\[ \begin{array}{l} \phi_{X + Y}(\omega) =\phi_{X}(\omega) \phi_{Y}(\omega) \end{array} \]

Il teorema si estende facilmente alla somma di \(n \gt 2\) variabili indipendenti.

Esempio 2.3 – Distribuzioni di Bernoulli e binomiale
Una variabile aleatoria \(X\) di Bernoulli assume due valori \(1,0\) con probabilità \(p,1-p\). Quindi

\[ \begin{array}{l} \phi_{X}(\omega) = E(e^{i\omega X})= e^{i \omega 0}(1-p) + e^{i\omega}p= pe^{i \omega}+ 1 -p \end{array} \]

La distribuzione binomiale \(B(n;p)\) è la somma di \(n\) variabili di Bernoulli e quindi la sua funzione caratteristica è \((pe^{i \omega}+ 1 -p) ^{n}\).

Esercizio 2.7 – Distribuzione normale
Dimostrare che per una variabile aleatoria \(X\) con distribuzione normale standard \(N(0,1)\) la funzione caratteristica è

\[ \begin{array}{l} \displaystyle \phi_{X}(\omega) = e^{-\frac{\omega^{2}}{2}} \end{array} \]

2.3) Disuguaglianza di Chebyshev

La disuguaglianza adi Chebyshev è una conseguenza immediata del seguente teorema di Markov:

Teorema 2.3 – Disuguaglianza di Markov
Sia \(Z\) una variabile aleatoria non-negativa e sia \(t \gt 0\). Allora

\[ \begin{array}{l} P \{Z \ge t \} \le \dfrac{E(Z)}{t} \end{array} \]

Dimostrazione
Supponiamo per semplicità che la \(Z\) sia una variabile aleatoria discreta, che assume i valori \(\{z_{k},\ k=1,2,\cdots\}\), con probabilità \(p_{k}=P(Z=z_{k})\). Per definizione si ha

\[ \begin{array}{l} E(Z) = \sum\limits_{k}z_{k}p_{k} \ge \sum\limits_{z_{k} \ge t}{} t p_{k}=t P(Z \ge t) \end{array} \]

La dimostrazione nel caso continuo è simile.
Dal teorema di Markov segue subito la disuguaglianza di Chebyshev.

Teorema 2.4 – Disuguaglianza di Chebyshev
Sia \(X\) una variabile aleatoria con media  \(E(X)=\mu\) e varianza \(Var(X)=\sigma^{2}\) finite. Allora

\[ \begin{array}{l} P \{|X- \mu| \ge t \} \le \dfrac{\sigma^{2}(X)}{t^{2}}, \quad t \gt 0 \\ P \{|X- \mu| \le t \} \ge 1 – \dfrac{\sigma^{2}(X)}{t^{2}}, \quad t \gt 0 \\ \end{array} \]

Dimostrazione
Il teorema segue dalla disuguaglianza di Markov ponendo \(Z=(X-\mu)^{2}\).

Esercizio 2.8
Supponiamo di lanciare una moneta non truccata \(N\) volte. Indichiamo con \(X = \dfrac{T}{N}\) il rapporto fra il numero delle volte in cui esce testa e il numero dei lanci totali.
Quanti lanci dobbiamo fare, cioè quanto grande deve essere \(N\), affinché ci sia almeno una probabilità \(p=0,9\) che il valore di \(X\) sia contenuto nell’intervallo \([0,4,\ ,\ 0,6]\)?

Suggerimento
Ricordare che \(E(X)=\dfrac{1}{2}\) e \(\sigma^{2}(X) = \dfrac{1}{4n}\).

Soluzione: \([n=250]\).

Esempio 2.4
Indichiamo con \(X\) il risultato del lancio di un dado di 6 facce. Abbiamo \(\mu = 3,5\) e \(\sigma^{2}=\dfrac{35}{12}\). Ovviamente la massima differenza tra il risultato \(X\) di un lancio e la media \(\mu\) è 2,5. Una deviazione maggiore ha probabilità zero. Tuttavia il teorema di Chebyshev afferma solo che

\[ \begin{array}{l} P \{|X- \mu| \ge 2,5 \} \le \dfrac{35}{12 \cdot (2,5)^{2}} \approx 0,47 \end{array} \]

Esercizio 2.9
Siano \(X_{1}, \cdots, X_{n}\) variabili aleatorie indipendenti, con \(E(X_{k})=\mu_{k}\) e \(Var(X_{k})=\sigma_{k}^{2}\), con \(k=1,2,\cdots,n\). Dimostrare che per ogni \(t \gt 0\) si ha

\[ \begin{array}{l} P \left\{\left|\sum\limits_{k=1}^{n}X_{k}- \sum\limits_{k=1}^{n}\mu_{k}\right| \ge t\right\} \le \dfrac{\sum_{k=1}^{n}\sigma_{k}^{2}}{t^{2}} \end{array} \]

Nota
La disuguaglianza di Chebyshev è molto generale e utile in molte dimostrazioni teoriche. Tuttavia la sua generalità implica che l’intervallo di approssimazione della disuguaglianza è spesso più ampio della realtà effettiva.
Alcuni teoremi più precisi si hanno nel caso la distribuzione sia unimodale. La moda è un indice statistico che indica il valore o i valori che appaiono con la frequenza maggiore. Una distribuzione si dice unimodale se ammette un solo valore modale, bimodale se ne ammette due, ecc. Per una distribuzione unimodale vale la seguente disuguaglianza di Gauss-Vysochanskij-Petunin:

\[ \begin{array}{l} P \{|X- E(X)| \ge t \sigma \} \le \dfrac{4}{9t^{2}}, \quad t \gt \sqrt{8/3} \approx 1,632 \end{array} \]

dove \(\sigma^{2}=Var(X)\).
Esistono altre formule più generali della disuguaglianza precedente. Per approfondire vedere l’articolo su wikipedia.

3) I teoremi di Bernoulli e Poisson

3.1) La distribuzione binomiale di Bernoulli

Sia \(X\) una variabile aleatoria di Bernoulli che assume i valori \(\{0,1\}\), con probabilità di successo uguale a \(P(X=1)=p\). Supponiamo di effettuare \(n\) prove indipendenti, ognuna modellizzata con la variabile aleatoria \(X\) (schema di Bernoulli). Per studiare il numero di successi in \(n\) prove consideriamo la variabile aleatoria \(S_{n}\), così definita:

\[ \begin{array}{l} S_{n} = X_{1}+X_{2} + \cdots + X_{n} \end{array} \]

dove le \(X_{k}\) sono variabili aleatorie di Bernoulli indipendenti, tutte con la stessa probabilità \(p\) di successo. L’insieme dei possibili valori assunti dalla \(S_{n}\) è \(\{0, 1, … , n\}\).

Esercizio 3.1 – Media e varianza del numero dei successi
Dimostrare che

\[ \begin{array}{l} E(S_{n})=np \\ Var (S_{n})=\sum\limits_{k=1}^{ n}Var (X_{k})=npq, \quad q = 1-p \end{array} \]

Indichiamo con \(b(k; n,p)=P(S_{n}=k)\) la probabilità che ci siano \(k\) successi in \(n\) prove di Bernoulli indipendenti con probabilità di successo uguale a \(p\).

Teorema 3.1

\[ \begin{array}{l} \displaystyle b(k; n,p) =P(S_{n}=k)= \binom{n}{k}p^{k}q^{n-k} \end{array} \]

Il teorema precedente segue dal fatto che l’evento \(k\) successi in \(n\) prove è uguale al numero delle combinazioni semplici di \(n\) oggetti presi a gruppi di \(k\), che come è noto è uguale a \(\displaystyle\binom{n}{k}\).

Esercizio 3.2
Dimostrare che

\[ \begin{array}{l} b(k; n,p) \gt b(k-1;n,p) \quad \text{se } k \lt (n+1)p \\ b(k; n,p) \lt b(k-1;n,p) \quad \text{se } k \gt (n+1)p \\ b(k; n,p) = b(k-1;n,p) \quad \text{se } k=(n+1)p \in \mathbb{Z} \\ \end{array} \]

Dall’esercizio precedente segue che esiste un solo intero positivo \(m\) (chiamato valore centrale) tale che

\[ \begin{array}{l} (n+1)p – 1 \lt m \le (n+1)p \end{array} \]

Quindi al crescere di \(k\) da \(0\) a \(n\) la funzione \(b(k;n,p)\) è prima crescente e poi decrescente. Il massimo valore viene raggiuto quando \(k=m\). Fa eccezione il caso \(m=(n+1)p\) in cui \(b(m;n,p)=b(m-1;n,p)\).

Teorema 3.2
Supponiamo \(t \gt np\). Allora

\[ \begin{array}{l} \displaystyle P(S_{n} \ge t) = \sum\limits_{k=0}^{\infty}b(t+k;n,p) \le b(t;n,p) \dfrac{t(1-p)}{t-np} \end{array} \]

Dimostrazione
Utilizziamo la seguente disuguaglianza:

\[ \begin{array}{l} \dfrac{b(k;n,p)}{b(k-1;n,p)} = 1 + \dfrac{(n+1)p – k}{k(1-p)} \end{array} \]

La serie \(\sum\limits_{k=0}^{\infty}b(t+k;n,p)\) decresce più velocemente della serie geometrica che ha ragione uguale a \(1- \dfrac{t-np}{t(1-p)}\). Supponendo \(t \gt np\) abbiamo la tesi del teorema.

Esercizio 3.3
Dimostrare che se \(t \gt np\) allora la disuguaglianza precedente può essere migliorata nel seguente modo:

\[ \begin{array}{l} P(S_{n} \ge t) = \sum\limits_{k=0}^{\infty}b(t+k;n,p) \le \dfrac{t(1-p)}{(t-np)^{2}} \end{array} \]

3.2) La legge dei grandi numeri di Bernoulli

La prima versione della legge debole dei grandi numeri è stata scoperta da Jacob Bernoulli e pubblicata nella sua opera ‘Ars Conjectandi’, pubblicata postuma nel \(1713\).

Teorema 3.3 – Bernoulli
Sia \(S_{n}\) il numero di successi in \(n\) prove indipendenti di Bernoulli, con probabilità \(p\) di successo in ogni prova. Indichiamo con

\[ F_{n}= \frac{S_{n}}{n} \]

la frazione di successi (frequenza relativa) osservati in \(n\) prove. Allora, per ogni fissato numero  \(\epsilon \gt 0\) si ha

\[ \begin{array}{l} \lim\limits_{n \to \infty}P \{|F_{n}-p| \gt \epsilon \}=0 \\ \lim\limits_{n \to \infty}P \{|F_{n}-p| \le \epsilon \}=1 \end{array} \]

Dimostrazione
La dimostrazione di Bernoulli è pittosto lunga e articolata. Una dimostrazione più breve è possibile utilizzando la disuguaglianza di Chebyshev. Poiché \(E(F_{n})=p\) e \(Var(F_{n})=\sigma^{2}(F_{n})=\dfrac{pq}{n}\), abbiamo

\[ \begin{array}{l} P \left(|F_{n}-p| \gt \epsilon \right) \le \dfrac{p(1-p)}{n \epsilon^{2}} \end{array} \]

È facile dimostrare che \(p(1-p) \le \frac{1}{4}\) se \(0 \le p \le 1\), e quindi

\[ \begin{array}{l} P \left\{|F_{n}-p| \gt \epsilon \right\} \le \dfrac{1}{4n \epsilon^{2}} \to 0, \quad n \to \infty \end{array} \]

La seconda disuguaglianza segue facilmente dalla prima. Infatti

\[ \begin{array}{l} \displaystyle P \{|F_{n}-p| \le \epsilon \}=1 – P \{|F_{n}-p| \gt \epsilon \} \end{array} \]

Il teorema di Bernoulli afferma che all’aumentare del numero delle prove la frequenza relativa dei successi converge al valore teorico della probabilità \(p\) di successo ad ogni prova. Non è un limite ordinario, ma è un limite probabilistico, nel senso che ogni differenza \(|F_{n} – p| \gt \epsilon\) ha probabilità sempre più bassa al crescere del numero delle prove.
La legge dei grandi numeri è uno strumento fondamentale utilizzato in statistica per stimare il valore incognito della probabilità teorica \(p\), mediante la frequenza relativa. Naturalmente non è possibile effettuare un numero infinito di prove. Quindi si deve determinare il numero finito di prove necessarie per poter assumere, con alta probabilità, il valore della frequenza come buona approssimazione per la probabilità \(p\). In simboli, fissati due numeri \(\epsilon \gt 0\) e \(\delta \gt 0\), si deve determinare il valore \(n\) tale che

\[ \begin{array}{l} P \{|F_{n}-p| \le \epsilon \} \ge \delta, \quad \forall p \in [0,1] \end{array} \]

Esercizio 3.4
Utilizzando il teorema di Bernoulli, dimostrare che la condizione precedente è soddisfatta per ogni valore di \(p\) se

\[ \begin{array}{l} n \ge \dfrac{1}{4\epsilon^{2}(1-\delta)} \end{array} \]

Suggerimento
Utilizzare la disuguaglianza di Chebyshev nella forma equivalente

\[ \begin{array}{l} P \{|X- \mu| \le \epsilon \} \ge 1- \dfrac{\sigma^{2}(X)}{\epsilon^{2}}, \quad \epsilon \gt 0 \end{array} \]

Esercizio 3.5
Consideriamo un esperimento in cui sono possibili solo due eventi \(A,B\) con \(P(A)=p,P(B)=1-p\). Determinare quante prove ripetute dell’esperimento devono essere fatte affinché ci sia almeno una probabilità di \(0,95\) che la frequenza osservata dell’evento \(A\) differisca dalla probabilità \(P(A)\) al massimo di \(0,02\).
Soluzione: \([n= 12.500]\)

3.3) Generalizzazione di Poisson del teorema di Bernoulli

Una generalizzazione del teorema di Bernoulli è stata scoperta da Poisson.
Consideriamo una serie di prove indipendenti con le rispettive probabilità \(\{p_{1},p_{2}, \cdots,p_{n}, \cdots\}\), che possono essere diverse fra loro. Indichiamo con \(S_{n}\) il numero dei successi in \(n\) prove e con il simbolo \(p\) la probabilità media

\[ \begin{array}{l} p = \dfrac{p_{1}+p_{2}+ \cdots + p_{n}}{n} \end{array} \]

Teorema 3.4 – Poisson
Per ogni fissato \(\epsilon \gt 0\), la probabilità della seguente disuguaglianza

\[ \begin{array}{l} \displaystyle \left| \frac{S_{n}}{n} – p \right| \le \epsilon \end{array} \]

può essere resa vicino a \(1\) quanto si vuole, se si effettua un numero di prove \(n\) sufficientemente grande.

Dimostrazione
In corrispondenza alle prove \(1,2,3,\cdots,n\) definiamo le variabili aleatorie \(X_{1},X_{2}, \cdots,X_{n}\) nel seguente modo:

\[ \begin{array}{l} X_{k} = \begin{cases} 1 \text{ se la prova k-esima è un successo} \\ 0 \text{ se la prova k-esima non è un successo} \\ \end{cases} \end{array} \]

Le variabili aleatorie sono indipendenti. Inoltre abbiamo

\[ \begin{array}{l} E(X_{k}) = p_{k} \\ \sigma^{2}(X_{k})= p_{k}(1-p_{k})= p_{k}q_{k} \\ \sigma^{2}(S_{n})=\sigma^{2}\left(\sum\limits_{k=o}^{n}X_{k}\right)= \sum\limits_{k=0}^{n}p_{k}q_{k} \le \dfrac{n}{4} \\ \sigma^{2}\left(\dfrac{S_{n}}{n}\right) \le \dfrac{1}{4n} \end{array} \]

Applicando il teorema di Chebyshev abbiamo che

\[ \begin{array}{l} \displaystyle P \left\{ \left| \frac{S_{n}}{n} – p \right| \le \epsilon \right\} \ge 1 – \dfrac{1}{4n\epsilon^{2}} \end{array} \]

Quindi, fissato un \(\delta \gt 0\), basta prendere \(n \gt \dfrac{1}{4\epsilon^{2} \delta}\) per avere una probabilità maggiore di \(1 – \delta\).
Chiaramente il teorema di Bernoulli è un caso particolare del teorema di Poisson, cioè quando

\[ \begin{array}{l} p_{1}= p_{2}= \cdots = p_{n} = p \end{array} \]

4) Successioni di variabili aleatorie – Tipi di convergenza

Per enunciare la legge moderna dei grandi numeri è necessario definire il concetto importante di convergenza di successioni di variabile aleatorie.

4.1) Convergenza puntuale di successioni di variabili aleatorie

Supponiamo di avere una successione \(\{f_{n}(x)\}\) di funzioni reali di una variabile reale definite in un intervallo \([a,b]\). Ricordiamo dall’analisi matematica che la successione converge in modo puntuale alla funzione \(f(x)\) nell’intervallo, se per ogni \(x \in [a,b]\) e per ogni \(\epsilon \gt 0\) esiste un indice \(n_{0} \gt 0\) tale che

\[ \begin{array}{l} |f(x) – f_{n}(x)| \lt \epsilon \quad \text{se } n \gt n_{0} \end{array} \]

In tal caso scriviamo \(\lim\limits_{n \to \infty}f_{n}(x)=f(x)\).
Notiamo che l’indice \(n_{0}\) in genere dipende dal punto \(x\) e dal valore di \(\epsilon\).
Per il concetto di convergenza di successioni di numeri reali vedere l’articolo su questo sito.
Come sappiamo una variabile aleatoria è una funzione \(X: \Omega \to \mathbb{R}\), definita su uno spazio campionario e con valori reali. Quindi possiamo dire che una successione di variabile aleatorie \(\{X_{n}\}\), definite su uno spazio di probabilità \((\Omega,\mathfrak{F},P)\), converge alla variabile aleatoria \(X\) se

\[ \begin{array}{l} \lim\limits_{n \to \infty}X_{n}(\omega)=X(\omega) \quad \forall\omega \in \Omega \end{array} \]

Tuttavia questa definizione è sostanzialmente inutile nel calcolo delle probabilità. Per questo vengono definiti altri tipi di convergenza.

Esempio 4.1
Supponiamo di avere una successione di variabili di Bernoulli, ognuna con probabilità di successo uguale a \(p\), cioè \(P(X_{n}=1)=p\) e \(P(X_{n}=0)=1-p\). Facendo un numero elevato di prove ci aspettiamo che la media aritmetica dei successi si avvicini al numero \(p\), cioè

\[ \begin{array}{l} \lim\limits_{n \to \infty} \dfrac{X_{1}(\omega)+ \cdots + X_{n}(\omega)}{n} =p \quad \forall \omega \in \Omega \end{array} \]

Tuttavia questo non succede. Ad esempio se \(\omega = \{0,0,0, \cdots\}\) il limite vale zero. Lo stesso vale per ogni \(\omega\) in cui c’è un numero finito di successi.
Per questi motivi è necessario introdurre nuovi tipi di convergenza, correlati alla funzione di probabilità. Sono definiti 4 tipi principali di convergenza di variabili aleatorie:

  • convergenza in probabilità
  • convergenza in distribuzione
  • convergenza in media
  • convergenza quasi certa (a.s. – almost surely)

Si tratta di tipi diversi di convergenza. Una successione può convergere secondo una delle modalità e non secondo un’altra. Alcuni tipi sono più forti e altri sono più deboli.
In questo articolo descriveremo solo due tipi di convergenza: la convergenza in probabilità e la convergenza quasi certa (o quasi ovunque).
Per approfondire questo argomento vedere ad esempio [8].

4.2) Convergenza in probabilità

Una successione di variabili aleatorie \(\{X_{n}\}\) converge in probabilità alla variabile aleatoria \(X\) se per ogni \(\epsilon \gt 0\) si ha

\[ \begin{array}{l} \lim\limits_{n \to \infty}P(|X_{n}-X| \ge \epsilon )=0 \end{array} \]

Ricordiamo che la notazione utilizzata sopra è una forma semplificata della forma seguente:

\[ \lim\limits_{n \to \infty} P\{w \in \Omega: |X_{n}(\omega)-X(\omega)| \ge \epsilon\}=0 \]

Si usa la notazione \(X_{n} \overset{P}\to X\) per indicare la convergenza in probabilità.
Usando la notazione \(\epsilon-\delta\) dell’analisi matematica, possiamo dire che \(X_{n} \overset{P}\to X\) se, per ogni \(\epsilon \gt 0\) e ogni \(\delta \gt 0\), esiste un indice \(N(\epsilon)\) tale che risulti

\[ P (|X_{n} -X| \ge \epsilon) \lt \delta \]

per ogni \( n \ge N(\epsilon)\).

Esercizio 4.1
Consideriamo una successione di variabile aleatorie \(\{X_{n}\}\) tali che:

\[ \begin{cases} P(X_{n}=1) = \dfrac{1}{n} \\ P(X_{n}=0) = 1- \dfrac{1}{n} \end{cases} \]

Dimostrare che \(X_{n} \overset{P} \to 0\).

Esercizio 4.2
Dimostrare le seguenti formule:

\[ \begin{array}{l} X_{n} \overset{P} \to X, \ Y_{n} \overset{P} \to Y \implies X_{n} \pm Y_{n} \overset{P} \to X \pm Y \\ X_{n} \overset{P} \to a \implies X_{n}^{2} \overset{P} \to a^{2}, \quad a \text{ costante} \end{array} \]

Esercizio 4.3
Dimostrare che, se una funzione reale di variabile reale \(f: \mathbb{R} \to \mathbb{R}\) è continua e se \(X_{n} \overset{P}\to X\), allora

\[ f(X_{n}) \overset{P}\to f(X) \]

4.3) Convergenza quasi certa (almost sure)

Siano date una successione di variabili aleatorie \(\{X_{n}\}\) e \(X\) una variabile aleatoria. Definiamo l’insieme \(N\) nel seguente modo:

\[ N= \{\omega: \lim_{n \to \infty} X_{n}(\omega) \neq X(\omega)\} \]

La successione converge quasi certamente (a.s. – almost surely) alla variabile aleatoria \(X\) se risulta \(P(N)=0\). L’insieme \(N\) è chiamato l’insieme nullo o trascurabile.
Chiaramente se \(A =N^{c}\) è il complemento di \(N\) allora

\[ P(A) = P\{\omega: \lim_{n \to \infty} X_{n}(\omega) = X(\omega)\}=1 \]

Per indicare la convergenza quasi certa si usa la notazione \(X_{n} \overset{a.s}\to X\).

Esercizio 4.4
Sia \(\{X_{n}\}\) una successione di variabili aleatorie indipendenti così definite:

\[ \begin{array}{l} P(X_{n}=0)= 1 – \dfrac{1}{n^{k}} \\ P(X_{n}=n)= \dfrac{1}{n^{k}} \\ \text{con } k \ge 2,\ n=1,2,3,\cdots \end{array} \]

Dimostrare che \(X_{n} \overset{a.s.} \to 0\).

Soluzione

\[ \begin{array}{l} P\{X_{n}=0,\ m \le n \le M\} = \prod\limits_{n=m}^{M} \left(1-\dfrac{1}{n^{k}}\right) \end{array} \]

Il prodotto infinito per \(M \to \infty\) è convergente per \(k \ge 2\), in quanto lo è la serie \(\sum\limits_{n=m}^{\infty} \dfrac{1}{n^{k}}\). Da questo dedurre che il limite della probabilità sopra indicata, per \(m,M \to \infty\), è uguale ad \(1\).

Esercizio 4.5
Dimostrare che, se una funzione reale di variabile reale \(f: \mathbb{R} \to \mathbb{R}\) è continua e se \(X_{n} \overset{a.s.}\to X\), allora

\[ f(X_{n}) \overset{a.s.}\to f(X) \]

4.4) Confronto fra i due tipi di convergenza

Il simbolo I.O. (infinitely often)
Per comprendere meglio la differenza fra la convergenza in probabilità e la convergenza quasi certa è utile analizzare il seguente problema: sia data una successione di eventi \(\{A_{n},\ n \ge 1\}\), dove l’indice \(n\) può essere interpretato come il tempo. Quale è la probabilità che l’evento \(A_{n}\) si verifichi per infiniti valori di \(n\), cioè

\[ \{A_{n} i.o.\}= \{\omega: \omega \in A_{n} \text{ per infiniti valori dell’indice n}\} \]

Ricordiamo che data una successione di insiemi \(A_{n}\) il limite superiore è così definito:

\[ \limsup\limits_{n \to \infty} A_{n}= \bigcap\limits_{N=1}^{\infty}\left(\bigcup\limits_{n \ge N}A_{n}\right) \]

Chiaramente si ha

\[ \limsup\limits_{n \to \infty} A_{n}= \{A_{n} i.o. \} \]

Nel nostro caso per ogni intero positivo \(n\) e ogni numero reale \(\epsilon \gt 0\) definiamo il seguente evento:

\[ E_{n}^{\epsilon} = \{\omega: |X_{n}(\omega) – X(\omega)| \ge \epsilon\} \]

Allora la successione \(\{X_{n}\}\) non converge quasi certamente a \(X\) se esiste un \(\epsilon\gt 0\) tale che

\[ P(E_{n}^{\epsilon} i.o. )=P(\limsup\limits_{n \to \infty}E_{n}^{\epsilon}) \gt 0 \]

Viceversa possiamo dire che la successione delle variabili aleatorie \(\{X_{n}\}\) converge quasi certamente se per ogni \(\epsilon \gt 0\) si ha

\[ P(E_{n}^{\epsilon} i.o. ) =P(\limsup\limits_{n \to \infty}E_{n}^{\epsilon})= 0 \]

Possiamo scrivere la condizione precedente utilizzando il linguaggio dei limiti. La successione delle variabili aleatorie \(\{X_{n}\}\) converge quasi certamente a \(X\) se per ogni \(\epsilon \gt 0\) si ha

\[ \lim\limits_{N \to \infty}P\left\{\sup_{n \ge N}|X_{n}-X| \gt \epsilon\right\}= 0 \]

D’altra parte la successione \(\{X_{n}\}\) converge a \(X\) in probabilità se e solo se per ogni \(\epsilon \gt 0\) si ha

\[ \lim\limits_{n \to \infty}P\left\{|X_{n}-X| \gt \epsilon\right\}= 0 \]

Quindi la convergenza quasi certa implica la convergenza in probabilità.
La convergenza quasi certa \(X_{n} \overset{a.s.} \to X\) implica che è possibile fare un’affermazione simultanea valida per tutti gli elementi della successione \(\{X_{n}\}\), ad esclusione di un numero finito: dato un \(\epsilon \gt 0\) e un \(\delta \gt 0\) arbitrari, esiste un intero positivo \(N\) tale che

\[ P\left\{|X_{N}-X| \lt \epsilon,\ |X_{N+1}-X| \lt \epsilon,\ |X_{N+2}-X| \lt \epsilon, \cdots\right\} \gt 1- \delta \]

La convergenza in probabilità \(X_{n} \overset{P} \to X\) implica che è possibile fare singole affermazioni simultanee di probabilità relative ad ognuno degli elementi della successione \(\{X_{n}\}\), ad esclusione di un numero finito: dato un \(\epsilon \gt 0\) e un \(\delta \gt 0\) arbitrari, esiste un intero positivo \(N\) tale che

\[ \begin{array}{l} P[|X_{N}-X| \lt \epsilon] \gt 1- \delta \\ P[|X_{N+1}-X| \lt \epsilon] \gt 1- \delta \\ P[|X_{N+2}-X| \lt \epsilon] \gt 1- \delta \\ \vdots \end{array} \]

Possiamo quindi enunciare il seguente teorema:

Teorema 4.1
Sia data una successione \(X_{n}\) di variabili aleatorie. Allora

\[ X_{n} \overset{a.s.} \to X \implies X_{n} \overset{p}\to X \]

L’inverso del teorema precedente non è vero. Tuttavia esiste una proprietà importante:

Teorema 4.2
Supponiamo che \(X_{n} \overset{P} \to X\). Allora esiste una sottosuccessione \(\{X_{n_{k}}\}\) che converge quasi certamente a \(X\).

Esempio 4.2
Sia \(A_{n}\) una successione non crescente di eventi, cioè \(A_{n+1} \subset A_{n}\) per tutti gli \(n \ge 1\). Allora

\[ P \left(\bigcap\limits_{n=1}^{\infty} A_{n}\right) = \lim\limits_{n \to \infty} P(A_{n}) \]

4.5) I teoremi di Borel-Cantelli

I due teoremi di Borel-Cantelli riguardano il caso di successioni infinite di prove di un esperimento.

Teorema 4.3 – Primo teorema di Borel-Cantelli
Per ogni successione di eventi \(\{A_{n}\}\), con \(n \ge 1\), di uno spazio di probabilità \((\Omega,\mathfrak{F},P)\) si ha:

\[ \sum\limits_{n=1}^{\infty}P(A_{n}) \lt \infty \implies P(A_{n} i.o.) =P(\limsup\limits_{n \to \infty} A_{n})= 0 \]

In altri termini con probabilità 1 solo un numero finito di eventi \(A_{n}\) si verifica. Precisamente fissato un \(\epsilon \gt 0\) è possibile trovare un intero \(m\) tale che la probabilità che in \(n\) prove si verifichino uno o più degli eventi \(A_{m+1},A_{m+2},\cdots\) è minore di \(\epsilon\) per ogni \(n\).

Teorema 4.4 – Secondo teorema di Borel-Cantelli
Se gli eventi \(A_{n}\) sono indipendenti e \(\sum\limits_{}{}P(A_{n})=\infty\), allora con probabilità 1 si verificano infiniti eventi \(A_{n}\), cioè \(P(A_{n} i.o. ) = 1\).
In altre parole per ogni fissato intero \(m\) la probabilità che in \(n\) prove si verifichino più di \(m\) eventi \(A_{k}\) tende a \(1\) per \(n \to \infty\).
Una formulazione equivalente è la seguente: se gli eventi \(A_{n}\) sono indipendenti e \(P(A_{n} i.o. ) = 0\), allora

\[ \sum\limits_{n=1}^{\infty}P(A_{n}) \lt \infty \]

cioè la serie converge.

Esempio 4.3
Supponiamo di effettuare un numero di lanci infinito di una moneta. Dividiamo i lanci in gruppi di \(1000\) ciascuno. Diciamo che l’evento \(A_{n}\) si verifica se nel blocco n-esimo si ottengono \(1000\) teste. Abbiamo

\[ \begin{array}{l} \sum\limits_{n=1}^{\infty}P(A_{n})= \sum\limits_{n=1}^{\infty}\dfrac{1}{2^{1000}} = +\infty \end{array} \]

I blocchi sono indipendenti e quindi, per il teorema di Cantelli, con probabilità \(1\) possiamo ottenere una serie di \(1000\) teste consecutive in questo esperimento di lanci infiniti.

Esempio 4.4
Consideriamo di nuovo la successione di variabili aleatorie indipendenti \(\{X_{n}\}\) così definite:

\[ \begin{cases} P(X_{n}=1) = \dfrac{1}{n} \\ P(X_{n}=0) = 1- \dfrac{1}{n} \end{cases} \]

In un esercizio precedente abbiamo visto che la successione \(\{X_{n}\}\) converge in probabilità a zero. Dimostriamo ora che non converge quasi certamente. Supposto \(X=0\) abbiamo

\[ \begin{array}{l} \sum\limits_{n=1}^{\infty}P(|X_{n}-X| \gt \epsilon ) = \sum\limits_{n=1}^{\infty}\dfrac{1}{n}= \infty \end{array} \]

Per il secondo teorema di Borel-Cantelli la successione \(\{X_{n}\}\) non converge quasi certamente a \(0\), cioè

\[ P(|X_{n}-X| \gt \epsilon \text{ } i.o.) = 1 \]

Esercizio 4.6
Sia \(\{X_{n}\}\) una successione di variabili aleatorie indipendenti che assumono i valori dell’insieme \(\{0,1\}\). Dimostrare che una condizione necessaria e sufficiente affinché converga quasi certamente a \(0\) è che

\[ \sum\limits_{n=1}^{\infty}P(X_{n}=1) \lt \infty \]

Dimostrare che una condizione necessaria e sufficiente affinché converga in probabilità a \(0\) è che

\[ \lim\limits_{n \to \infty}P(X_{n}=1) = 0 \]

Esercizio 4.7
Sia \(\{X_{n}\}\) una successione di variabili aleatorie indipendenti e identicamente distribuite, con distribuzione normale \(N(1,5)\). Dimostrare che

\[ \begin{array}{l} \lim\limits_{n \to \infty} \dfrac{X_{1}+X_{2}+ \cdots + X_{n}}{X_{1}^{2} +X_{2}^{2} + \cdots +X_{n}^{2} } = \dfrac{1}{6} \quad a.s. \end{array} \]

Esercizio 4.8
Siano \(a,b\) due costanti. Dimostrare che

\[ \begin{array}{l} X_{n} \overset{P} \to a,\ Y_{n} \overset{P} \to b \implies X_{n}Y_{n} \overset{P} \to ab \end{array} \]

Suggerimento

\[ \begin{array}{l} X_{n}Y_{n}= \dfrac{(X_{n}+Y_{n})^{2}- (X_{n}-Y_{n})^{2}}{4} \end{array} \]

Nota
La convergenza quasi certa fornisce delle garanzie sul comportamento a lungo termine di una successione di variabili aleatorie. Per questo ha una grande importanza nella Teoria della probabilità e in Statistica. In particolare è fondamentale nell’inferenza statistica, che si occupa di fare delle previsioni statistiche sui parametri di una popolazione, a partire da campioni casuali.

4.6) Teoria della probabilità e teoria della misura

La teoria della misura è la branca dell’analisi matematica che fornisce un metodo generale per assegnare una misura a sottoinsiemi di un dato spazio. Generalizza le nozioni fondamentali di lunghezza, area, volume della geometria elementare. La teoria della misura è alla base della definizione dell’integrale di Lebesgue, che generalizza l’integrale di Riemann ad una classe più ampia di funzioni.
Con l’assiomatizzazione di Kolmogorov (vedi articolo su questo sito) la teoria della probabilità può essere considerata una branca della teoria della misura. Infatti la probabilità è un caso particolare di misura finita di insiemi (gli eventi) definita su una spazio di probabilità \((\Omega, \mathfrak{F},P)\), con la proprietà che \(P(\Omega)=1\).
La convergenza in probabilità di una successione di variabili aleatorie corrisponde alla convergenza in misura di una successione di funzioni reali di variabili reali.
In generale nella teoria della misura si dice una una proprietà vale quasi ovunque se l’insieme per il quale non vale ha misura nulla. Nel linguaggio della probabilità, si usa il termine quasi certamente (in inglese a.s. – almost surely). La convergenza quasi certa corrisponde alla convergenza quasi ovunque di una successione di funzioni reali di variabili reali.
Per uno studio approfondito della teoria della misura vedere ad esempio il testo di Kolmogorov-Fomin [2].

5) La legge debole dei grandi numeri

Il seguente teorema dimostrato da Chebyshev è una generalizzazione delle versioni di Bernoulli e Poisson della legge dei grandi numeri.

5.1) Il teorema di Chebyshev

Teorema 5.1
Sia \(\{X_{n}\}\) una successione di variabili aleatorie con varianze finite, limitate da una costante \(K\):

\[ \begin{array}{l} Var(X_{n}) \le K, \quad n=1,2,3,\cdots \end{array} \]

Allora per ogni fissato numero reale \(\epsilon \gt 0\) si ha:

\[ \begin{array}{l} \lim\limits_{n \to \infty} P \left \{\left|\dfrac{1}{n}\sum\limits_{k=1}^{n}X_{k}-\dfrac{1}{n}\sum\limits_{k=1}^{n}E(X_{k})\right| \lt \epsilon \right \}=1 \end{array} \]

Dimostrazione
Ricordiamo in primo luogo che l’esistenza delle varianze finite \(Var(X_{n})\) implica l’esistenza delle medie finite \(E(X_{n})\).
La dimostrazione del teorema si ottiene applicando la disuguaglianza di Chebyshev, ricordando che la varianza della media aritmetica è

\[ \begin{array}{l} Var\left(\dfrac{1}{n}\sum\limits_{k=1}^{n}X_{k}\right) = \dfrac{1}{n^{2}} \sum\limits_{k=1}^{n}Var(X_{k}) \le \dfrac{K}{n} \end{array} \]

e quindi

\[ \begin{array}{l} P \left \{\left|\dfrac{1}{n}\sum\limits_{k=1}^{n}X_{k}-\dfrac{1}{n}\sum\limits_{k=1}^{n}E(X_{k})\right| \lt \epsilon \right \} \ge 1- \dfrac{Var\left(\dfrac{1}{n}\sum\limits_{k=1}^{n}X_{k}\right)}{\epsilon^{2}} \ge 1 – \dfrac{K}{n\epsilon^{2}} \end{array} \]

Il limite dell’espressione precedente è \(\ge 1\), quindi essendo un valore di probabilità deve essere uguale ad \(1\).

Esercizio 5.1
Dimostrare che i teoremi di Bernoulli e di Poisson sono casi particolari del teorema di Chebyshev.

5.2) Il teorema di Khinchin

Teorema 5.2
Sia \(\{X_{n}\}\) una successione di variabili aleatorie indipendenti e identicamente distribuite, con media finita \(E(X_{n})=\mu\). Allora per ogni numero reale \(\epsilon \gt 0\) valgono le seguenti formule:

\[ \begin{array}{l} P \left\{\left|\dfrac{1}{n}\sum\limits_{k=1}^{n}X_{k}-\mu\right|\lt \epsilon \right\} \to 1 \quad \text{se }n \to \infty \\ P \left\{\left|\dfrac{1}{n}\sum\limits_{k=1}^{n}X_{k}-\mu\right|\ge \epsilon \right\} \to 0 \quad \text{se }n \to \infty \end{array} \]

L’importanza del teorema di Khinchin è che non è necessario assumere che la varianze delle variabili aleatorie siano finite. Per una dimostrazione vedere ad esempio il testo di Uspensky[7].

Esempio 5.1
Consideriamo \(n\) lanci di un dado con \(6\) facce. Sia \(X_{k}\) il risultato nella prova \(k\)-esima e \(S_{n}=X_{1}+ \cdots + X_{n}\) la somma dei risultati in \(n\) prove.
Per ogni prova abbiamo

\[ \begin{array}{l} E(X_{k}) = \sum\limits_{i=1}^{6}i P(X_{k}=i) = \dfrac{1+2+3+4+5+6}{6}= \dfrac{7}{2}=3,5 \\ Var(X_{k})=\sigma^{2}(X_{k})= \sum\limits_{i=1}^{6}i^{2} P(X_{k}=i)- (3,5)^{2} = \dfrac{35}{12} \end{array} \]

Si tratta di un processo di prove indipendenti e possiamo applicare la legge debole dei grandi numeri. Per ogni \(\epsilon \gt 0\), quando \(n \to \infty\) abbiamo

\[ \begin{array}{l} P \left( \left| \dfrac{S_{n}}{n}- \dfrac{7}{2}\right| \ge \epsilon \right) \to 0 \\ P \left( \left| \dfrac{S_{n}}{n}- \dfrac{7}{2}\right| \lt \epsilon \right) \to 1 \end{array} \]

Nota
La legge debole dei grandi numeri dice sostanzialmente che la differenza \(\left|\dfrac{S_{n}}{n}- \mu \right|\) ha un’alta probabilità di tendere a zero, al crescere di \(n\). Tuttavia questo non implica che la differenza sia destinata a rimanere piccola da un certo \(n\) in poi. C’è la possibilità che la differenza assuma valori grandi infinite volte al crescere di \(n\), anche se la probabilità di questi eventi è piccola.
Un’altra limitazione è rappresentata dalle dimensioni del campione, cioè dal numero di prove necessarie per poter applicare il teorema con fiducia. Questo è un parametro che può variare da un tipo di esperimento ad un altro.

5.3) Eccezioni alla legge dei grandi numeri – La distribuzione di Cauchy

Vediamo un esempio di distribuzione di probabilità per la quale non vale la legge dei grandi numeri, anche se le variabili aleatorie sono indipendenti e identicamente distribuite.

La distribuzione di Cauchy, così chiamata in onore del matematico francese Augustin-Louis Cauchy (1789-1857), è così definita:

\[ \begin{array}{l} f(x) = \dfrac{1}{\pi}\dfrac{1}{1+x^{2}}, \quad x \in (-\infty,+\infty) \end{array} \]

La funzione di distribuzione \(F(x)\) è

\[ \begin{array}{l} F(x) = \int\limits_{-\infty}^{t}f(t) dt = \dfrac{1}{2}+ \dfrac{1}{\pi} \arctan x \end{array} \]

È facile verificare le seguenti proprietà della distribuzione di Cauchy:

\[ \begin{array}{l} \int\limits_{-\infty}^{+\infty}f(x)dx = 1 \\ E(|X|) = \infty \\ E(X^{2})= \infty \end{array} \]

La funzione di Cauchy è simmetrica rispetto al punto \(x=0\), cioè \(f(x)=f(-x)\) per ogni punto del dominio di definizione. Da questo si potrebbe dedurre che il valore medio \(\int\limits_{-\infty}^{\infty}x f(x) dx\) sia uguale a zero. Tuttavia il problema è che questo integrale non è convergente, ma esiste solo come valore principale di Cauchy, cioè

\[ \begin{array}{l} \int\limits_{-\infty}^{+ \infty}x f(x)dx = \lim\limits_{T \to \infty} \int\limits_{-T}^{+ T}x f(x)dx \end{array} \]

Se una funzione è integrabile invece, il limite esiste ed è unico e non dipende dalla modalità con cui si fanno tendere all’infinito i due estremi di integrazione.

Esercizio 5.2
Dimostrare le seguenti formule:

\[ \begin{array}{l} \lim\limits_{T \to \infty} \int\limits_{-T}^{+ T}x f(x)dx = 0 \\ \lim\limits_{T \to \infty} \int\limits_{-T}^{+ 2T}x f(x)dx =\infty \\ \end{array} \]

Dall’esercizio precedente segue quindi che la media e la varianza sono indefinite per la distribuzione di Cauchy.
La distribuzione di Cauchy ha alcune similitudini con la distribuzione normale: è simmetrica rispetto allo zero e unimodale. Tuttavia ci sono delle importanti differenze. In particolare quando \(x \to \pm \infty\) la densità della distribuzione di Cauchy \(f(x)\) tende a zero con velocità polinomiale, mentre la distribuzione di Gauss ha una velocità esponenziale.

Teorema 5.3
Siano \(X,Y\) due variabili aleatorie indipendenti con distribuzione di Cauchy \(f(x)\). Allora anche la variabile media aritmetica \(Z= \dfrac{X+Y}{2}\) ha la stessa distribuzione di Cauchy \(f(x)\).
Più in generale se \(X_{1},X_{2}, \cdots,X_{n}\) sono variabili aleatorie indipendenti con distribuzione di Cauchy \(f(x)\), allora anche la variabile media aritmetica \(S_{n}= \dfrac{X_{1} + X_{2}+ \cdots + X_{n}}{n}\) ha la stessa distribuzione di Cauchy \(f(x)\).

Dimostrazione
La dimostrazione è semplificata se si usa la funzione caratteristica. Ricordiamo che per una variabile aleatoria \(X\) con distribuzione di Cauchy si ha

\[ \begin{array}{l} E\left(e^{i \omega X}\right)= \int\limits_{-\infty}^{+\infty}\dfrac{e^{i \omega x}}{\pi(1+x^{2})}dx = e^{-|\omega|} \end{array} \]

La funzione caratteristica della media aritmetica \(\dfrac{S_{n}}{n}\)di \(n\) variabili aleatorie di Cauchy indipendenti è

\[ \begin{array}{l} E\left(e^{i \omega \frac{S_{n}}{n}}\right)= E\left(e^{i \frac{\omega}{n}(X_{1}+ \cdots+ X_{n})}\right)= E\left(e^{i \frac{\omega}{n}nX_{1} }\right) = e^{-|\omega|} \end{array} \]

La media aritmetica \(\dfrac{S_{n}}{n}\) ha la stessa distribuzione di Cauchy e non converge né quasi certamente né in probabilità. Quindi la legge dei grandi numeri non si applica in queso caso.

Esercizio 5.3
Sia \(X\) una variabile aleatoria con distribuzione uniforme nell’intervallo \([-\pi,\pi]\). Cioè la funzione di distribuzione di \(X\) è

\[ \begin{array}{l} F(x)=P(X \le x) = \begin{cases} 0 \ ,\quad x \le -\pi/2 \\ \dfrac{x + \pi/2}{\pi} \ ,\quad -\pi/2 \lt x \lt \pi/2 \\ 1 \ ,\quad x \ge \pi/2 \end{cases} \end{array} \]

Dimostrare che la variabile aleatoria \(Y = \tan X\) ha la distribuzione di Cauchy, cioè \(f_{Y}(y)=\dfrac{1}{\pi} \dfrac{1}{1+y^{2}}\).

Suggerimento
Ricordare che \(f_{Y}(y)= \dfrac{dF_{y}(y)}{dy} \).

6) La legge forte dei grandi numeri di Borel-Kolmogorov

È importante sottolineare che la legge debole dei grandi numeri non afferma che la frequenza osservata di un evento tende alla probabilità teorica dell’evento stesso, all’aumentare del numero delle prove effettuate. Il teorema afferma soltanto che, fissato un numero \(\delta \gt 0\), all’aumentare del numero delle prove la probabilità di una singola disuguaglianza

\[ \begin{array}{l} \left| \dfrac{S_{n}}{n} – p\right| \lt \epsilon \end{array} \]

diventa maggiore di \(1-\delta\), per \(n\) sufficientemente grande.
Si tratta di una convergenza in probabilità. Quindi è sempre possibile che, per ogni \(\epsilon \gt 0\), la seguente disuguaglianza

\[ \begin{array}{l} \left| \dfrac{S_{n}}{n} – p\right| \gt \epsilon \end{array} \]

si verifichi infinite volte, anche se ad intervalli non frequenti.
La legge forte dei grandi numeri è una versione più precisa, scoperta da Emil Borel nel 1909 e perfezionata da Kolmogorov. Questa legge afferma che la convergenza vale con probabilità \(1\), cioè quasi certamente. Ad esempio eseguendo numerose prove di lanci di un moneta, il teorema di Borel afferma che la frequenza di occorrenze di teste in questa successione converge quasi certamente alla probabilità teorica.
Ricordiamo che la convergenza quasi certa \(X_{n} \overset{a.s} \to X\) significa che

\[ \begin{array}{l} P\{\omega: X_{n}(\omega) \to X(\omega)\} = 1 \end{array} \]

In altri termini, mettendo insieme tutti gli eventi elementari \(\omega \in \Omega\) nei quali la successione di numeri reali \(X_{n}(\omega)\) converge a \(X(\omega)\) otteniamo un evento che ha probabilità uguale ad \(1\). L’evento complementare ha quindi probabilità zero. Ricordiamo che in generale probabilità uguale a zero non significa necessariamente che un evento è impossibile.

Definizione 6.1
Una successione di variabili aleatorie \(\{X_{n}\}\) soddisfa la legge forte dei grandi numeri se converge quasi certamente, cioè se, quando \(n \to \infty\), con probabilità uguale ad \(1\) si ha:

\[ \begin{array}{l} \dfrac{1}{n}\sum\limits_{k=1}^{n}X_{k} – \dfrac{1}{n}\sum\limits_{k=1}^{n}E(X_{k}) \to 0 \end{array} \]

Teorema 6.1 – Borel
Sia \(S_{n}\) il numero di occorrenze di un evento \(A\) in \(n\) prove indipendenti, in ognuna delle quali l’evento \(A\) ha probabilità \(p\) di verificarsi. Allora

\[ \begin{array}{l} P\left\{\lim\limits_{n \to \infty}\dfrac{S_{n}}{n} = p\right\}=1 \end{array} \]

In termini equivalenti il teorema afferma che \( \dfrac{S_{n}}{n} \overset{a.s} \to p\), cioè la media aritmetica converge quasi certamente al valore \(p\).
Il teorema di Borel rappresenta la prima versione della legge forte dei grandi numeri. Un criterio generale importante è stato dimostrato dal matematico russo Kolmogorov.

Teorema 6.2 – Criterio di Kolmogorov per la legge forte dei grandi numeri
Sia \(\{X_{n}\}\) una successione di variabili aleatorie indipendenti, definite su uno stesso spazio di probabilità, con medie \(E(X_{n})\) finite. Poniamo

\[ \begin{array}{l} S_{n}=X_{1}+ X_{2}+ \cdots + X_{n} \\ \mu_{k} = E(X_{k}), \quad M_{n}=\mu_{1}+ \cdots + \mu_{n} \\ \sigma_{k}^{2} = Var(X_{k}) \end{array} \]

La legge forte dei grandi numeri

\[ P \left\{ \lim_{n \to \infty}\dfrac{S_{n}-M_{n}}{n} \right\}=1 \]

vale se le seguenti condizioni sono soddisfatte:

\[ \begin{array}{l} Var(X_{n}) \lt \infty, \quad \forall n \\ \sum\limits_{k=1}^{\infty}\dfrac{\sigma_{k}^{2}}{k^{2}} \lt \infty \end{array} \]

Una conseguenza del criterio di Kolmogorov è il seguente teorema:

Teorema 6.3
Sia \(\{X_{n}\}\) una successione di variabili aleatorie indipendenti e identicamente distribuite, con media \(\mu = E(X_{k})\). Allora la legge dei grandi numeri si applica alla successione \(\{X_{n}\}\).

Per la dimostrazione dei due teoremi precedenti vedere ad esempio il testo di Feller[4].

Per chiarire meglio il significato della legge forte dei grandi numeri ricordiamo la seguente definizione equivalente: una successione \(\{X_{n}\}\) di variabili aleatorie indipendenti soddisfa la legge forte dei grandi numeri se, per ogni coppia di numeri \(\epsilon \gt 0\) e \(\delta \gt 0\), esiste un intero positivo \(N\) tale che per ogni intero positivo \(r\) arbitrario siano soddisfate tutte le seguenti relazioni:

\[ \begin{array}{l} P \left\{\dfrac{ |S_{n} – M_{n}|}{n} \lt \epsilon, \quad n=N,N+1, \cdots ,N+r\right\} \gt 1-\delta \end{array} \]

Differenza fra legge forte e legge debole dei grandi numeri
La differenza fra le legge debole e la legge forte dei grandi numeri è equivalente alla differenza fra la convergenza in probabilità e la convergenza quasi certa, discussa in precedenza.
La legge debole dei grandi numeri considera solo probabilità su sequenze finite di prove. Si ripetono diverse sequenze di prove e si verifica la convergenza in probabilità all’aumentare del numero di prove.
Per chiarire con un esempio, consideriamo un esperimento consistente nel lancio di una moneta un numero grande \(n\) di volte, ottenendo quindi una successione di teste e croci. Se ripetiamo questo esperimento un numero elevato \(N\) di volte otteniamo una collezione di successioni finite, e possiamo verificare la proporzione di teste in ognuna di esse. Il teorema di Bernoulli afferma, che all’aumentare di \(n\), la frazione delle successioni per le quali la proporzione di teste è arbitrariamente vicino al valore \(p\) teorico è grande e aumenta all’aumentare di \(n\). Tuttavia non esclude che ci possano essere valori di \(n\) per i quali la proporzione di teste si discosta dal valore \(p\) in modo significativo.
La legge forte dei grandi numero afferma che questi eventi sono teoricamente possibili, tuttavia hanno probabilità uguale a zero. Cioè non solo la proporzione di teste in una data sequenza è vicina con alta probabilità al valore teorico \(p\) per un valore abbastanza grande di \(n\), ma questa proporzione con alta probabilità rimane vicina a \(p\) anche per tutti i valori più grandi di \(n\) della sequenza.
La legge forte dei grandi numeri richiede che ci sia una successione infinita di variabili aleatorie definite su uno spazio di probabilità. Quindi esiste una successione infinita di medie aritmetiche \(S_{1},S_{2},S_{3}, \cdots\) per la quale si calcola il limite

\[ \begin{array}{l} \lim\limits_{n \to \infty } P\left\{\left| \dfrac{S_{k}}{k}- p \right| \gt \epsilon, \text{ per } k=n+1,n+2, \cdots \right\} = 0 \end{array} \]

Ricordiamo comunque che il fatto che se un evento abbia probabilità uguale a zero non significa che sia impossibile. Piuttosto significa che il suo verificarsi è talmente raro da non poter assegnare una probabilità positiva, neanche piccolissima.
In base ai teoremi di Borel-Cantelli, se la probabilità è uguale a zero allora all’aumentare del numero delle sequenze di esperimenti l’evento \(\left\{\left|\dfrac{S_{n}}{n}- p \right| \gt \epsilon\right\}\) si verifica solo in un numero finito di queste sequenze.

Esercizio 6.1
Sia \(\{X_{n}\}\) una successione di variabili aleatorie indipendenti e identicamente distribuite, con media \(\mu\) e varianza \(\sigma^{2}\). Dimostrare che

\[ \begin{array}{l} \lim\limits_{n \to \infty} \dfrac{1}{n}\sum\limits_{k=1}^{n}(X_{k}- \mu)^{2} = \sigma^{2} \end{array} \]

7) Legge dei grandi numeri e concezione frequentista della probabilità

In un articolo precedente abbiamo descritto i principali modelli della probabilità: classico, frequentista, soggettivista e assiomatico.
La legge dei grandi numeri, conosciuta anche come legge delle medie, è un teorema matematico dimostrato a partire dagli assiomi di Kolmogorov. Questo teorema mostra che il modello matematico della teoria della probabilità è consistente con la teoria frequentista, che interpreta la probabilità come la frequenza dei successi al crescere del numero delle prove.
In termini semplici, la legge delle medie esprime in forma matematica il risultato sperimentale per cui le misurazioni su grandi campioni di una popolazione differiscono di poco dai valori teorici della popolazione complessiva. Sostanzialmente effettuando serie di esperimenti casuali si hanno in gran parte risultati vicino ai valori medi; eventuali risultati che differiscono in modo significativo dai valori medi vengono compensati e diluiti dalla prove successive.
La legge forte dei grandi numeri ha una importanza fondamentale nella teoria delle probabilità e in numerose applicazioni. Questa legge fornisce la base teorica per le procedure statistiche utilizzate per stimare i parametri di una popolazione, tramite campionamenti casuali.

Esempio 7.1
Supponiamo che \(\{X_{n}\}\) sia una successione di variabili aleatorie di Bernoulli identicamente distribuite, con \(P(X_{k}=1)=p\) e \(P(X_{k}=0)=1-p\). Allora detto \(S_{n}=X_{1}+ \cdots + X_{n}\) il numero di successi in \(n\) prove, la legge forte dei grandi numeri afferma che

\[ \begin{array}{l} \lim\limits_{n \to \infty} \dfrac{S_{n}}{n}=E(X_{1})=p \quad \text{(a.s. – quasi certamente)} \end{array} \]

Quindi la media campionaria \( \dfrac{S_{n}}{n}\) può essere utilizzata per effettuare una stima approssimata della probabilità \(p\), se questa è sconosciuta. Grazie alla legge forte dei grandi numeri possiamo essere fiduciosi che la media campionaria sia una buona approssimazione del parametro della popolazione, prendendo un numero sufficientemente alto di campioni.
Fissato un \(\epsilon \gt 0\) e un livello di probabilità \(\delta \gt 0\), abbiamo una sufficiente garanzia dell’approssimazione seguente:

\[ \begin{array}{l} P\left(\left|\dfrac{S_{n}}{n}-p\right| \le \epsilon \right) \ge \delta \quad \text{ se } n \ge \dfrac{1}{4\epsilon^{2}(1-\delta)} \end{array} \]

Tuttavia se non valesse le legge forte dei grandi numeri ci sarebbero conseguenze importanti. Ad esempio, nel caso dell’esempio precedente, potremo affermare che con una probabilità non trascurabile ci potranno essere casi in cui la differenza fra la media aritmetica e il valore atteso delle variabili aleatorie assumerà valori grandi. Quindi non potremo avere grande fiducia nel considerare la media aritmetica dei valori osservati come una stima approssimata del parametro \(p\).

8) Applicazioni della legge dei grandi numeri

8.1) La legge dei grandi numeri nel gioco d’azzardo

Il contenuto fondamentale della legge dei grandi numeri è che aumentando il numero delle prove di un esperimento il valore medio dei risultati si avvicina al valore atteso con alta probabilità. Gli scommettitori nei giochi d’azzardo cercano di utilizzare la legge dei grandi numeri, ad esempio nelle scommesse, nei casinò, e anche negli investimenti finanziari.
Una buona strategia per le scommesse deve però tenere presente che la validità della legge dei grandi numeri si basa su alcune ipotesi fondamentali.

  • La legge si applica a campioni molto grandi, in genere dell’ordine di migliaia di osservazioni.
  • Bisogna tenere sempre conto anche della possibilità di risultati eccezionali, che si discostano dai valori medi.
  • I risultati delle varie prove sono indipendenti.

Quindi in primo luogo gli scommettitori devono evitare di prendere decisioni basate su dati limitati, relativi a piccoli campioni. Al contrario si devono considerare fattori più affidabili, basati su valori medi e a lungo termine, che approssimano i valori attesi teorici.
Un altro errore frequente è quello di dimenticare l’indipendenza degli eventi e credere che, se un evento non si è verificato per molto tempo (come l’uscita di un numero nel gioco del lotto), allora si presenterà con frequenza maggiore nelle prove successive.
La legge dei grandi numeri rappresenta quindi una base teorica importante sulla quale definire delle strategie di scommesse, che permette di gestire in modo efficiente i rischi se si tengono presente i vincoli sui quali è basata.
In ogni caso è bene ricordare che nessuna strategia può garantire vincite nelle scommesse singole, anche se la legge dei grandi numeri può essere utile per ottenere vantaggi a lungo termine.

Esempio 8.1
Una moneta viene lanciata \(1000\) volte ottenendo testa \(450\) volte e croce \(550\) volte. Qual è la probabilità che il prossimo lancio risulti testa?
Naturalmente la probabilità è uguale a \(\dfrac{1}{2}\), in quanto le prove sono indipendenti. La legge dei grandi numeri afferma che all’aumentare del numero di prove la frequenza del numero di teste si avvicina sempre di più al valore teorico di \(\dfrac{1}{2}\), ma non garantisce che un singolo lancio abbia come risultato testa.

Esempio 8.2
La roulette europea presenta un disco con 37 caselle, numerate da 0 a 36. Ogni numero è rosso o nero, ad eccezione dello zero che in genere è verde.
La roulette americana ha un disco diviso in 38 caselle: ai numeri da 0 a 36, infatti, si aggiunge il 00, con posizione speculare rispetto allo 0.
Supponiamo di effettuare una scommessa sul colore rosso, in un casinò con una roulette americana. Scommettendo un euro il giocatore può vincere un euro aggiuntivo con probabilità \(p=\dfrac{18}{38}\), oppure perdere la scommessa con probabilità \(p=\dfrac{20}{38}\).
Indichiamo con \(X\) la vincita netta del giocatore. È facile verificare che

\[ \begin{array}{l} P(X=1) = \dfrac{18}{38} \\ P(X=-1) = \dfrac{20}{38} \\ E(X) = \mu = \dfrac{-1}{19} \approx 0,0526315 \\ Var(X) = E(X^{2}) – \mu^{2}= \dfrac{360}{361} \end{array} \]

Supponiamo di ripetere la scommessa \(n\) volte. Posto \(S(n)=X_{1} + X_{2}+ \cdots + X_{n}\), per la legge dei grandi numeri e la disuguaglianza di Chebyshev abbiamo:

\[ \begin{array}{l} P\left(\left|\dfrac{S_{n}}{n} – \mu \right| \gt \epsilon\right) \le \dfrac{360}{361 n \epsilon^{2}} \end{array} \]

Supponiamo \(n=1000000\) e \(\epsilon = 0,01\). Allora

\[ \begin{array}{l} P\left(\left|X_{1}+ \cdots + X_{1000000} + 52631,5 \right| \ge 10000\right) \le \dfrac{360}{361 \cdot 100} \approx 0,00997 \end{array} \]

Quindi c’è una probabilità del \(99 \%\) che il casinò faccia un profitto di almeno \(42631\) euro.
Nel gioco della roulette il valore atteso della vincita del giocatore è negativo, mentre è positivo per il casinò. Quindi mediamente gli scommettitori perdono soldi e il casinò è avvantaggiato. Questa situazione si verifica in molte applicazioni: assicurazioni, investimenti finanziari, lotterie, ecc.
Comunque nella realtà non esistono giochi con valore atteso positivo. Se il valore atteso della vincita è uguale a zero, allora il gioco si dice equo.

8.2) Metodo Monte Carlo

Il metodo Monte Carlo è stato inizialmente sviluppato e utilizzato nel \(1940\) nei laboratori di Los Alamos, durante lo sviluppo della prima bomba atomica, da parte di Stanislaw Ulam and John von Neumann.
Il nucleo essenziale del metodo Monte Carlo è l’utilizzo di programmi generatori di numeri casuali e la simulazione di variabili aleatorie, di cui sono note le distribuzioni di probabilità. Il metodo Monte Carlo è utilizzato per costruire simulazioni probabilistiche di fenomeni fisici (reattori nucleari, aereodinamica), di problemi decisionali e finanziari, o nello sviluppo di algoritmi per videogiochi. Naturalmente gli algoritmi Monte Carlo richiedono l’utilizzo di computer e di programmi informatici.
Un esempio di applicazione è il calcolo di integrali definiti. In molte situazioni concrete c’è la necessita di calcolare l’integrale \(\int\limits_{a}^{b}f(x)dx\), dove \(y=f(x)\) è una funzione reale di variabile reale. Purtroppo capita spesso che, anche se è facile stabilire se la funzione \(f(x)\) è integrabile, cioè l’integrale esiste finito, non è possibile calcolare l’integrale con metodi elementari. Cioè non possibile determinare la funzione primitiva \(F(x)\) tale \(F'(x)=f(x)\). Si deve ricorrere quindi a metodi approssimati.
Esistono molti algoritmi di analisi numerica che calcolano un valore approssimato dell’integrale mediante delle somme finite.
Vediamo un esempio di applicazione del metodo Monte Carlo per il calcolo di integrali definiti. Supponiamo di dover calcolare l’integrale di una funzione \(y=f(x)\), in un intervallo \([a,b]\) dell’asse reale:

\[ \begin{array}{l} \int\limits_{a}^{b}f(x)dx \end{array} \]

L’algoritmo Monte Carlo è costituito dai seguenti passi:

  • mediante un generatore di numeri casuali simulare le variabili aleatorie uniformi \(U_{1}, \cdots,U_{n}\) sull’intervallo \([0,1]\);
  • utilizzare la trasformazione \(\{X_{k}= a + (b-a)U_{k},\ k=1,2,\cdots,n\}\)
  • calcolare \(f(X_{1}),f(X_{2}), \cdots,f(X_{n})\);
  • applicare la legge dei grandi numeri.

Applicando la legge dei grandi numeri abbiamo

\[ \begin{array}{l} \lim\limits_{n \to \infty}\dfrac{1}{n}\sum\limits_{k=1}^{n}f(X_{k}) =E(f(X_{1})) = \dfrac{1}{b-a} \int\limits_{a}^{b}f(x)dx \end{array} \]

Quindi mediante un generatore di numeri casuali si possono simulare variabili aleatorie con distribuzione uniforme, e quindi si può calcolare un valore approssimato dell’integrale.
Questa tecnica è particolarmente utile per il calcolo di integrali multipli.
Per una introduzione ai generatori di numeri casuali vedere l’articolo su questo sito.

8.3) Approssimazione di pi greco

Un classico esempio di applicazione del metodo Monte Carlo è l’approssimazione del numero \(\pi\), che è uguale all’area di un cerchio di raggio unitario. L’equazione del cerchio di raggio unitario con centro nell’origine è \(x^{2}+y^{2}=1\), quindi:

\[ \begin{array}{l} \displaystyle \pi = 4 \int\limits_{0}^{1} \sqrt{1 – x^{2}} dx \end{array} \]

Il problema si riduce a calcolare il valore approssimato dell’integrale della funzione \(f(x)= \sqrt{1-x^{2}}\) nell’intervallo \([0,1]\). Applicando il metodo Monte Carlo abbiamo:

\[ \begin{array}{l} \pi \approx \dfrac{4}{n}\sum\limits_{k=1}^{n} \sqrt{1 – U_{k}^{2}} \end{array} \]

Il codice Python seguente esegue l’algoritmo:

#Python 3.13.3 
import numpy as np  
import math  as math
somma = 0
n = 100000 #dimensione del campione 
for i in range(n):
  U = np.random.uniform(0,1)
  somma = somma + 4*math.sqrt(1-math.pow(U,2))
somma = somma /n
print ('pigreco= ', somma)   

Naturalmente ogni volta che si esegue il programma si ottiene una risposta leggermente diversa.

8.4) Gestione del rischio nella finanza, controllo qualità, assicurazioni

La legge dei grandi numeri ha numerose applicazioni in vari campi. Nella finanza viene utilizzata per permettere agli investitori di prendere decisioni sulla base dei rendimenti medi risultanti dall’analisi dei dati storici. Nel controllo di qualità viene applicata per garantire che il livello di qualità dei prodotti rispetti dei vincoli specifici.
In generale nelle procedure statistiche vengono studiati dei campioni al fine di fare delle stime dei parametri di una popolazione, ad esempio la media o la varianza. La legge dei grandi numeri garantisce che le conclusioni tratte dai dati campione siano abbastanza affidabili da essere generalizzate all’intera popolazione.
Un altro settore in cui la legge dei grandi numeri ha un ruolo importante è il mondo delle assicurazioni sulla vita. Il problema principale delle società assicuratrici è calcolare il giusto premio da far pagare, affinché ci sia disponibilità sufficiente per coprire le richieste di rimborsi da parte dei clienti. Ad esempio, se mediamente ogni \(1000\) assicurati ce ne sono \(10\) che chiedono un rimborso, allora il premio pagato dai \(1000\) deve essere sufficiente per pagare i \(10\) rimborsi, oltre naturalmente ad assicurare un profitto alla società assicurazione.
La legge dei grandi numeri garantisce un comportamento stabile a lungo termine. Naturalmente, maggiore è il numero di persone che sottoscrivono un’assicurazione, maggiore sarà la probabilità che le perdite siano vicine al valore atteso teorico.

Conclusione

La teoria della probabilità ha l’obiettivo di creare dei modelli matematici per prevedere il comportamento di fenomeni casuali. La legge dei grandi numeri è uno dei teoremi fondamentali di questa disciplina, in quanto permette di fare previsioni sul verificarsi di un evento casuale: facendo un numero grande di esperimenti o prove la frequenza osservata si avvicina al valore probabilistico teorico. Il contenuto di questo teorema corrisponde all’esperienza comune, secondo la quale fenomeni che hanno probabilità quasi uguale ad uno si verificano quasi certamente. Viceversa fenomeni che hanno probabilità molto piccola si verificano molto raramente o quasi mai. Il suo campo di applicazioni è molto vasto: biologia, fisica, economia, finanza, gioco d’azzardo, ecc.
In un prossimo articolo studieremo il teorema del limite centrale, che ha un ruolo fondamentale nella scienza statistica. Questo teorema afferma che, sotto opportune condizioni, la somma di variabili aleatorie indipendenti e identicamente distribuite converge alla distribuzione normale di Gauss.
Ad esempio se \(\{X_{n}\}\) è una successione di variabili aleatorie indipendenti e identicamente distribuite, tali che \(E(X_{n})=\mu\) e \(Var(X_{n})=\sigma^{2}\), allora al crescere di \(n\) si ha

\[ \begin{array}{l} S_{n}=X_{1}+ X_{2}+ \cdots + X_{n} \approx N(n\mu,n\sigma^{2}) \\ \dfrac{S_{n}}{n} \approx N \left(\mu,\dfrac{\sigma^{2}}{n}\right) \end{array} \]

Il teorema del limite centrale è utilizzato nell’analisi statistica, nel test delle ipotesi e nella teoria della stima dei parametri di una popolazione, sulla base delle informazioni ricavate da campioni di dati.


Bibliografia

[1]A. N. Kolmogorov – Foundations of the Theory of Probability (Dover)

[2]Kolmogorov, Fomin – Introductory Real Analysis (Dover)

[3]Alexandr A. Borovkov – Probability Theory (Springer)

[4]W. Feller – An Introduction to Probability Theory (Vol. I; Wiley)

[5]Mark Kac – Statistical Independence in Probability, Analysis and Number Theory (Dover)

[6]S. Ross – A First Course in Probability (Pearson)

[7]J. V. Uspensky – Introduction to mathematical probability (McGraw-Hill)

[8]P. Baldi – Probability: An Introduction Through Theory and Exercises (Springer)

[9]Richard Isaac – The Pleasures of Probability (Springer)


0 commenti

Lascia un commento!