## Le processus de Galton-Watson

In [1]:
%reset -f
import numpy as np
import matplotlib.pyplot as plt
import scipy.optimize
import scipy.sparse
import scipy.stats



  Galton et Watson inventère cette chaine de Markov en 1874.

### Description $\triangleright$

On étudie l’évolution d’une population au cours du temps. On note $Z_t$ la taille de cette
population à la $t$-ième génération et on suppose que la génération initiale comporte un seul
individu, de sorte que $Z_0 = 1$. Tout individu a un nombre aléatoire de descendants, et on
suppose tous ces nombres indépendants et équidistribués. Pour modéliser cette situation, on
introduit une famille $X_{t,i}$ de variables aléatoires indépendantes et équidistribuées à
valeurs dans $\mathbb N$ : $X_{t+1,i}$ sera le nombre de descendants du $i$-ième individu de la $t$-ième génération,
si cet individu existe. On a donc :
$$
Z_{t+1} = \sum_{i=1}^{Z_t} X_{t+1,i}
$$




> ***Proposition:***  $(Z_t)$ est une chaine de Markov.


*Démonstration:*  On a:
\begin{align*}
Z_{t+1} &= \sum_{i=1}^{Z_t} X_{t+1,i}\\
&= \sum_{i=1}^{+\infty} X_{t+1,i} \,  1_{\{i \leq Z_t\}}\\
&= f(Z_t, X_{t+1, 1}, X_{t+1,2}, ...),
\end{align*}


* Les variables $\{X_{t+1, i}\ ;\ i>0\}$ sont indépendantes de $\{X_{s,i}\ ;\ s\leq t\ , i>0\}$.
* Les variables $Z_0,...,Z_t$ sont des fonctions de $\{X_{s,i}\ ;\ s\leq t\ , i>0\}$.
* Donc les variables $\{X_{t+1, i}\ ;\ i>0\}$ sont aussi indépendantes de $Z_0,..,Z_t$.

On a donc la formule requise pour dire que $(Z_t)$ est un chaîne de Markov.


Par ailleurs, cette chaîne de Markov est homogène dans le temps car la fonction $f$ ne dépend pas du temps.

### La loi du nombre d'individus

Notons $g_t$ la fonction génératrice de $Z_t$ définie par:
$$
g_t(s) = \mathbf E[s^{Z_t}]
$$
En particulier nous notons $g=g_1$ la fonction génératrice du nombre d'enfant d'un individu.
$$
g(s) = \mathbf E[s^{X_{1,1}}]
$$
Pour les fonctions génératrices, on utilise toujours la convention $0^0=1$ si bien que:
$$
g(0)=\mathbf E[0^{X_{1,1}}] =\mathbf P[X_{1,1}=0]
$$
Notons $m$ l'espérance de $X_{1,1}$.




#### ♡


$m$ et $g$ sont reliés par la formule:
$$
m = \color{red}{\square \square \square}
$$


Cherchons une formule pour $g_t$. On a en successivement
* $g_0(s) = \mathbf E[s^{1}] = s$
* $g_1(s) =\mathbf E[s^{X_{1,1}}]=  g(s)$
* et ensuite:
$\mathbf  E[s^{Z_{t+1}} / Z_t] = g(s)^{Z_t}$






Détaillons le troisième point. On a d'abord:
$$
\mathbf  E[s^{Z_{t+1}} / Z_t=z] = \mathbf  E[s^{\sum_{i=1}^{z} X_{t+1,i}} / Z_t=z].
$$
En utilisant l'indépendance entre les $X_{t+1,i}$ et $Z_t$, on obtient:
\begin{align*}
\mathbf  E[s^{Z_{t+1}} / Z_t=z]
&= \mathbf  E[s^{\sum_{i=1}^{z} X_{t+1,i}}] \\
&= \prod_{i=1}^z  \mathbf  E[s^{ X_{t+1,i}}] .
\end{align*}
Comme tous les $X_{t+1,i}$ ont la même loi et admettent $g$ comme fonction génératrice, on en déduit:
\begin{align*}
\mathbf  E[s^{Z_{t+1}} / Z_t=z]
&=\mathbf  E[s^{ X_{t+1,1}}] ^z \\
&= g(s)^z
\end{align*}
Ainsi, en remplaçant $z$ par $Z_t$, on a bien
$$
\mathbf  E[s^{Z_{t+1}} / Z_t] = g(s)^{Z_t}.
$$




En passant à l'espérance dans le troisième point:
$$
g_{t+1}(s)= \mathbf  E[s^{Z_{t+1}}] = \mathbf E[g(s)^{Z_t}] = g_t ( g(s) )
$$



On en déduit que $g_{t} = g\circ g\circ \cdots \circ g$.

### Probabilité d'extinction $\triangleright$

Considérons $T$ l'instant d'extinction de la population:
$$
T=\inf \{t : Z_t=0 \}
$$
On s’intéresse en particulier à la probabilité d’extinction $q$ de la population, i.e.
$$
q = \mathbb P[T < \infty]
$$
On remarque d’abord que l’évènement $\{T<\infty \}$ est la réunion croissante de la suite d’évènements
$\{Z_t=0 \}$. Il en résulte que $q$ est la limite de la suite croissante $t\to \mathbb P(Z_t = 0) = g_t(0)$.


Ainsi, en utilisant la continuité de $g$:
$$
q=\lim_t g_t(0) =  \lim_t g_{t+1}(0) = g (\lim_t g_t(0))=g(q)  
$$
On a trouvé une équation pour $q$, mais cette équation a-t-elle une seule solution?







#### ♡♡♡

***A vous:***

Dessinez schématiquement $s\to g(s)$ et $s\to s$ sur un même graphique.

* Dans le cas où $g(0)>0$ et dans les trois sous-cas $m < 1$, $m = 1$, $m > 1$.

* Dans le cas où $g(0)=0$ et dans les trois sous-cas $m < 1$, $m = 1$, $m > 1$.


Pour chaque cas et sous-cas indiquez le nombre de solution de $g(s)=s$.

Aide: N'oubliez pas qu'une fonction génératrice est croissante convexe


Placez sur un des graphiques les points $g_1(0),g_2(0),g_3(0), ...,q $.




### La bonne solution



> ***Proposition:*** $q$ est la plus petite solution de l'équation $g(s) = s$.

Notons $q'$ cette plus petite solution. On a:
$$0\leqslant q'. $$
En appliquant $g$ (fonction croissante) à cette inégalité, on obtient
$$g(0) \leqslant g(q')=q',$$
puis par récurence
$$g_t(0) \leqslant q'.$$
En passant à la limite lorsque $t\to\infty$, on obtient
$$q=\lim g_t(0)\leqslant q',$$
et comme $q$ est une solution de $g(s)=s$, elle ne peut pas être strictement plus petite que la plus petite des solutions, donc finalement $q=q'$.

Écrivons une fonction qui calcule $q$, dont on se servira plus loin:

### Sur/sous-critique

Notons $m=g'(1)= \mathbf  E[X_{1,1}]$. On distingue trois cas:

* $m<1$ : c'est le cas sous-critique, qui implique $q=1$.
* $m=1$ : c'est le cas critique, qui implique aussi $q=1$ à l'exception du cas très particulier $g(s)=s$.
* $m>1$ : c'est le cas sur-critique, qui implique $q\in [0; 1[$.

***A vous:*** Faites correspondre à chacun des cas ci-dessous le bon dessin.  À quoi correspond le cas particulier $g(s)=s$ ?


### Plusieurs individus au départ


#### ♡♡


***A vous:***  Supposons maintenant que la population initiale comporte $k$ individus, i.e. $Z_0 = k$. Quelle est la probabilité d’extinction ?


***Réponse:*** Dans le cas où $Z_0=k$, les $k$ individus initiaux donnent naissance à $k$ arbres indépendants. Notons $T^j$ le temps d'extinction du $j$-ième arbre. La population s'éteint si tous les arbres d'éteignent. Donc l'évèement extinction  est:
$$
\cap_{j=1}^k \{T^j<\infty \}
$$

Chaque $T^j$ étant indépendant, cette proba vaut:
$$
\color{red}{\square \square \square}
$$
où $q$ est la proba d'extinction d'un arbre.

### Calcul numérique de la proba d'extinction

In [2]:
"calcul de la fonction génératrice d'une loi discrète"
def gen(proba,x):
    res=np.zeros_like(x)
    for i,p in enumerate(proba):
        res+=p*x**i

    return res

"essayez avec les deux lois discrètes suivantes"
#proba=np.array([0.5, 0.2, 0.1, 0.2])
proba=np.array([0.2, 0.2, 0.1, 0.5])

m=np.sum(proba*np.arange(len(proba)))
print("espérence du nombre d'enfants:",m)

x=np.linspace(0,1,100)
y=gen(proba,x)

fig,ax=plt.subplots()
ax.plot(x,y)
ax.set_aspect("equal")
ax.plot(x,x);

In [3]:
"cherchons le point d'intersection"
def f(x):
    res=0
    for i,p in enumerate(proba):
        res+=p*x**i
    return res-x

q=scipy.optimize.fsolve(f,0)
q

In [4]:
fig,ax=plt.subplots()
ax.plot(x,y)
ax.set_aspect("equal")
ax.plot(x,x)
ax.plot(q,q,"o");

In [5]:
#résumons les codes suivants dans une fonction
def proba_extinction(X_proba):

    def g(x):
        res = 0
        for i,p in enumerate(X_proba):
            res += p * x**i
        return res

    q = scipy.optimize.fsolve(lambda x : g(x) - x, 0)[0]

    return q

### Simulation

Simulons la chaîne de Markov correspondant au processus de Galton-Watson :

In [6]:
def GW(X_proba, Z0=1, Z_max=1000):

    X_max = len(X_proba)
    Z = []
    Zt = Z0
    while Zt > 0 and Zt < Z_max:
        Z.append(Zt)
        Xt = np.random.choice(a=np.arange(X_max),p=X_proba, size=Zt)
        Zt = np.sum(Xt)
    Z.append(Zt)

    return Z

In [7]:
np.random.seed(7)

X_proba = np.array([0.4, 0.3, 0.2, 0.1])
q = proba_extinction(X_proba)

plt.title(f"Cas sous-critique : q = {q:.2f}")
for _ in range(10):
    plt.plot(GW(X_proba), ".-")

Dans le cas sur-critique, on trace en rouge les trajectoires qui mènent à l'extinction, et en bleu celles qui dépassent un certain seuil et dont on estime qu'elles ne s'éteindront jamais. Par ailleurs, on évalue $q$ empiriquement pour le comparer à sa valeur théorique:

In [8]:
np.random.seed(7)

X_proba = np.array([0.4, 0.1, 0.4, 0.1])
q = proba_extinction(X_proba)

plt.title(f"Cas sur-critique: q = {q:.2f}")
cpt = 0
m = 100
for _ in range(m):
    Z = GW(X_proba, Z_max=100)
    if (Z[-1] == 0):
        cpt += 1
        plt.plot(Z,".-r",alpha=0.1)
    else:
        plt.plot(Z,".-b",alpha=0.1)

print(f"proba d'extinction théorique: {q:.2f}")
print(f"proba d'extinction estimée  : {cpt/m:.2f}")