Les déterminants de l’espérance de vie : une analyse de la significativité des variables explicatives

Axel-Cleris Gailloty

28/12/2019


1 Introduction

L’Organisation Mondiale de la Santé (OMS), par le biais de sa cellule Observatoire Mondiale de la Santé, collecte des données relatives à la santé, aux maladies, à l’espérance de vie et au niveau de développement des pays et territoires du monde. Les données qu’elle collecte nous permettent d’apprécier à l’échelle mondiale les différences qui existent entre les pays en termes d’accès aux soins et la qualité de vie. L’OMS publie de manière régulière des rapports et des recommandations. Selon l’INSEE, l’espérance de vie à la naissance est la durée de vie moyenne d’une génération fictive soumise aux conditions de mortalité de l’année. Elle caractérise la mortalité indépendamment de la structure par âge.

Avec le PIB et le niveau d’éducation, l’espérance de vie est un des indicateurs de l’indice humain du développement (IDH). L’espérance de vie varie fortement entre les pays et bien souvent dans la littérature économique, on se contente uniquement de l’évoquer sans se pencher en profondeur sur le processus qui peut générer. C’est pour cette raison que dans le cadre de ce projet je pose comme problématique :

1.1 Problématique

D’un point de vue économique, quels sont les indicateurs qui expliquent les mieux la variabilité entre la distribution de l’espérance de vie entre les pays ?

Il s’agit dans cette étude, de se pencher sur certains indicateurs qui servent à mesurer les différences de niveau de vie entre les pays afin de déterminer lesquels ont un impact sur l’espérance et dans quelle direction ces indicateurs impactent l’espérance de vie.

2 Le modèle économétrique

Le modèle économétrique que nous allons construire se pose comme une explication de l’espérance de vie en fonction des variables exogènes.

3 Le jeu de données

3.1 Description des variables

Le jeu de données contient initialement 2938 observations pour 22 variables. Il s’agit en fait d’une donnée panel car elle comporte les données de tous les pays à différentes périodes de temps. Mais dans le cadre de ce projet, nous nous intéressons à une coupe instantanée, c’est-à-dire à une photographie des pays à une année données, en l’occurrence aux données de l’année 2015.

La raison du choix de l’année 2015 est qu’il s’agit des données les plus récentes dont nous disposons. Pour l’année 2015 que nous avons sélectionnée, il y a 183 observations. Le tableau suivant liste le nombre des variables qui composent le jeu de données et affiche le nombre de données manquantes pour chacune.

3.2 Imputation des données manquantes

Une description exhaustive de chacune des colonnes est présentée dans les annexes de ce document. Comme nous l’observons à partir du tableau, certaines colonnes contiennent des valeurs manquantes. Etant donné que nous aimerions réaliser l’étude sur tous les pays du monde, nous allons chercher des stratégies pour imputer les valeurs manquantes de certaines colonnes. Les variables mesurant la consommation d’alcool par les adultes (alcohol) et les dépenses publiques engagées pour la santé (total_expenditure) ont un pourcentage de données manquantes supérieur à 90%, il n’est donc pas pertinent de les retenir dans l’analyse.

Les colonnes GDP et population qui ont respectivement des pourcentages de données manquantes de 15% et 22% peuvent facilement être imputées en recherchant les valeurs manquantes pour les pays concernés en ligne. Etant donnée la difficulté de réaliser avec STATA l’opération qui consiste à chercher de manière itérative pour chaque colonne les pays pour lesquels les données sont manquantes, j’ai dû écrire un code avec R pour déterminer programmatiquement les pays qui ont des données manquantes dans chacune des variables. Le code que j’ai écrit ainsi que les sorties de R sont en annexe de ce document. Je me suis rendu sur le site de la banque mondiale pour retrouver les données manquantes des pays, grâce à des scripts que j’ai écrit en R j’ai pu imputer les données manquantes. Toutefois je n’ai pas pu trouver toutes les données, la Corée du Nord et la Somalie ont souvent des données non disponibles.

3.3 Statistiques descriptives

A partir des statistiques descriptives contenues dans ce tableau, nous relevons que : L’espérance de vie moyenne dans le monde est de 71.61 ans. En moyenne les personnes vivent un peu plus de 71. Toutefois nous observons en même temps un écart-type assez important de 8 ans. L’espérance de vie la plus faible est de 51 tandis que la plus grande est de 88 ans. La rougeole (variable measle) a un écart-type trop important, plus de 5 fois la moyenne, il y a donc pour cette variable une très grande variabilité entre les pays. Le nombre moyen d’années d’études dans le monde est à peu près de 13 ans.

3.3.1 Analyse des corrélations

L’analyse des corrélations nous permet de quantifier l’association entre les variables quantitatives. Nous pouvons voir dans quel sens les variables sont liées. Une corrélation positive signifie que les variables évoluent dans le même sens, et dans un sens inverse si le coefficient de corrélation est négatif.

L’analyse des corrélations montre que l’espérance de vie est négativement corrélée avec le taux de mortalité, le taux de mortalité infantile, la prévalence de la rougeole, la prévalence du sida, la malnutrition. Cela veut dire que ces variables ont une influence négative sur l’espérance de vie, autrement dit plus ces variables augmentent moins est l’espérance de vie.

D’un autre côté on observe que le nombre d’années d’études, les vaccinations contre la polio, l’hépatite B et la diphtérie qui sont des maladies infectieuses, le nombre de la population, le PIB par tête ont une influence positive sur l’espérance de vie.

Si l’analyse des corrélations nous permet de voir dans quel sens les variables sont liés, elle ne nous dit cependant pas s’il y a une causalité entre les variables. Il est donc important de réaliser une régression sur les déterminer le sens de la causalité entre les variables.

4 La régression linéaire multiple

La régression linéaire multiple nous permet d’expliquer l’espérance de vie comme une fonction linéaire des variables explicatives. Avant d’estimer les paramètres, il semble important de rappeler le but et les hypothèses du modèle de régression linéaire multiple. La régression linéaire multiple nous permet d’estimer le coefficient des variables. Le théorème Gauss-Markov montre que l’estimateur des moindres carrés ordinaires (MCO) est le meilleur estimateur sans biais des estimateurs linéaires.

Voici la liste des hypothèses des moindres carrés ordinateurs :

  • H1 : L’espérance des erreurs est nulle

  • H2 : Les variables sont certaines

  • H3 : Toutes les variables apportent une information supplémentaire : aucune variable ne doit être la combinaison linéaire des autres variables.

  • H4 : Les erreurs ne sont pas corrélées

  • H5 : La variance des erreurs est constante

  • H6 : Les erreurs suivent une loi normale

Si ces hypothèses sont vérifiées alors l’estimateur est BLUE (best linear unbiased estimateur).

4.1 Les tests

Pour que le théorème de Gauss-Markov soit vérifié pour notre modèle, nous devons d’abord réaliser des tests sur le modèle. Il existe deux ensembles de tests : les tests de spécifications sur la régression et les tests de restrictions sur le modèle. Nous utilisons les tests de spécifications au préalable à l’estimation, puis nous réaliserons les tests de restrictions après avoir estimé les coefficients.

4.1.1 Le test d’hétéroscédasticité

Le test d’hétéroscédasticité permet de tester la constance de la variance des erreurs. Pour réaliser ce test, nous faisons une régression linéaire multiple, puis nous estimons les résidus. Ensuite nous faisons une régression sur les résidus et observons le test de Fisher.

Nous rejetons donc l’hypothèse d’hétéroscédasticité des résidus car la valeur critique du test de Fisher est largement supérieure au seuil de 5%.

Il existe également le test d’autocorrélation des erreurs, mais ce test n’est pertinent que pour les séries temporelles. Nous allons maintenant estimer les coefficients de notre modèle en prenant l’ensemble des variables exogènes.

4.2 Le modèle linéaire

Nous allons estimer les paramètres du modèle. Il s’agit d’expliquer l’espérance de vie comme une fonction linéaire des variables exogènes. L’équation du modèle est la suivante : nous mettons entre parenthèses l’écart-type du coefficient.

\(Life_expectancy = 50.968 (1.99) – 0.199 (0.003) *adult_mortality + 0.314 (0.729) * developed\) \(+ 0.072 (0.297) * infant_death + 0.005 (.007) * percentage_expenditure\) $+ 0.035 (0.218) * hepatitis_b + 0.000 (0.000) * measles -0.005 \((0.013)\) * bmi -0.053 (0.021) * under_five_death + 0.012 (0.012) *$ \(polio -0.008 (0.025) * diphteria -0.628 (0.208) * hiv_aids -0.000\) \((0.000) * gdp + 0.000 (0.000) * population -0.126 (0.072) *\) \(thinness_1_19_years + 30.174\)

Le modèle ainsi présenté nous donne les coefficients associés à chacune des variables. Nous pouvons résumer dans un tableau le signe de chaque variable sur l’espérance de vie.

Les influences des variables sur l’espérance viennent d’être résumées dans ce tableau. Certaines variables ont très peu d’influence. Toutefois rien ne nous assure la constance des coefficients ni si l’influence de ces coefficients sur l’espérance de vie est due au hasard. Nous devons donc effectuer des tests de restrictions sur le modèle linéaire. Il nous faut donc effectuer des tests de restriction sur le modèle. Nous effectuons dans le cadre de ce projet deux tests de restrictions dur le modèle qui sont le test de significativité de Fisher et le test de significativité des coefficients.

4.2.1 Test de significativité globale

Il est important de tester la significativité globale du modèle. Pour ce faire nous utilisons le test de Fisher qui est formulé en ces termes :

  • H0 : l’ensemble des coefficients est nul

  • H1 : au moins un des coefficients est non nul

Le test de significativité globale du modèle montre qu’au moins un des coefficients du modèle est non nul, donc le modèle a un intérêt à être considéré.

4.3 Test de significativité des coefficients

Le test de significativité des coefficients se base sur les hypothèses initiales des MCO. La statistique du test se base sur la valeur du coefficient divisé par son erreur-type. Le nombre obtenu par la division du coefficient par l’erreur type est ce qu’on appelle le t de Student. Si la valeur absolue du t de Student est supérieur ou égale 1.96 alors le coefficient est significatif au seuil de 5% car 95% des réalisations d’une loi gaussienne centrée réduite se situe dans l’intervalle -1.96 et 1.96. Un moyen simple de repérer la significativité des coefficients est de se référer au test de Student réalisé sur la statistique obtenue. Le tableau suivant montre la significativité des coefficients. Tous les coefficients pour lesquels la P>|t| est inférieure à 5% est significatif.

Au regard du test de significativité des coefficients, nous observons que seules cinq des variables du modèle et la constante ont une significativité au seuil de 5%. Ce sont :

  • La mortalité des adulte (adult_mortality)

  • La mortalité infantile (infant_death)

  • La mortalité des enfants <5 ans (under_five_death)

  • La prévalence du VIH SIDA (hiv_aids)

  • La part du revenu dans les ressources (income_composition_of_resources)

La significativité d’un coefficient traduit sa constance. En effet avec une faible erreur-type nous avons un degré de confiance plus important dans le coefficient et nous pouvons affirmer que l’influence de la variable considérée sur la variable endogène n’est pas le fait de l’aléa.

4.4 Le critère du jugement de la qualité d’ajustement du modèle

Un élément qui nous permet de tester le pouvoir explicatif du modèle que nous avons retenu pour expliquer l’espérance de vie est la qualité de l’ajustement du modèle R2. Ce critère nous indique le pourcentage de la variance de la variable endogène qui est expliqué par le modèle. La valeur du R2 varie entre 0 et 1.

Nous interprétons ici le R2 ajusté qui est de 88.16%. Le R2 ajusté prend en compte l’ajout des variables supplémentaires dans le modèle car le R2 a tendance à augmenter artificiellement avec le nombre de variables ajoutées dans le modèle.

Nous pouvons donc dire que le modèle que nous avons construit permet d’expliquer 88.16% de la variance de l’espérance de vie.

4.5 Test de normalité des résidus

Le test de Skewness/Kurtosis teste la normalité d’une distribution. Ici nous testons si les résidus du modèle suivent une loi normale comme on l’a mentionnée dans la 6e hypothèse des MCO. L’hypothèse nulle de ce test est que la variable a une distribution normale, donc si la p-value est supérieure à supérieure à 5%, on retient que la variable suit une distribution normale.

4.6 Autre spécification : modèle avec transformations logarithmiques et effets d’interactions

Le but de la nouvelle spécification que nous décidons de donner au modèle est d’obtenir des réponses claires aux hypothèses de recherches qui ont motivées ce travail. Nous allons procéder à des transformations de nos colonnes afin de :

  • Saisir des relations non linéaires que le premier modèle n’arrive pas à rendre compte

  • Explorer les effets d’interactions entre les variables

  • Enlever d’éventuels effets de taille en discrétisant les colonnes quantitatives

Dans le premier modèle que nous avons estimé, il ressort que le niveau d’éducation n’a pas un impact significatif sur l’espérance de vie. Nous allons transformer cette variable en une variable indicatrice qui indique un seuil de niveau d’éducation, en l’occurrence <=10 années d’études et plus de 10 années d’études. Nous profiterons de cette variable indicatrice pour étudier l’interaction existant entre le niveau de développement et le niveau d’éducation.

Nous transformons la variable mesurant l’indice de masse corporelle en logarithme pour étudier sa variation en pourcentage toute chose égale par ailleurs.

Nous allons également transformer le PIB par habitant en 4 catégories distinctes : moins de 3000 dollars, entre 3000 et 12000 dollars, entre 12000 et 30000 dollars et plus de 30000 dollars.

Enfin nous allons étudier le carré de la composition des ressources afin d’observer s’il existe un effet de seuil, cela nous permettrait éventuellement, en cas de significativité, d’étudier l’apport marginal de l’augmentation des dépenses de santé sur l’espérance de vie.

Voici donc les résultats de l’estimation de la nouvelle spécification du modèle.

Malgré l’ajout des variables catégorielles, de la transformation logarithmique et des effets d’interactions, nous observons que les coefficients que nous observons ne sont toujours pas significatives au seuil de 5%.

4.7 Méthode de sélection du meilleur modèle

Nous voyons que malgré les transformations que nous avions faites sur les variables, nous avons trouvé très peu de variables significatives. Or il se trouve que selon qu’on enlève ou ajoute des variables dans le modèle le degré de significativité de certaines variables peut varier, voilà pourquoi nous allons utiliser une méthode de sélection automatique des variables. Cette méthode se base sur les critères d’information tels que le critère d’information d’Akaike (AIC) ou le critère d’information bayésien (BIC) pour mesurer l’importance d’une variable dans le modèle. Nous choisissons la méthode appelée stepwise selection regression ou régression pas à pas. Nous fixons un seuil de 10% de significativité et nous appliquons la méthode.

Cette méthode fonctionne en deux étapes : dans un premier temps elle construit un modèle où il n’y a que la constante ensuite elle ajoute au fur et à mesure une variable, elle calcule le critère d’information et si la nouvelle variable minimise le critère d’information elle l’inclut dans le modèle puis elle ajoute une nouvelle variable et calcule le critère d’information et ainsi de suite. C’est la méthode forward selection.

Dans une deuxième étape, la méthode construit un modèle avec toutes les variables exogènes puis enlève une variable et calcule le critère d’information et si cette variable enlevée minimise le critère alors elle est enlevée du modèle, l’opération se réitère ainsi de suite (backward selection).

Le stepwise combine les deux étapes afin de déterminer le modèle optimal.
Lorsque nous réalisons cela sur STATA, nous trouvons :

Plusieurs des variables sont enlevées du modèle pour minimiser le critère d’information choisie au seuil que nous avons fixé qui est de 10%. Voilà donc le modèle optimal final qui minimise le critère d’information :

Nous pouvons expliquer ces résultats de la manière suivante : La mort d’une personne sur mille supplémentaire

5 Réponses aux hypothèses de la problématique

Il convient dans cette partie de répondre, aux vues des résultats que nous avons trouvés jusqu’ici, aux questions qui nous ont motivées dans le cadre de ce travail.

Rappelons les hypothèses que nous avons posées au début du travail :

  • Les pays développés ont en moyenne une espérance de vie plus élevée que les pays en voie de développement.

  • Les pays dont le niveau d’éducation est élevé présentent en moyenne une plus grande espérance de vie.

  • Il existe une relation négative entre le revenu par habitant et les taux de mortalités.

  • Les pays en voie de développement ont en moyenne une prévalence plus forte pour certaines maladies contagieuses.

  • Le niveau d’éducation contribue positivement à l’espérance de vie des pays.

  • La malnutrition a un effet négatif sur l’espérance de vie des pays.

5.1 Différence dans le niveau de vie

Nous allons tester nos deux premières hypothèses concernant la différence entre le niveau de l’espérance de vie en réalisant des tests de comparaison des moyennes.

Il existe bel et bien une différence significative entre l’espérance de vie des pays développés et celle des pays en voie de développement. Dans les pays développés, en moyenne l’espérance de vie est comprise dans l’intervalle de 79 à 82 ans alors que dans les pays en voie de développement elle est comprise entre 68 et 71 ans.

Testons maintenant la différence entre l’espérance de vie des pays dont le nombre moyen d’années d’éducation est supérieur à 12 ans et l’espérance de vie des pays dont le nombre moyen d’éducation est inférieur à 12 ans.

Comme nous l’avons observé lorsque nous comparions l’espérance de vie des pays développés à celle des pays en voie de développement, il existe également une différence significative entre le niveau de l’espérance de vie des pays dont le nombre d’années d’éducation est supérieur à 12 ans et celui des pays dont le niveau d’éducation est faible en moyenne.

5.2 Relation entre le revenu par habitant et la mortalité

La corrélation entre le revenu par habitant et le taux de mortalité est de -37,42. Pour vérifier si cette corrélation n’est pas fortuite nous avons construit un modèle de régression linéaire simple pour rendre compte de la causalité.

Le lien est bien significatif. La mortalité des adultes dépend bien du revenu par habitant et cette relation est négative.

5.3 L’effet de la prévalence du VIH SIDA

Nous observons que la seule variable significative concernant les maladies est la prévalence pour le VIH SIDA qui a un effet négatif sur l’espérance de vie des pays. Dans tous les modèles que nous avons construits cette variable s’est toujours révélée significative, cela montre bien sa pertinence dans le cadre de cette étude. Dans le dernier modèle construit, son coefficient des est -0.64. Etant donné que cette variable mesure le nombre de personnes sur mille qui sont mortes du VIH, on peut interpréter ce coefficient comme une augmentation d’un millième de personne qui meurt du SIDA entraîne une baisse de l’espérance de 0.64 années toutes choses égales par ailleurs.

6 Limite du sujet

Risque d’endogénéité : l’espérance de vie n’est pas entièrement isolée de certaines variables. Par exemple on peut clairement identifier que la mortalité des adultes influence l’espérance de vie d’un pays car le calcul de l’espérance prend indirectement en compte la mortalité dans un pays. Il en est de même pour la mortalité infantile.

Un élément qui est lié à la limite précédente est le fait que l’espérance de vie est une variable agrégée au niveau d’un pays. Il est calculé sur base des estimations statistiques et n’est pas en cela une variable totalement aléatoire. De plus au sein d’un même pays il peut exister une grande disparité au niveau de l’espérance de vie.

Bien que le modèle final que nous avons retenu arrive à expliquer 88,55% de la variance de l’espérance de vie nous ne pouvons pas conclure que ce modèle est le meilleur car nous n’avons pas une liste exhaustive de toutes les variables qui pourraient expliquer l’espérance de vie.

7 Conclusion

L’espérance de vie demeure aujourd’hui l’un des principaux indicateurs utilisés pour évaluer le développement humain d’un pays ou d’une région en particulier. La régression linéaire ainsi que les tests qui l’accompagnent nous ont permis de déterminer l’influence des variables aussi variées comme la mortalité, l’éducation, le PIB par habitants sur l’espérance de vie des pays.

Toutefois que nous ayons construit plusieurs modèles économétriques pour expliquer la variance de l’espérance de vie, le sentiment d’incomplétude demeure car nous ne trouvons pas de réponses exactes à la problématique de notre étude. La plupart des variables se sont révélées non significatives dans l’explication de l’espérance de vie. Toutefois en réalisant cette analyse nous avons répondu à certaines de nos hypothèses de recherches. Nous voyons que d’une manière descriptive, les pays développés ont une espérance de vie supérieure aux pays en voie de développement. Nous observons également les pays dont le niveau d’éducation est élevé ont également une espérance de vie supérieure. Toutefois aucune de ces statistiques n’ont pu être prouvées économétriquement dans les nombreuses spécifications de modèles que nous avons construites.