[ MAJ du 28/06/2023 : le modèle présenté dans cet article a été étoffé ici.]
Introduction
Cet article est assez technique et est destiné à documenter le calcul de la position d’un salaire dans la distribution des salaires du secteur privé dans notre Observatoire des salaires des enseignants.
Si vous êtes intéressé par les animations de convergence et la précision obtenue, rendez-vous directement dans la dernière partie de l’article, mais si vous avez quelques bases en analyse numérique et êtes intéressé par le type d’interpolation utilisé, vous pourrez trouver dans ce qui suit quelques indications sur la méthode que nous avons utilisée.
Afin d’estimer la distribution des salaires, l’INSEE fournit un certain nombre de quantiles, qui sont en général les premier et dernier déciles, les quartiles, la médiane, ainsi que les 95ème et 99ème centiles.
L’objectif est ici de déterminer une approximation de la fonction de répartition des salaires basée sur les quantiles fournis.
Cette approximation sera réalisée en utilisant :
- des arcs de fonctions cubiques pour la partie centrale située entre les quantiles fournis ;
- un arc d’exponentielle de fonction quadratique pour les valeurs inférieures au plus petit quantile connu (ceci permet une croissance plus forte qu’une simple exponentielle) ;
- un arc d’exponentielle de fonction affine pour les valeurs supérieures au plus grand quantile connu.
La forte croissance de la fonction de répartition des salaires pour les petits quantiles est probablement due à l’existence d’un salaire minimum empêchant aux salaires d’avoir une valeur arbitrairement petite. Étant donné qu’il s’agit d’un trait spécifique au cas étudié ici, les fonctions à utiliser dans d’autres cas de figure dépendront donc des caractéristiques de la fonction de répartition à approximer.
Fonction utilisée pour approximer la fonction de répartition
Supposons connus quantiles d’un échantillon statistique.
Notons , , les points correspondants par lesquels doit passer la fonction de répartition (les ordonnées sont comprises entre 0 et 1 et les abscisses, tout comme les ordonnées, sont classées par ordre croissant).
On cherche une fonction de classe passant par ces points, et paramétrée par le vecteur contenant coefficients, de la forme :
La fonction étant de classe , sa fonction de densité est de classe .
Un raccordement en chacun des points permet d’obtenir équations ( pour les raccordements à droite et à gauche de chaque point, pour le raccordement , et pour le raccordement ).
Afin d’obtenir un système carré, on ajoute une équation de raccordement sur le point ce qui nous donne un total de équations, égal au nombre de paramètres à déterminer.
Système d’équations à résoudre
Le système à résoudre est alors le suivant :
Ce système étant non linéaire, nous procéderons à sa résolution approchée à l’aide de la méthode de Newton. Pour cela, la matrice jacobienne correspondante sera nécessaire.
Matrice jacobienne
Dans ce qui suit, on note : .
Voici les premières colonnes de la matrice jacobienne, elles contiennent les dérivées partielles selon les paramètres à :
Avec :
Pour tout , voici les colonnes à de la matrice jacobienne, elles contiennent les dérivées partielles selon les paramètres à :
Dans ce qui suit, on note .
Voici les dernières colonnes de la matrice jacobienne, elles contiennent les dérivées partielles selon les paramètres à :
Avec :
Résultats
Nous avons testé cette méthode en utilisant les données des salaires nets équivalent temps plein de 2020 (figure complémentaire 4 du fichier xls fourni par l’INSEE sur cette page). Pour cela, nous avons utilisé les 10ème, 25ème, 50ème, 75ème, 90ème et 95ème centiles (qui sont disponibles pour la plupart des années) pour servir de base à l’optimisation, et les autres centiles disponibles (du 5ème au 99ème) pour tester la justesse de notre fonction d’estimation.
La valeur initiale du vecteur de paramètres est déterminée de telle façon que les points servant de base à l’interpolation soient reliés par des segments de droite, et que les exponentielles des intervalles extrêmes soient raccordées de manière au segment le plus proche.
On peut tout d’abord constater une convergence assez rapide. Seules 6 itérations de la méthode de Newton sont nécessaires pour que la norme de la différence entre deux valeurs successives du vecteur de paramètres devienne inférieure à . Le processus de convergence est illustré par les figures 1 et 2.
On peut maintenant comparer l’image de l’ensemble des centiles disponibles dans le tableau de l’INSEE aux valeurs calculées à l’aide de la fonction de répartition obtenue avec notre méthode (Fig 3.). On constate que l’erreur n’excède pas 0,2% jusqu’au 96ème centile inclus, et reste inférieure à 0,5% pour les centiles restants (Fig 4).