Cet article poursuit le travail commencé ici en procédant à une généralisation du modèle utilisé.
Introduction
Cet article est assez technique et est destiné à documenter le calcul de la position d’un salaire dans la distribution des salaires du secteur privé dans notre Observatoire des salaires des enseignants ainsi que sur notre page Où vous trouvez-vous sur l’échelle des salaires ?.
Si vous êtes intéressé par les animations de convergence et la précision obtenue, rendez-vous directement dans la dernière partie de l’article, mais si vous avez quelques bases en analyse numérique et êtes intéressé par le type d’interpolation utilisé, vous pourrez trouver dans ce qui suit quelques indications sur la méthode que nous avons utilisée.
Modèle de fonction de répartition utilisé
Supposons connus quantiles d’une série statistique.
Notons , , … les points correspondants par lesquels doit passer la courbe de la fonction de répartition (les ordonnées sont comprises entre et et les abscisses, tout comme les ordonnées, sont classées par ordre croissant).
Plusieurs modèles de fonction de répartition seront ici possibles.
Le choix d’un modèle est conditionné par les valeurs des paramètres suivants :
- : paramètre valant si le polynôme utilisé dans la branche asymptotique gauche est une fonction affine, et valant s’il sagit d’un trinôme du second degré ;
- : paramètre valant si le polynôme utilisé dans la branche asymptotique droite est une fonction affine, et valant s’il sagit d’un trinôme du second degré ;
- : fonction pouvant être l’identité ou bien la fonction (logarithme népérien) ; dans le premier cas, les valeurs possibles des quantiles appartiennent à , dans le second, elles appartiennent à .
La fonction de répartition est alors modélisée par la fonction de classe paramétrée par , et (choisis au préalables) ainsi que le vecteur contenant coefficients (dont les valeurs seront déterminées au cours de l’optimisation), de la forme :
La fonction étant de classe , sa dérivée, la fonction de densité est de classe . Celle-ci s’exprime de la façon suivante :
Système d’équations à résoudre
Un raccordement pour en chacun des points permet d’obtenir équations ( pour les raccordements à droite et à gauche de chaque point, pour le raccordement , et pour le raccordement ).
Afin d’obtenir un système carré, on ajoute une équation de raccordement sur le point lorsque vaut et sur le point lorsque vaut , ce qui nous donne un total de équations, égal au nombre de paramètres à déterminer.
Le système à résoudre est alors le suivant :
Ce système étant non linéaire, nous procéderons à sa résolution approchée à l’aide de la méthode de Newton. Pour cela, la matrice jacobienne correspondante sera nécessaire.
De plus, la fonction objectif dont on cherche un zéro est donnée par les membres de gauche des égalités du système d’équations.
Matrice jacobienne
Dans ce qui suit, on note : .
Voici les premières colonnes de la matrice jacobienne, elles contiennent les dérivées partielles par rapport aux paramètres à :
Avec :
Pour tout , voici les colonnes à de la matrice jacobienne, elles contiennent les dérivées partielles par rapport aux paramètres à :
Dans ce qui suit, on note .
Voici les dernières colonnes de la matrice jacobienne, elles contiennent les dérivées partielles par rapport aux paramètres à :
Avec :
On notera que la ligne et la colonne contenant ne sont présentes que lorsque , et que la ligne et la colonne contenant ne sont présentes que lorsque .
Test du modèle avec la répartition des salaires nets en France
L’INSEE fournit, pour les années , et , les centiles des salaires nets du ème au ème centiles.
Cependant l’INSEE ne fournit qu’une poignée de centiles pour les années précédentes.
Il s’agit en général des ème, ème, ème, ème, ème, ème et ème centiles.
L’objectif est alors d’utiliser ces centiles, nous donnant donc points sur la courbe de la fonction de répartition, comme jeu d’entraînement pour notre modèle ; les centiles restants tenant alors lieu de jeu de validation.
On constate que les erreurs entre notre modèle et le jeu de validation sont minimales lorsque et .
Lorsque l’erreur maximale en valeur absolue peut être divisée jusqu’à 4 par rapport à , tandis que l’erreur en valeur absolue moyenne peut quant à elle augmenter jusqu’à . Afin de minimiser l’erreur maximale, nous avons choisi .