Calage avec bagging des composantes principales sur un grand nombre de variables auxiliaires
Caren Hasler  1@  , Yves Tillé  2@  , Arnaud Tripet  2@  
1 : Université de Neuchâtel
2 : Université de Neuchâtel

Le calage, introduit par Deville et Särndal (1992), est une méthode qui consiste à modifier les poids de sondage de telle sorte que les totaux estimés de variables auxiliaires soient cohérents avec des totaux connus ou des totaux obtenus via d'autres sources. Des problèmes surviennent lorsque de nombre de variables auxiliaires sur lesquelles on souhaite caler nos poids, appelées variables de calage, est important. Par exemple, la variance de l'estimateur du total a tendance à croître et les poids obtenus par calage peuvent devenir très dispersés lorsque le nombre de variables de calage augmente. Nous proposons deux solutions pour le calage dans ce contexte de haute dimension. Nous nous inspirons du bagging. Des échantillons bootstrap de variables de calage sont sélectionnés parmi des variables candidates au calage. Un système de poids est obtenu pour chaque échantillon bootstrap. Les poids finaux sont les poids moyens de ces différents systèmes de poids. Deux alternatives sont proposées pour sélectionner les échantillons bootstrap de variables de calage: une sélection à probabilités égales parmi les variables auxiliaires et une sélection à probabilités inégales parmi les composantes principales des variables auxiliaires. Pour les deux alternatives, il est possible de caler exactement sur certaines variables auxiliaires principales. Pour les autres variables auxiliaires, les poids ne sont pas calés exactement. Les solutions proposées permettent d'obtenir un estimateur du total dont la variance n'explose pas lorsque de nouvelles variables auxiliaires sont ajoutées. Ensuite, nos solutions permettent d'obtenir des poids très peu dispersés. Finalement, nos solutions permettent d'obtenir un unique système de poids pouvant être appliqué à de multiples variables d'intérêt d'une enquête. Nous étudions la performance des estimateurs et la dispersion des poids obtenus au moyen d'une étude par simulations.


Personnes connectées : 2 Vie privée
Chargement...