Score de propension en grande dimension: appariement à une population témoin dans des données nationales de santé
Jonathan Cottenet  1@  , Catherine Quantin  2@  , Camelia Goga  3@  
1 : CHRU Dijon
UMR 6303 CNRS-Université de Bourgogne Franche-Comté, BP 47870, F-21078 Dijon Cedex
2 : CHU Dijon, DIM, Inserm, CIC 1432, Dijon, France ; Université Paris-Saclay, UVSQ, Univ. Paris-Sud, Inserm, High-Dimensional Biostatistics for Drug Safety and Genomics, CESP, Villejuif, France
Centre Hospitalier Universitaire de Dijon - Hôpital François Mitterrand
3 : LMB, Université de Franche-Comté
Université de Franche Comté, Université de Franche-Comté

Compte-tenu de la complexité des règles de recueil de données dans les bases médico-administratives, il est nécessaire de prendre en compte et de modéliser ce type de données de la manière la plus fiable possible, en particulier dans le cadre de sélection de population témoin. Dans un premier temps, il s'agira de tester différentes méthodologies d'échantillonnage pour sélectionner des populations témoins par rapport à des patients atteints de pathologies spécifiques : échantillonnage raisonné, échantillonnage probabiliste, score de propension en grande dimension. Pour ce dernier, nous testerons plusieurs méthodes pour identifier les variables à inclure dans le modèle du score de propension : méthode de régularisation (notamment régression bayésienne, Lasso, Ridge, Elastic Net) ou méthode non paramétrique de type machine learning (notamment Random Forest et Boosting). Cette étude permettra de coupler différentes méthodologies et d'illustrer les différentes stratégies analytiques à partir de données en vie réelle, s'appuyant sur un appariement pour lequel plusieurs témoins pourraient être sélectionnés, rendant les populations les plus comparables possibles à une échelle nationale. Ces méthodes seront appliquées en faisant varier le nombre de témoins à sélectionner et sur plusieurs jeux de données.


Personnes connectées : 2 Vie privée
Chargement...