Compte-tenu de la complexité des règles de recueil de données dans les bases médico-administratives, il est nécessaire de prendre en compte et de modéliser ce type de données de la manière la plus fiable possible, en particulier dans le cadre de sélection de population témoin. Dans un premier temps, il s'agira de tester différentes méthodologies d'échantillonnage pour sélectionner des populations témoins par rapport à des patients atteints de pathologies spécifiques : échantillonnage raisonné, échantillonnage probabiliste, score de propension en grande dimension. Pour ce dernier, nous testerons plusieurs méthodes pour identifier les variables à inclure dans le modèle du score de propension : méthode de régularisation (notamment régression bayésienne, Lasso, Ridge, Elastic Net) ou méthode non paramétrique de type machine learning (notamment Random Forest et Boosting). Cette étude permettra de coupler différentes méthodologies et d'illustrer les différentes stratégies analytiques à partir de données en vie réelle, s'appuyant sur un appariement pour lequel plusieurs témoins pourraient être sélectionnés, rendant les populations les plus comparables possibles à une échelle nationale. Ces méthodes seront appliquées en faisant varier le nombre de témoins à sélectionner et sur plusieurs jeux de données.