L'estimation de la pauvreté nécessite des données sur le revenu ou les dépenses de consommation, ces données sont généralement collectées par les bureaux nationaux de statistique à travers les enquêtes sur les dépenses des ménages. Ces enquêtes nécessitent un budget coûteux que les agences statistiques ne peuvent pas se permettre chaque année ou à des intervalles courts. En général, de telles enquêtes sont menées tous les 4 à 7 ans. Par conséquent, les chercheurs se trouvent confrontés à une contrainte de mise à niveau des données lorsqu'il est nécessaire de mettre à jour les indicateurs de pauvreté. D'autre part, les enquêtes sur l'emploi ou sur la force de travail (LFS), qui dispose d'un questionnaire relativement léger, est moins coûteuse. Les enquêtes LFS sont menées régulièrement chaque année et parfois à des intervalles trimestriels. Elles constituent une source d'informations riche sur les ménages, notamment le statut économique et social des ménages, la démographie et les conditions de vie. De plus, la plupart des caractéristiques mentionnées sont considérées comme des sections communes dans les questionnaires des deux enquêtes.
La méthodologie consistait à utiliser la modélisation prédictive en conjonction avec l'imputation multiple. Nous avons adopté une approche d'apprentissage automatique pour construire des modèles de prédiction des dépenses de consommation des ménages sur la base des données de l'Enquête Nationale sur la Consommation et les Dépenses des Ménages 2014. Nous avons utilisé une techniques d'imputation croisée pour imputer la consommation dans l'enquête sur l'emploi dans le but d'estimer le taux de pauvreté pour les périodes où la distribution de la consommation n'est pas disponible. Deux types de modèles ont été entraînés séparément pour les zones rurales et urbaines, les modèles linéaires ont révélé une bonne performance de prédiction, mais avec une surestimation, laissant soupçonner un biais dans l'estimation de la proportion sous le seuil de pauvreté. En revanche, la méthode de forêt aléatoire donne de meilleurs résultats, en particulier en zone urbaine.