Détection de profils conditionnels dans des matrices creuses pour la sélection génomique
Résumé
L'objectif de cet article est de proposer une méthodologie statistique pour détecter des profils conditionnels particuliers, appelés profils sparse-spécifiques. Ces profils correspondent à des signatures moléculaires caractérisant la présence d'une sélection génomique. L'approche proposée s'appuie sur une classification hiérarchique obtenue à partir d'une nouvelle dissimilarité appelée $d^2_s$. Par une approche théorique, appuyée
par des simulations, nous montrons que $d^2_s$ est adaptée à la détection de profils sparse-spécifiques, notamment dans le cas de matrices de contingences creuses. L'application de notre méthodologie à un jeu de données traitant de la sélection génomique chez le chien domestique illustre également les avantages de notre dissimilarité $d^2_s$ par rapport à des dissimilarités classiques comme les distances du $\chi_2$ et $d^2_s$.