Le Monde des Utilisateurs de L'Analyse de Données

Numéro 42

 
 

L’arbre à nœuds probabilistes: Une nouvelle approche à la construction d’arbres de  prédictions..
Antoinio Ciampi.  La revue MODULAD, numéro 42, 2010.

Résumé
Nous montrons la connexion entre, d’une part, l’analyse de données symboliques, et, d’autre part, certains algorithmes d’apprentissage supervisé pour la prédiction d’une variable réponse qualitative ou quantitative. Dans le contexte des données symboliques, nous avions développé un algorithme de prédiction à arbre; cela nous avait permis de traiter des données imprécises et de construire des arbres de prédiction classiques à partir de ce type de données. Par la suite, nous avons repris le problème de la construction d’arbres pour des données précises (numérique), mais en permettant des nœuds probabilistes ou ‘tendres’, c'est-à-dire des nœuds correspondant à des décisions probabiliste du type : ‘aller à gauche avec probabilité p et à droite avec probabilité 1-p’. Un tel arbre décrit la distribution prédictive conditionnelle de la variable réponse comme un mélange de distributions, tel que les coefficients des composantes du mélange dépendent des variables : ces coefficients sont en effet des produits de fonctions sigmoïdes de certaines variables de prédiction choisies par l’algorithme guidé par les données.  Nous décrivons une approche EM pour l’estimation des paramètres du modèle correspondant. La méthode a été évaluée par des simulations et des analyses de données réelles. Nous discutons, pour conclure, les avantages et les limites de ce type d’arbre en comparaison avec les arbres conventionnels.

Mots clés 
apprentissage supervisé, prédictions, arbre à nœuds probabilistes, données symboliques, données imprécises.

Abstract
We show the connection between symbolic data analysis (SDA) and certain algorithms of supervised learning for the prediction of a continuous or categorical outcome. In the context of SDA, we had previously developed a tree-growing algorithm which allowed us to handle imprecise data and to construct classical prediction trees from such data. Later we went back to tree-growing for classical (numerical) data, and proposed the notion of probabilistic or soft node, that is a node representing a decision of the type: ‘go left with probability p and go right with probability 1-p’. Such a tree-shaped predictor describes the conditional predictive distribution of the outcome as a mixture of distributions, with mixing coefficients which are functions of certain predictor variables chosen by the algorithms guided by the data. We describe an EM approach to the estimation of the predictive model parameters. The method is evaluated by simulation and real data analyses. In conclusion, we discuss the advantages and the limitations of the tree with soft nodes in comparison with conventional prediction trees.

Key words 
supervised learning, prediction, trees with soft nodes, symbolic data analysis, imprecise data.

Article