Algorithme à estimation de distribution
Les algorithmes à estimation de distribution (Modèle:Lang, EDA, en anglais) forment une famille de métaheuristiques inspirée des algorithmes génétiques. Ils sont utilisés pour résoudre des problèmes d'optimisation, via la manipulation d'un échantillonnage de la fonction décrivant la qualité des solutions possibles. Comme toutes les métaheuristiques utilisant une population de points, ils sont itératifs.
À l'inverse des algorithmes évolutionnaires « classiques », le cœur de la méthode consiste à estimer les relations entre les différentes variables d'un problème d'optimisation, grâce à l'estimation d'une distribution de probabilité, associée à chaque point de l'échantillon. Ils n'emploient donc pas d'opérateurs de croisement ou de mutation, l'échantillon étant directement construit à partir des paramètres de distribution, estimés à l'itération précédente.
Algorithme
Le vocabulaire lié aux algorithmes à estimation de distribution est emprunté à celui des algorithmes évolutionnaires, on parlera donc de « population d'individus » plutôt que d'« échantillon de points », ou de « fitness » plutôt que de « fonction objectif », néanmoins, tous ces termes ont la même signification.
Algorithme général
L'algorithme de base procède de la manière suivante pour chaque itération :
- tirage aléatoire d'un ensemble de points suivant une distribution de probabilité donnée,
- sélection des meilleurs points,
- extraction des paramètres de la distribution de probabilité décrivant la répartition de ces points.
Plus précisément, l'algorithme procède comme suit :
<poem> Tirer au hasard M individus, pour former une population D0. i = 0 Tant qu'un critère d'arrêt n'est pas vérifié : </poem>
<poem> i = i + 1 Sélectionner N individus (avec N < M) dans la population précédente (Di-1), pour former la population :<math>D^S_{i-1}</math>. Estimer une distribution de probabilité Modèle:Math, décrivant la répartition de la population DModèle:Indexp. Tirer au hasard M individus dans Modèle:Math. </poem>
Fin de la boucle.
Exemple pour le problème « one max »
Dans le problème du « one max », on cherche à maximiser le nombre de 1 sur un nombre de dimensions donné. Pour un problème à 3 dimensions, une solution Modèle:Math aura donc une meilleure qualité qu'une solution Modèle:Math, l'optimum étant Modèle:Math. On cherche donc à maximiser une fonction <math>f(x) = \sum_{i=1}^3 x_i</math>, où Modèle:Mvar peut prendre la valeur 0 ou 1.
La première étape consiste à tirer au hasard les individus, avec pour chaque variable, une chance sur deux de tirer un 1 ou un 0. Dit autrement, on utilise une distribution de probabilité <math>p_0(x) = \prod_{i=1}^3 p_0(x_i)</math>, où Modèle:Math est la probabilité que chaque élément soit égal à 1. La distribution est donc factorisée comme un produit de 3 distributions marginales univariantes de Bernoulli, de paramètre 0,5.
Exemple de tirage de la population Modèle:Math, avec une population de 6 individus, la dernière ligne indique la probabilité Modèle:Math pour chaque variable :
Modèle:Mvar | Modèle:Math | Modèle:Math | Modèle:Math | Modèle:Math |
1 | 0 | 1 | 0 | 1 |
2 | 0 | 1 | 0 | 1 |
3 | 1 | 0 | 1 | 2 |
4 | 1 | 0 | 1 | 2 |
5 | 0 | 1 | 1 | 2 |
6 | 1 | 0 | 0 | 1 |
Modèle:Math | 0.5 | 0.5 | 0.5 |
L'étape suivante consiste en la sélection des meilleurs individus, pour former Modèle:Math. Dans notre exemple, il s'agit simplement de ne garder que les 3 meilleurs individus :
Modèle:Mvar | Modèle:Math | Modèle:Math | Modèle:Math | Modèle:Math |
3 | 1 | 0 | 1 | 2 |
4 | 1 | 0 | 1 | 2 |
5 | 0 | 1 | 1 | 2 |
Modèle:Math | 0.7 | 0.3 | 1 |
On constate que les trois paramètres (Modèle:Math) caractérisant la distribution de probabilité (Modèle:Math) ont changé après la sélection. En utilisant cette nouvelle distribution, on peut tirer une nouvelle population :
Modèle:Mvar | Modèle:Math | Modèle:Math | Modèle:Math | Modèle:Math |
1 | 1 | 1 | 1 | 3 |
2 | 0 | 1 | 1 | 2 |
3 | 1 | 0 | 1 | 2 |
4 | 1 | 0 | 1 | 2 |
5 | 1 | 0 | 1 | 2 |
6 | 0 | 0 | 1 | 1 |
Modèle:Math | 0.7 | 0.3 | 1 |
Et ainsi de suite jusqu'à vérifier un critère d'arrêt (par exemple quand tous les individus sont à l'optimum, comme l'individu 1 du tableau ci-dessus).
Comportement
Modèle:Référence nécessaire Modèle:Référence nécessaire
Modèles de distributions
Le comportement des algorithmes à estimation de distribution repose en grande partie sur le choix du modèle de distribution utilisé pour décrire l'état de la population. Pedro Larrañaga et ses collègues proposent de classer ces modèles en fonction de leur degré de prise en compte des dépendances entre les variables :
- modèles sans dépendances,
- modèles avec dépendances bi-variantes,
- modèles avec dépendances multi-variantes.
Dans le cas des modèles sans dépendances, la distribution de probabilité est construite à partir d'un ensemble de distributions définies sur une seule variable. Dit autrement, la distribution est factorisée à partir de distributions univariantes, indépendantes sur chaque variable.
L'exemple donné plus haut pour le problème du « one max » rentre dans cette catégorie : la probabilité d'avoir un 1 dans la variable x2 n'influence pas la probabilité d'avoir un 1 dans la variable x3, il n'y a aucune corrélation entre les deux variables.
Les modèles sans dépendances sont simples à manipuler, mais ils ont le défaut d'être peu représentatifs des problèmes d'optimisation difficile, où les dépendances sont souvent nombreuses. Il est possible de traiter les dépendances en dehors du modèle de distribution, mais l'algorithme peut alors devenir plus délicat à manipuler.
Dans le type des modèles à dépendances bi-variantes, il est possible d'utiliser des distributions bi-variantes comme base. Larrañaga et coll. proposent alors de classer l'apprentissage dans la notion de structure.
Dans les modèles à dépendances multi-variantes, toutes les dépendances sont prises en compte dans le modèle.
Le monde de l'estimation de distribution
Historique
- 1965 : Rechenberg conçoit le premier algorithme utilisant des stratégies d'évolution<ref>Rechenberg, I., Cybernetic Solution Path of an Expeimental Problem, Royal Aircraft Establishment Library Translation, 1965</ref>.
- 1975 : travaillant sur les automates cellulaires, Holland propose les premiers algorithmes génétiques<ref>Holland, John H., Adaptation in Natural and Artificial Systems, University of Michigan Press, Ann Arbor, 1975</ref>.
- 1990 : Les algorithmes de colonie de fourmis sont proposées par Marco Dorigo, dans sa thèse de doctorat<ref>M. Dorigo, Optimization, Learning and Natural Algorithms, Thèse de doctorat, Politecnico di Milano, Italie, 1992.</ref>.
- 1994 : S. Baluja s'inspire des algorithmes évolutionnaires et propose l’apprentissage incrémental à population (« Population Based Incremental Learning », PBIL)<ref>S. Baluja. Population-based Incremental Learning : A Method for Integrating Genetic Search Based Function Optimization and Competitive Learning. Technical Report CMU-CS-94-163, Carnegie Mellon University, 1994</ref>.
- 1996 : Mühlenbein et Paaß proposent les algorithmes à estimation de distribution<ref>Mühlenbein, H., Paaß, G., From recombination of genes to the estimation of distribution I. Binary parameters, Lectures Notes in Computer Science 1141: Parallel Problem Solving from Nature, tome PPSN IV, pages 178--187, 1996</ref>.
Variantes
Les variantes les plus connues de l'estimation de distribution sont l'apprentissage incrémental à population (« Modèle:Lang », PBIL), l'algorithme à distribution marginale univariée (« Modèle:Lang », UMDA) ou encore l'algorithme génétique compact (« Modèle:Lang », CGA).
Il existe également des variantes utilisant des mécanismes de partitionnement de données pour l'optimisation multimodale, des adaptations au calcul parallèle, etc.
De par la place centrale du côté probabiliste, l'estimation de distribution partage de nombreux points communs avec les stratégies d'évolution, une des premières métaheuristique proposée, et les algorithmes de colonie de fourmis. Mais on peut également pointer les similarités avec le recuit simulé (qui utilise la fonction objectif comme distribution de probabilité pour construire un échantillon) et les algorithmes génétiques, dont les algorithmes à estimation de distribution sont issus, et dont ils utilisent toujours les opérateurs de sélection.
De la même façon, on trouve de nombreux points communs entre ces métaheuristiques d'optimisation et les outils de l'apprentissage automatique, comme les méthodes utilisant des arbres de décision ou des modèles de mélanges gaussiens. La différence est parfois difficile à préciser ; on peut en effet rencontrer des métaheuristiques effectuant des tâches d'apprentissage, des méthodes d'apprentissage résolvant des problèmes d'optimisation considérés comme difficiles (au sens de la théorie de la complexité), ou encore des outils d'apprentissage utilisés au sein de métaheuristiques.
Références
Sources
- {{#invoke:Langue|indicationDeLangue}} Pedro Larrañaga et José A. Lozano (éditeurs), Estimation of Distribution Algorithms: A New Tool for Evolutionary Computation (Genetic Algorithms and Evolutionary Computation), Éd. Kluwer Academic Publishers, 416 pages, 2001. Modèle:ISBN.
- {{#invoke:Langue|indicationDeLangue}} Johann Dréo, Alain Petrowski, Éric Taillard et Patrick Siarry, Métaheuristiques pour l'optimisation difficile, Éd. Eyrolles, Paris, Modèle:Date-, Broché, 356 pages, Modèle:ISBN.
<references />
Voir aussi
- {{#invoke:Langue|indicationDeLangue}} Jose A. Lozano, Pedro Larranaga, Inaki Inza et Endika Bengotxea (éditeurs), Towards a New Evolutionary Computation: Advances in the Estimation of Distribution Algorithms, Éd. Springer-Verlag, 294 pages, 2006. Modèle:ISBN
- {{#invoke:Langue|indicationDeLangue}} Martin Pelikan, Kumara Sastry et Erick Cantú-Paz (éditeurs), Scalable Optimization via Probabilistic Modeling: From Algorithms to Applications, Éd. Springer, 350 pages, 2006. Modèle:ISBN