Algorithme à estimation de distribution

Fichier:EDA sample-iterations.svg

Les algorithmes à estimation de distribution résolvent des problèmes d'optimisation en échantillonnant un modèle de distribution, dont les paramètres évoluent via des opérateurs de sélection. Ici, un AED à distribution normale mono-variante optimise un problème à une dimension Modèle:Mvar, l'échantillonnage est présenté aux différentes itérations i.

Les algorithmes à estimation de distribution (Modèle:Lang, EDA, en anglais) forment une famille de métaheuristiques inspirée des algorithmes génétiques. Ils sont utilisés pour résoudre des problèmes d'optimisation, via la manipulation d'un échantillonnage de la fonction décrivant la qualité des solutions possibles. Comme toutes les métaheuristiques utilisant une population de points, ils sont itératifs.

À l'inverse des algorithmes évolutionnaires « classiques », le cœur de la méthode consiste à estimer les relations entre les différentes variables d'un problème d'optimisation, grâce à l'estimation d'une distribution de probabilité, associée à chaque point de l'échantillon. Ils n'emploient donc pas d'opérateurs de croisement ou de mutation, l'échantillon étant directement construit à partir des paramètres de distribution, estimés à l'itération précédente.

Algorithme

Fichier:Eda mono-variant gauss iterations.svg

Algorithme à estimation de distribution. À chaque itération i s'effectue le tirage aléatoire d'une population P, dans une distribution de probabilité PDu. On estime ensuite les paramètres de la distribution PDe des points sélectionnés PS. Dans cet exemple, on optimise une fonction objectif continue Modèle:Math, ayant un seul optimum O. Au fur et à mesure du déroulement de l'algorithme, l'échantillonnage (suivant une loi normale N) se concentre autour de l'optimum.

Le vocabulaire lié aux algorithmes à estimation de distribution est emprunté à celui des algorithmes évolutionnaires, on parlera donc de « population d'individus » plutôt que d'« échantillon de points », ou de « fitness » plutôt que de « fonction objectif », néanmoins, tous ces termes ont la même signification.

Algorithme général

L'algorithme de base procède de la manière suivante pour chaque itération :

tirage aléatoire d'un ensemble de points suivant une distribution de probabilité donnée,
sélection des meilleurs points,
extraction des paramètres de la distribution de probabilité décrivant la répartition de ces points.

Plus précisément, l'algorithme procède comme suit :

<poem> Tirer au hasard M individus, pour former une population D₀. i = 0 Tant qu'un critère d'arrêt n'est pas vérifié : </poem>

<poem> i = i + 1 Sélectionner N individus (avec N < M) dans la population précédente (D_i-1), pour former la population :<math>D^S_{i-1}</math>. Estimer une distribution de probabilité Modèle:Math, décrivant la répartition de la population DModèle:Indexp. Tirer au hasard M individus dans Modèle:Math. </poem>

Fin de la boucle.

Exemple pour le problème « one max »

Dans le problème du « one max », on cherche à maximiser le nombre de 1 sur un nombre de dimensions donné. Pour un problème à 3 dimensions, une solution Modèle:Math aura donc une meilleure qualité qu'une solution Modèle:Math, l'optimum étant Modèle:Math. On cherche donc à maximiser une fonction <math>f(x) = \sum_{i=1}^3 x_i</math>, où Modèle:Mvar peut prendre la valeur 0 ou 1.

La première étape consiste à tirer au hasard les individus, avec pour chaque variable, une chance sur deux de tirer un 1 ou un 0. Dit autrement, on utilise une distribution de probabilité <math>p_0(x) = \prod_{i=1}^3 p_0(x_i)</math>, où Modèle:Math est la probabilité que chaque élément soit égal à 1. La distribution est donc factorisée comme un produit de 3 distributions marginales univariantes de Bernoulli, de paramètre 0,5.

Exemple de tirage de la population Modèle:Math, avec une population de 6 individus, la dernière ligne indique la probabilité Modèle:Math pour chaque variable :

Modèle:Mvar	Modèle:Math	Modèle:Math	Modèle:Math	Modèle:Math
1	0	1	0	1
2	0	1	0	1
3	1	0	1	2
4	1	0	1	2
5	0	1	1	2
6	1	0	0	1
Modèle:Math	0.5	0.5	0.5

L'étape suivante consiste en la sélection des meilleurs individus, pour former Modèle:Math. Dans notre exemple, il s'agit simplement de ne garder que les 3 meilleurs individus :

Modèle:Mvar	Modèle:Math	Modèle:Math	Modèle:Math	Modèle:Math
3	1	0	1	2
4	1	0	1	2
5	0	1	1	2
Modèle:Math	0.7	0.3	1

On constate que les trois paramètres (Modèle:Math) caractérisant la distribution de probabilité (Modèle:Math) ont changé après la sélection. En utilisant cette nouvelle distribution, on peut tirer une nouvelle population :

Modèle:Mvar	Modèle:Math	Modèle:Math	Modèle:Math	Modèle:Math
1	1	1	1	3
2	0	1	1	2
3	1	0	1	2
4	1	0	1	2
5	1	0	1	2
6	0	0	1	1
Modèle:Math	0.7	0.3	1

Et ainsi de suite jusqu'à vérifier un critère d'arrêt (par exemple quand tous les individus sont à l'optimum, comme l'individu 1 du tableau ci-dessus).

Comportement

Fichier:Metaheuristique comportement.svg

Comportement d'un algorithme à estimation de distribution (modèle gaussien multi-variant). Le graphique représente les distributions des valeurs des optimums trouvés (sur un grand nombre d'exécutions) : l'algorithme passe d'une population de solution très dispersée (A) à une population plus centrée sur l'optimum trouvé (B).

Modèle:Référence nécessaire Modèle:Référence nécessaire

Modèles de distributions

Le comportement des algorithmes à estimation de distribution repose en grande partie sur le choix du modèle de distribution utilisé pour décrire l'état de la population. Pedro Larrañaga et ses collègues proposent de classer ces modèles en fonction de leur degré de prise en compte des dépendances entre les variables :

modèles sans dépendances,
modèles avec dépendances bi-variantes,
modèles avec dépendances multi-variantes.

Dans le cas des modèles sans dépendances, la distribution de probabilité est construite à partir d'un ensemble de distributions définies sur une seule variable. Dit autrement, la distribution est factorisée à partir de distributions univariantes, indépendantes sur chaque variable.

L'exemple donné plus haut pour le problème du « one max » rentre dans cette catégorie : la probabilité d'avoir un 1 dans la variable x₂ n'influence pas la probabilité d'avoir un 1 dans la variable x₃, il n'y a aucune corrélation entre les deux variables.

Les modèles sans dépendances sont simples à manipuler, mais ils ont le défaut d'être peu représentatifs des problèmes d'optimisation difficile, où les dépendances sont souvent nombreuses. Il est possible de traiter les dépendances en dehors du modèle de distribution, mais l'algorithme peut alors devenir plus délicat à manipuler.

Dans le type des modèles à dépendances bi-variantes, il est possible d'utiliser des distributions bi-variantes comme base. Larrañaga et coll. proposent alors de classer l'apprentissage dans la notion de structure.

Dans les modèles à dépendances multi-variantes, toutes les dépendances sont prises en compte dans le modèle.

Fichier:Multinormal 3 false.png

Exemple d'échantillon produit à partir d'une distribution normale bi-variante sans covariance.

Fichier:Multinormal 3 true.png

Exemple d'échantillon produit à partir d'une distribution normale bi-variante avec une covariance de -0.5.

Le monde de l'estimation de distribution

Fichier:B2 optimization function.svg

Exemple de problème d'optimisation difficile, que les métaheuristiques (comme l'estimation de distribution) tentent de résoudre. Le but est ici de trouver l'optimum global (ayant la valeur la plus basse), uniquement à partir des informations données par un échantillonnage ponctuel d'une fonction objectif.

Historique

1965 : Rechenberg conçoit le premier algorithme utilisant des stratégies d'évolution<ref>Rechenberg, I., Cybernetic Solution Path of an Expeimental Problem, Royal Aircraft Establishment Library Translation, 1965</ref>.
1975 : travaillant sur les automates cellulaires, Holland propose les premiers algorithmes génétiques<ref>Holland, John H., Adaptation in Natural and Artificial Systems, University of Michigan Press, Ann Arbor, 1975</ref>.
1990 : Les algorithmes de colonie de fourmis sont proposées par Marco Dorigo, dans sa thèse de doctorat<ref>M. Dorigo, Optimization, Learning and Natural Algorithms, Thèse de doctorat, Politecnico di Milano, Italie, 1992.</ref>.
1994 : S. Baluja s'inspire des algorithmes évolutionnaires et propose l’apprentissage incrémental à population (« Population Based Incremental Learning », PBIL)<ref>S. Baluja. Population-based Incremental Learning : A Method for Integrating Genetic Search Based Function Optimization and Competitive Learning. Technical Report CMU-CS-94-163, Carnegie Mellon University, 1994</ref>.
1996 : Mühlenbein et Paaß proposent les algorithmes à estimation de distribution<ref>Mühlenbein, H., Paaß, G., From recombination of genes to the estimation of distribution I. Binary parameters, Lectures Notes in Computer Science 1141: Parallel Problem Solving from Nature, tome PPSN IV, pages 178--187, 1996</ref>.

Variantes

Les variantes les plus connues de l'estimation de distribution sont l'apprentissage incrémental à population (« Modèle:Lang », PBIL), l'algorithme à distribution marginale univariée (« Modèle:Lang », UMDA) ou encore l'algorithme génétique compact (« Modèle:Lang », CGA).

Il existe également des variantes utilisant des mécanismes de partitionnement de données pour l'optimisation multimodale, des adaptations au calcul parallèle, etc.

De par la place centrale du côté probabiliste, l'estimation de distribution partage de nombreux points communs avec les stratégies d'évolution, une des premières métaheuristique proposée, et les algorithmes de colonie de fourmis. Mais on peut également pointer les similarités avec le recuit simulé (qui utilise la fonction objectif comme distribution de probabilité pour construire un échantillon) et les algorithmes génétiques, dont les algorithmes à estimation de distribution sont issus, et dont ils utilisent toujours les opérateurs de sélection.

Fichier:Double Gauss.png

Exemple de distribution univariante obtenue à l'aide d'un mélange de deux noyaux gaussiens.

De la même façon, on trouve de nombreux points communs entre ces métaheuristiques d'optimisation et les outils de l'apprentissage automatique, comme les méthodes utilisant des arbres de décision ou des modèles de mélanges gaussiens. La différence est parfois difficile à préciser ; on peut en effet rencontrer des métaheuristiques effectuant des tâches d'apprentissage, des méthodes d'apprentissage résolvant des problèmes d'optimisation considérés comme difficiles (au sens de la théorie de la complexité), ou encore des outils d'apprentissage utilisés au sein de métaheuristiques.

Références

Sources

{{#invoke:Langue|indicationDeLangue}} Pedro Larrañaga et José A. Lozano (éditeurs), Estimation of Distribution Algorithms: A New Tool for Evolutionary Computation (Genetic Algorithms and Evolutionary Computation), Éd. Kluwer Academic Publishers, 416 pages, 2001. Modèle:ISBN.
{{#invoke:Langue|indicationDeLangue}} Johann Dréo, Alain Petrowski, Éric Taillard et Patrick Siarry, Métaheuristiques pour l'optimisation difficile, Éd. Eyrolles, Paris, Modèle:Date-, Broché, 356 pages, Modèle:ISBN.

Voir aussi

{{#invoke:Langue|indicationDeLangue}} Jose A. Lozano, Pedro Larranaga, Inaki Inza et Endika Bengotxea (éditeurs), Towards a New Evolutionary Computation: Advances in the Estimation of Distribution Algorithms, Éd. Springer-Verlag, 294 pages, 2006. Modèle:ISBN
{{#invoke:Langue|indicationDeLangue}} Martin Pelikan, Kumara Sastry et Erick Cantú-Paz (éditeurs), Scalable Optimization via Probabilistic Modeling: From Algorithms to Applications, Éd. Springer, 350 pages, 2006. Modèle:ISBN

Modèle:Portail

Anonyme

Rechercher

Algorithme à estimation de distribution

Espaces de noms

Plus

Actions de la page

Sommaire

Algorithme

Algorithme général

Exemple pour le problème « one max »

Comportement

Modèles de distributions

Le monde de l'estimation de distribution

Historique

Variantes

Références

Sources

Voir aussi

Navigation

Navigation

Contribuer

Outils wiki

Outils wiki

Anonyme

Rechercher

Algorithme à estimation de distribution

Algorithme

Algorithme général

Exemple pour le problème « one max »

Comportement

Modèles de distributions

Le monde de l'estimation de distribution

Historique

Variantes

Références

Sources

Voir aussi

Navigation

Outils wiki

Outils de la page

Liste des catégories