Outils et modèles statistiques pour l'allocation séquentielle de ressources
À l'ère du « Big Data » de nombreuses données sont collectées à chaque instant, et pour certaines tâches d'optimisation de contenu web, il est crucial de les prendre en compte au fur et à mesure de leur accumulation. Plus concrètement, des algorithmes décident à chaque seconde quelle version d'une page web, quelle publicité ou encore quel contenu vous montrer, en fonction de votre historique de navigation.
L'objectif de cet exposé est de présenter un modèle statistique simple, le modèle dit de bandit à plusieurs bras, permettant de décrire ce genre de problèmes de prise de décision séquentielle, et bien d'autres. Si le nom de ce modèle fait référence à un choix adaptatif de machines à sous (bandit à un bras) dans un casino, il a été introduit à l'origine pour la modélisation de l'allocation de traitement médical lors des essais cliniques. Dans ce modèle, nous verrons qu'on peut considérer différents objectifs, et pour chacun d'eux nous nous attacherons à proposer des stratégies d'allocation optimales. Ces dernières seront basés sur deux types d'outils : la construction d'intervalles de confiance, et l'utilisation d'outils issus des statistiques bayésiennes. À la fin de l'exposé, nous verrons comment ils peuvent être utilisés pour un problème d'allocation séquentielle de ressource plus complexe, celui de la construction d'une intelligence artificielle pour un jeu, où pour décider de la prochaine action à jouer, un algorithme explore de manière adaptative un arbre de jeu. Les outils associés au modèle de bandit ont en effet participé au récent succès d'Alpha Go.