L'apprentissage statistique à grande échelle

Abstract: Depuis une dizaine d'années, la taille des données croit plus vite que la puissance des processeurs. Lorsque les données disponibles sont pratiquement infinies, c'est le temps de calcul qui limite les possibilités de l'apprentissage statistique. Ce document montre que ce changement d'échelle nous conduit vers un compromis qualitativement différent dont les conséquences ne sont pas évidentes. En particulier, bien que la descente de gradient stochastique soit un algorithme d'optimisation médiocre, on montrera, en théorie et en pratique, que sa performance est excellente pour l'apprentissage statistique à grande échelle.

Léon Bottou and Olivier Bousquet: L'apprentissage statistique à grande échelle, Revue Modulad, 42:61–73, 2010.

slds-2009.djvu slds-2009.pdf slds-2009.ps.gz

@article{bottou-bousquet-2010,
  author = {Bottou, L\'{e}on and Bousquet, Olivier},
  title = {L'apprentissage statistique \`{a} grande \'{e}chelle},
  journal = {Revue Modulad},
  year = {2010},
  volume = {42},
  pages = {61--73},
  url = {http://leon.bottou.org/papers/bottou-bousquet-2010},
}

Notes

This is essentially a french version of the 2008 MMDSS paper.