Technopedia Center
PMB University Brochure
Faculty of Engineering and Computer Science
S1 Informatics S1 Information Systems S1 Information Technology S1 Computer Engineering S1 Electrical Engineering S1 Civil Engineering

faculty of Economics and Business
S1 Management S1 Accountancy

Faculty of Letters and Educational Sciences
S1 English literature S1 English language education S1 Mathematics education S1 Sports Education
  • Registerasi
  • Brosur UTI
  • Kip Scholarship Information
  • Performance
  1. WeltenzyklopÀdie
  2. Algorithme du gradient stochastique
Algorithme du gradient stochastique 👆 Click Here! Read More..
Un article de Wikipédia, l'encyclopédie libre.

L'algorithme du gradient stochastique est une méthode de descente de gradient (itérative) utilisée pour la minimisation d'une fonction objectif qui est écrite comme une somme de fonctions dérivables.

Préliminaires

[modifier | modifier le code]
Article connexe : M-estimateur.

À la fois l'estimation statistique et l'apprentissage automatique s'intĂ©ressent au problĂšme de la minimisation d'une fonction objectif qui a la forme d'une somme :

Q ( w ) = 1 n ∑ i = 1 n Q i ( w ) {\displaystyle Q(w)={\frac {1}{n}}\sum _{i=1}^{n}Q_{i}(w)} {\displaystyle Q(w)={\frac {1}{n}}\sum _{i=1}^{n}Q_{i}(w)},

oĂč le paramĂštre w ∗ {\displaystyle w^{*}} {\displaystyle w^{*}} qui minimise Q ( w ) {\displaystyle Q(w)} {\displaystyle Q(w)} doit ĂȘtre estimĂ©. Chacune des fonctions Q i {\displaystyle Q_{i}} {\displaystyle Q_{i}} est gĂ©nĂ©ralement associĂ©e avec la i {\displaystyle i} {\displaystyle i}-Ăšme observation de l'ensemble des donnĂ©es (utilisĂ©es pour l'apprentissage).

En statistique classique, les problÚmes de minimisation de sommes apparaissent notamment dans la méthode des moindres carrés et dans la méthode de maximum de vraisemblance (pour des observations indépendantes). Les estimateurs qui apparaissent alors comme minimiseurs de sommes sont appelés M-estimateur. Cependant, en statistique, il est su depuis longtemps qu'exiger ne serait-ce qu'une minimisation locale est trop restrictive pour certains problÚmes d'estimation de maximum de vraisemblance, comme montré dans le célÚbre exemple de Thomas Ferguson[1]. Ainsi, les théoriciens des statistiques modernes considÚrent souvent les points stationnaires de la fonction de vraisemblance (ou bien les zéros de sa dérivée, la fonction score, et d'autres équations d'estimation).

Le problĂšme de la minimisation d'une somme se retrouve aussi dans la minimisation du risque empirique : dans ce cas, Q i ( w ) {\displaystyle Q_{i}(w)} {\displaystyle Q_{i}(w)} est la valeur de la fonction objectif pour le i {\displaystyle i} {\displaystyle i}-Ăšme exemple, et Q ( w ) {\displaystyle Q(w)} {\displaystyle Q(w)} est le risque empirique.

Lorsqu'elle est utilisĂ©e pour minimiser cette fonction, la mĂ©thode standard de descente de gradient correspond Ă  cette itĂ©ration :

w := w − η ∇ Q ( w ) = w − η n ∑ i = 1 n ∇ Q i ( w ) , {\displaystyle w:=w-\eta \nabla Q(w)=w-{\frac {\eta }{n}}\sum _{i=1}^{n}\nabla Q_{i}(w),} {\displaystyle w:=w-\eta \nabla Q(w)=w-{\frac {\eta }{n}}\sum _{i=1}^{n}\nabla Q_{i}(w),}

oĂč η {\displaystyle \eta } {\displaystyle \eta } est le pas de l'itĂ©ration (parfois appelĂ© le taux d'apprentissage en apprentissage automatique).

TrĂšs souvent, les fonctions Ă©lĂ©mentaires constituant la somme revĂȘtent une forme simple qui permet le calcul efficace de la fonction somme et de son gradient (qui n'est autre que la somme des gradients des fonctions Ă©lĂ©mentaires). Par exemple, en statistique, les familles exponentielle (Ă  un paramĂštre) permettent une Ă©valuation efficace de la fonction et de son gradient.

Cependant, dans d'autres cas, évaluer le gradient entier peut devenir trÚs coûteux, lorsque le calcul des gradients de chaque morceau n'est pas simple. Et si l'ensemble d'apprentissage est trÚs large (big data) et qu'aucune formule simple n'est disponible pour les gradients, calculer la somme des gradients peut rapidement devenir excessif. C'est dans le but d'améliorer le coût de calcul de chaque étape que la méthode de descente de gradient stochastique a été mise au point. En effet, à chaque étape, cette méthode tire un échantillon aléatoire de l'ensemble des fonctions Q i {\displaystyle Q_{i}} {\displaystyle Q_{i}} constituant la somme. Cette astuce devient trÚs efficace dans le cas de problÚme d'apprentissage à grande ou trÚs grande échelles[2].

Méthode itérative

[modifier | modifier le code]
Les fluctuations de la fonction coût objectif sont représentées en fonction des étapes de la descente de gradient, avec mini-lots.

Dans la descente de gradient stochastique (ou « en ligne Â»), la vraie valeur du gradient de Q ( w ) {\displaystyle Q(w)} {\displaystyle Q(w)} est approchĂ©e par le gradient d'une seule composante de la somme (c'est-Ă -dire d'un seul exemple) :

Alors que l'algorithme parcourt l'ensemble d'apprentissage, il rĂ©alise cette Ă©tape de mise-Ă -jour pour chaque exemple. Plusieurs parcours de l'ensemble d'apprentissage peuvent ĂȘtre nĂ©cessaires avant la convergence de la mĂ©thode. Si cela est nĂ©cessaire, les donnĂ©es sont habituellement mĂ©langĂ©es Ă  chaque parcours, afin d'Ă©viter les cycles. Une autre astuce souvent mise en place en pratique consiste Ă  utiliser un taux d'apprentissage adaptatif afin d'amĂ©liorer ou d'assurer la convergence de l'algorithme.

En pseudo-code, la mĂ©thode de descente de gradient stochastique peut ĂȘtre reprĂ©sentĂ©e comme suit :

  • Choisir des valeurs initiales pour les paramĂštres w {\displaystyle w} {\displaystyle w}, et un taux d'apprentissage η {\displaystyle \eta } {\displaystyle \eta }.
  • RĂ©pĂ©ter jusqu'Ă  ce qu'un minimum approchĂ© (assez prĂ©cisĂ©ment) soit obtenu :
    • MĂ©langer alĂ©atoirement les Ă©chantillons de l'ensemble d'apprentissage.
    • Pour i = 1 , 2 , . . . , n {\displaystyle \!i=1,2,...,n} {\displaystyle \!i=1,2,...,n}, faire :
      • w := w − η ∇ Q i ( w ) . {\displaystyle \!w:=w-\eta \nabla Q_{i}(w).} {\displaystyle \!w:=w-\eta \nabla Q_{i}(w).}

Un compromis entre les deux formes est appelĂ© « mini-lots Â» : au lieu de calculer le gradient d'un seul exemple ou le gradient de tous les exemples, la mĂ©thode calcule Ă  chaque Ă©tape le gradient sur plusieurs exemples (des petits lots, d'oĂč le nom). Cette variante peut ĂȘtre bien plus efficace que la mĂ©thode simple de descente de gradient stochastique, parce qu'une implĂ©mentation bien Ă©crite peut utiliser des bibliothĂšques de calcul vectoriel, au lieu de calculer chaque Ă©tape sĂ©parĂ©ment. La variante « mini-lots Â» peut aussi prĂ©senter une convergence plus lisse, comme le gradient calculĂ© Ă  chaque Ă©tape utilise plus d'exemples d'apprentissage.

La convergence de l'algorithme de descente de gradient stochastique a Ă©tĂ© analysĂ©e via les thĂ©ories de l'optimisation convexe et de l'approximation stochastique. En bref, lorsque l'on peut assurer que le taux d'apprentissage η {\displaystyle \eta } {\displaystyle \eta } est dĂ©croissant (avec une vitesse suffisante), et vĂ©rifie certaines hypothĂšses de rĂ©gularitĂ©, alors l'algorithme converge presque sĂ»rement vers un minimum global, si la fonction coĂ»t est convexe ou quasi-convexe, ou sinon converge presque sĂ»rement vers un minimum local[3],[4]. Ce rĂ©sultat peut aussi ĂȘtre obtenu comme une application du thĂ©orĂšme de Robbins-Siegmund[5].

Exemple

[modifier | modifier le code]

Supposons que nous voulions utiliser une ligne droite ( y = w 1 + w 2 x {\displaystyle y=\!w_{1}+w_{2}x} {\displaystyle y=\!w_{1}+w_{2}x}) pour reprĂ©senter un ensemble de points d'apprentissages (en deux dimensions) ( x 1 , y 1 ) , 
 , ( x n , y n ) {\displaystyle \!(x_{1},y_{1}),\ldots ,(x_{n},y_{n})} {\displaystyle \!(x_{1},y_{1}),\ldots ,(x_{n},y_{n})}, en utilisant les moindres carrĂ©s. La fonction coĂ»t Ă  minimiser est alors :

Q ( w ) = ∑ i = 1 n Q i ( w ) = ∑ i = 1 n ( w 1 + w 2 x i − y i ) 2 . {\displaystyle Q(w)=\sum _{i=1}^{n}Q_{i}(w)=\sum _{i=1}^{n}\left(w_{1}+w_{2}x_{i}-y_{i}\right)^{2}.} {\displaystyle Q(w)=\sum _{i=1}^{n}Q_{i}(w)=\sum _{i=1}^{n}\left(w_{1}+w_{2}x_{i}-y_{i}\right)^{2}.}

La derniĂšre ligne de l'algorithme en pseudo-code (voir ci-dessus) pour ce problĂšme prĂ©cis devient :

[ w 1 w 2 ] := [ w 1 w 2 ] − η [ 2 ( w 1 + w 2 x 1 − y 1 ) 2 x 2 ( w 1 + w 2 x 2 − y 2 ) ] {\displaystyle {\begin{bmatrix}w_{1}\\w_{2}\end{bmatrix}}:={\begin{bmatrix}w_{1}\\w_{2}\end{bmatrix}}-\eta {\begin{bmatrix}2(w_{1}+w_{2}x_{1}-y_{1})\\2x_{2}(w_{1}+w_{2}x_{2}-y_{2})\end{bmatrix}}} {\displaystyle {\begin{bmatrix}w_{1}\\w_{2}\end{bmatrix}}:={\begin{bmatrix}w_{1}\\w_{2}\end{bmatrix}}-\eta {\begin{bmatrix}2(w_{1}+w_{2}x_{1}-y_{1})\\2x_{2}(w_{1}+w_{2}x_{2}-y_{2})\end{bmatrix}}}

Applications

[modifier | modifier le code]

La descente de gradient stochastique est un algorithme trÚs utilisé pour l'entraßnement de nombreuses familles de modÚles en apprentissage automatique, notamment les machines à vecteurs support (linéaires), la régression logistique (voir par exemple Vowpal Wabbit) et les modÚles graphiques[6]. Lorsqu'elle est combinée à l'algorithme de propagation inverse, la méthode obtenue est l'algorithme standard de facto, le plus utilisé pour l'entraßnement des réseaux neuronaux artificiels.

La méthode DGS (SGD en anglais) est en compétition directe avec l'algorithme L-BFGS, [citation nécessaire] qui lui aussi est trÚs utilisé. DGS est utilisé depuis les années 1960 au moins, pour entraßner des modÚles de régression linéaire, initialement sous le nom ADALINE[7].

Un autre algorithme assez utilisé de descente de gradient stochastique est le filtre moyen des moindres carrés (LMS) adaptatif.

Extensions et variantes

[modifier | modifier le code]

De nombreuses amĂ©liorations sur l'algorithme SGD initial ont Ă©tĂ© proposĂ©es et utilisĂ©es. En particulier, en apprentissage automatique, la nĂ©cessitĂ© de fixer un taux d'apprentissage (le pas de l'algorithme) est souvent problĂ©matique : un paramĂštre trop grand peut faire diverger l'algorithme tandis qu'un paramĂštre trop petit ralentit la convergence.

Une extension de SGD relativement simple consiste à choisir comme taux d'apprentissage une fonction η t {\displaystyle \eta _{t}} {\displaystyle \eta _{t}} décroissante en fonction du nombre d'itérations t {\displaystyle t} {\displaystyle t}, donnant une progression du taux d'apprentissage, de sorte que les premiÚres itérations permettent de forts changements dans les paramÚtres, tandis que les itérations tardives ne feront que les peaufiner légÚrement. De telles progressions décroissantes sont connues depuis les travaux de MacQueen sur les K-moyennes[8].

SGD Moment

[modifier | modifier le code]

Parmi les autres propositions, on notera notamment la mĂ©thode du moment, qui apparaĂźt dans un article de Rumelhart, Hinton et Williams sur l'apprentissage par rĂ©tro-propagation[9]. La mĂ©thode SGD avec moment conserve en mĂ©moire la mise-Ă -jour Ă  chaque Ă©tape ( Δ w {\displaystyle \Delta w} {\displaystyle \Delta w}), et calcule la suivante comme une combinaison linĂ©aire du gradient actuel et de la modification prĂ©cĂ©dente : si on note w n {\displaystyle w_{n}} {\displaystyle w_{n}} les coefficients obtenus aprĂšs n itĂ©rations, ainsi que Δ w n {\displaystyle \Delta w_{n}} {\displaystyle \Delta w_{n}} la n-iĂšme mise Ă  jour des paramĂštres :

Δ w n + 1 := η ∇ Q i ( w ) + α Δ w n {\displaystyle \Delta w_{n+1}:=\eta \nabla Q_{i}(w)+\alpha \Delta w_{n}} {\displaystyle \Delta w_{n+1}:=\eta \nabla Q_{i}(w)+\alpha \Delta w_{n}}
w n + 1 := w n − Δ w n + 1 {\displaystyle w_{n+1}:=w_{n}-\Delta w_{n+1}} {\displaystyle w_{n+1}:=w_{n}-\Delta w_{n+1}}

Le nom moment vient d'une analogie avec le moment en physique : le vecteur de paramĂštres w {\displaystyle w} {\displaystyle w}, considĂ©rĂ© comme une particule qui voyage au travers de l'espace des paramĂštres (souvent en grande dimension), subit une accĂ©lĂ©ration via le gradient (qui agit comme une « force Â»). Contrairement Ă  la mĂ©thode SGD classique, cette variante a tendance Ă  continuer de voyager dans la mĂȘme direction, en empĂȘchant les oscillations. La mĂ©thode SGD moment a Ă©tĂ© utilisĂ©e avec succĂšs depuis plusieurs dizaines d'annĂ©es [10].

Moyennage

[modifier | modifier le code]

L'algorithme de SGD moyennĂ©, inventĂ© indĂ©pendamment par David Ruppert et Boris Polyak Ă  la fin des annĂ©es 1980, est une mĂ©thode SGD qui conserve en mĂ©moire la valeur moyenne (cumulĂ©e) de son vecteur de paramĂštre au cours du temps. C'est-Ă -dire que l'Ă©tape de mise-Ă -jour est la mĂȘme que pour l'algorithme SGD ordinaire, mais en gardant aussi la trace de la valeur moyenne (Ă©tape aprĂšs Ă©tape)[11] :

w ¯ = 1 t ∑ i = 0 t − 1 w {\displaystyle {\bar {w}}={\frac {1}{t}}\sum _{i=0}^{t-1}w} {\displaystyle {\bar {w}}={\frac {1}{t}}\sum _{i=0}^{t-1}w}.

Lorsque l'optimisation est terminée, ce vecteur moyenné de paramÚtres sera utilisé à la place de w {\displaystyle w} {\displaystyle w}.

AdaGrad

[modifier | modifier le code]

AdaGrad (diminutif de adaptive gradient, anglais pour « gradient adaptatif Â») est une amĂ©lioration de la mĂ©thode SGD qui dĂ©termine automatiquement un taux d'apprentissage pour chaque paramĂštre[12],[13]. On choisit toujours un taux d'apprentissage commun ( η {\displaystyle \eta } {\displaystyle \eta }), mais celui-ci est multipliĂ© par les Ă©lĂ©ments du vecteur G j , j {\displaystyle G_{j,j}} {\displaystyle G_{j,j}}, qui est obtenu comme diagonale de la matrice G {\displaystyle G} {\displaystyle G} suivante :

G = ∑ τ = 1 t g τ g τ T {\displaystyle G=\sum _{\tau =1}^{t}g_{\tau }g_{\tau }^{\mathsf {T}}} {\displaystyle G=\sum _{\tau =1}^{t}g_{\tau }g_{\tau }^{\mathsf {T}}}

oĂč g τ = ∇ Q i ( w ) {\displaystyle g_{\tau }=\nabla Q_{i}(w)} {\displaystyle g_{\tau }=\nabla Q_{i}(w)} est le gradient Ă  l'Ă©tape τ {\displaystyle \tau } {\displaystyle \tau }. La diagonale est donnĂ©e par : G j , j = ∑ τ = 1 t g τ , j 2 {\displaystyle G_{j,j}=\sum _{\tau =1}^{t}g_{\tau ,j}^{2}} {\displaystyle G_{j,j}=\sum _{\tau =1}^{t}g_{\tau ,j}^{2}}.

Ce vecteur est mis-Ă -jour Ă  chaque itĂ©ration. Ainsi, G {\displaystyle G} {\displaystyle G} accumule les amplitudes (carrĂ©es) des gradients au cours de la descente, par composante. La formule pour chaque mise-Ă -jour est dĂ©sormais :

w := w − η d i a g ( G ) − 1 2 ⊙ g {\displaystyle w:=w-\eta \,\mathrm {diag} (G)^{-{\frac {1}{2}}}\odot g} {\displaystyle w:=w-\eta \,\mathrm {diag} (G)^{-{\frac {1}{2}}}\odot g}[note 1]

ou, si on Ă©crit la mise-Ă -jour pour chaque paramĂštre :

w j := w j − η G j , j g j . {\displaystyle w_{j}:=w_{j}-{\frac {\eta }{\sqrt {G_{j,j}}}}g_{j}.} {\displaystyle w_{j}:=w_{j}-{\frac {\eta }{\sqrt {G_{j,j}}}}g_{j}.}

Chaque G j , j {\displaystyle G_{j,j}} {\displaystyle G_{j,j}} donne un facteur multiplicatif appliquĂ© au taux d'apprentissage correspondant Ă  l'unique paramĂštre w i {\displaystyle w_{i}} {\displaystyle w_{i}}. Et comme le dĂ©nominateur de ce facteur ( G i = ∑ τ = 1 t g τ 2 {\displaystyle {\sqrt {G_{i}}}={\sqrt {\sum _{\tau =1}^{t}g_{\tau }^{2}}}} {\displaystyle {\sqrt {G_{i}}}={\sqrt {\sum _{\tau =1}^{t}g_{\tau }^{2}}}}) est la norme ℓ2 des dĂ©rivĂ©es prĂ©cĂ©dentes, les mises-Ă -jour trop importantes des paramĂštres sont attĂ©nuĂ©es tandis que les petites modifications sont faites avec un taux d'apprentissage plus grand (et donc sont amplifiĂ©es) [10].

Alors qu'elle fut initialement pensée pour des problÚmes convexes, AdaGrad a été appliquée avec succÚs à l'optimisation non-convexe[14].

Notes et références

[modifier | modifier le code]

Notes

[modifier | modifier le code]
  1. ↑ ⊙ {\displaystyle \odot } {\displaystyle \odot } est le produit matriciel.

Références

[modifier | modifier le code]
  • (en) Cet article est partiellement ou en totalitĂ© issu de l’article de WikipĂ©dia en anglais intitulĂ© « Stochastic gradient descent Â» (voir la liste des auteurs).
  1. ↑ Thomas S. Ferguson, « An inconsistent maximum likelihood estimate Â», Journal of the American Statistical Association, vol. 77, no 380,‎ 1982, p. 831–834 (DOI 10.1080/01621459.1982.10477894, JSTOR 2287314)
  2. ↑ LĂ©on Bottou et Olivier Bousquet « The Tradeoffs of Large Scale Learning Â» (2008) (lire en ligne)
    —Advances in Neural Information Processing Systems
  3. ↑ (en) LĂ©on Bottou, Online Learning and Neural Networks, Cambridge University Press, 1998 (ISBN 978-0-521-65263-6, lire en ligne)
  4. ↑ Krzysztof C. Kiwiel, « Convergence and efficiency of subgradient methods for quasiconvex minimization Â», Mathematical Programming (Series A), Berlin, Heidelberg, Springer, vol. 90, no 1,‎ 2001, p. 1–25 (ISSN 0025-5610, DOI 10.1007/PL00011414, MR 1819784)
  5. ↑ (en) Herbert Robbins et David O. Siegmund, Optimizing Methods in Statistics, Academic Press, 1971directeur = jagdish s. rustagi
  6. ↑ Jenny Rose Finkel, Alex Kleeman, Christopher D. Manning (2008).
  7. ↑ Avi Pfeffer, « CS181 Lecture 5 — Perceptrons Â», Harvard University
  8. ↑ Cited by Christian Darken et John Moody « Fast adaptive k-means clustering: some empirical results Â» (1990)
    —Int'l Joint Conf. on Neural Networks (IJCNN)
    — « (ibid.) Â», IEEE,‎ 1990
  9. ↑ David E. Rumelhart, Hinton, Geoffrey E. et Williams, Ronald J., « Learning representations by back-propagating errors Â», Nature, vol. 323, no 6088,‎ 8 octobre 1986, p. 533–536 (DOI 10.1038/323533a0)
  10. ↑ a et b (en) Matthew D. Zeiler, « ADADELTA: An adaptive learning rate method Â», 2012.
  11. ↑ Boris T. Polyak et Anatoli B. Juditsky, « Acceleration of stochastic approximation by averaging Â», SIAM J. Control and Optimization, vol. 30, no 4,‎ 1992, p. 838–855
  12. ↑ John Duchi, Elad Hazan et Yoram Singer, « Adaptive subgradient methods for online learning and stochastic optimization Â», JMLR, vol. 12,‎ 2011, p. 2121–2159 (lire en ligne)
  13. ↑ Joseph Perla, « Notes on AdaGrad Â» [archive du 30 mars 2015], 2014 (consultĂ© le 4 juillet 2015)
  14. ↑ Maya R. Gupta, Samy Bengio et Jason Weston, « Training highly multiclass classifiers Â», JMLR, vol. 15, no 1,‎ 2014, p. 1461–1492 (lire en ligne)

Voir aussi

[modifier | modifier le code]

Articles connexes

[modifier | modifier le code]
  • Classifieur linĂ©aire
  • Algorithme d'apprentissage incrĂ©mentiel

Lectures supplémentaires

[modifier | modifier le code]
  • (fr) Algorithme du gradient stochastique avec exemples [PDF]
  • (en) Dimitri Bertsekas, Convex Analysis and Optimization, Athena Scientific, 2003
  • (en) Dimitri P. Bertsekas, Nonlinear Programming, Cambridge, MA., Athena Scientific, 1999 (ISBN 1-886529-00-0)
  • (en) LĂ©on Bottou, Advanced Lectures on Machine Learning, LNAI 3176, Springer Verlag, 2004, 146–168 p. (ISBN 978-3-540-23122-6, lire en ligne)
  • W. C. Davidon, « New least-square algorithms Â», Journal of Optimization Theory and Applications, vol. 18, no 2,‎ 1976, p. 187–197 (DOI 10.1007/BF00935703, MR 418461)
  • Krzysztof C. Kiwiel, « Convergence of approximate and incremental subgradient methods for convex optimization Â», SIAM Journal of Optimization, vol. 14, no 3,‎ 2003, p. 807–840 (DOI 10.1137/S1052623400376366, MR 2085944) (Contient une liste de rĂ©fĂ©rences trĂšs fournie).
  • Pattern Classification, Richard O. Duda, Peter E. Hart, David G. Stork, (ISBN 0-471-05669-3), 2000
  • Introduction to Stochastic Search and Optimization, James C. Spall, (ISBN 0-471-33052-3), 2003

Logiciels

[modifier | modifier le code]
  • sgd : une bibliothĂšque C++ (sous licence LGPL) qui utilise la descente de gradient stochastique pour entraĂźner des MVS et des modĂšles ''conditional random field''.
  • CRF-ADF : une bibliothĂšque C# implĂ©mentant la mĂ©thode de descente de gradient stochastique et sa variation AdaGrad pour entraĂźner des modĂšles conditional random field.
  • Vowpal Wabbit : une solution d'apprentissage rapide et scalable (sous licence BSD) par John Langford et d'autres contributeurs. Contient notamment quelques variantes de l'algorithme de descente de gradient stochastique. Le dĂ©pĂŽt source est sur GitHub.

Liens externes

[modifier | modifier le code]
  • Utilisation de la descente de gradient stochastique en C++ avec Boost et Ublas pour la rĂ©gression linĂ©aire
v Â· m
Optimisation: théorie et algorithmes
Non linéaire
  • MĂ©thode du nombre d'or
  • Recherche linĂ©aire
  • MĂ©thode de Nelder-Mead
  • CritĂšres de Wolfe
  • MĂ©thode de Broyden-Fletcher-Goldfarb-Shanno
  • Algorithme Ă  rĂ©gions de confiance
  • PĂ©nalisation
  • Algorithme du gradient
  • Algorithme du gradient stochastique
  • MĂ©thode de Newton
  • Algorithme de Gauss-Newton
  • Algorithme de Levenberg-Marquardt
  • Algorithme du lagrangien augmentĂ©
Convexe
  • Optimisation complĂštement positive
  • Optimisation copositive
  • Optimisation SDP
  • MĂ©thode des plans sĂ©cants
  • Algorithme de Frank-Wolfe
  • MĂ©thode de l'ellipsoĂŻde
Linéaire
  • Optimisation conique
  • Algorithme du simplexe
  • MĂ©thodes de points intĂ©rieurs
  • DĂ©composition de Benders
  • GĂ©nĂ©ration de colonnes
Quadratique
  • Optimisation quadratique successive
Combinatoire
  • Algorithme d'approximation
  • Programmation dynamique
  • Algorithme glouton
  • Optimisation linĂ©aire en nombres entiers
Métaheuristique
  • StratĂ©gie d'Ă©volution
    • Algorithme gĂ©nĂ©tique
  • Essaims
  • ForĂȘts alĂ©atoires
  • Boosting
  • icĂŽne dĂ©corative Portail des mathĂ©matiques
  • icĂŽne dĂ©corative Portail de l'informatique thĂ©orique
Ce document provient de « https://fr.wikipedia.org/w/index.php?title=Algorithme_du_gradient_stochastique&oldid=220216356 Â».
CatĂ©gories :
  • Algorithme d'optimisation
  • Statistiques
  • Apprentissage automatique
CatĂ©gories cachĂ©es :
  • Article contenant un lien mort
  • Article Ă  citation nĂ©cessaire
  • Portail:MathĂ©matiques/Articles liĂ©s
  • Portail:Sciences/Articles liĂ©s
  • Portail:Informatique thĂ©orique/Articles liĂ©s
  • Portail:Informatique/Articles liĂ©s

  • indonesia
  • Polski
  • Ű§Ù„Ű±ÙŠŰ©
  • Deutsch
  • English
  • Español
  • Français
  • Italiano
  • Ù…Ű”Ű±
  • Nederlands
  • æœŹèȘž
  • PortuguĂȘs
  • Sinugboanong Binisaya
  • Svenska
  • ĐŁĐșŃ€Đ°Ń—ĐœŃĐșа
  • Tiáșżng Việt
  • Winaray
  • äž­æ–‡
  • РуссĐșĐž
Sunting pranala
Pusat Layanan

UNIVERSITAS TEKNOKRAT INDONESIA | ASEAN's Best Private University
Jl. ZA. Pagar Alam No.9 -11, Labuhan Ratu, Kec. Kedaton, Kota Bandar Lampung, Lampung 35132
Phone: (0721) 702022
Email: pmb@teknokrat.ac.id