Technopedia Center
PMB University Brochure
Faculty of Engineering and Computer Science
S1 Informatics S1 Information Systems S1 Information Technology S1 Computer Engineering S1 Electrical Engineering S1 Civil Engineering

faculty of Economics and Business
S1 Management S1 Accountancy

Faculty of Letters and Educational Sciences
S1 English literature S1 English language education S1 Mathematics education S1 Sports Education
  • Registerasi
  • Brosur UTI
  • Kip Scholarship Information
  • Performance
  1. Weltenzyklopädie
  2. Stable Diffusion — Wikipédia
Stable Diffusion — Wikipédia 👆 Click Here! Read More..
Un article de Wikipédia, l'encyclopédie libre.
Stable Diffusion

Description de cette image, également commentée ci-après
Image générée par Stable Diffusion 3.5 Large à partir de la consigne "une photographie d'un astronaute à cheval" (donnée en anglais).
Informations
Première version 22 août 2022Voir et modifier les données sur Wikidata
Dépôt github.com/Stability-AI/generative-modelsVoir et modifier les données sur Wikidata
Écrit en PythonVoir et modifier les données sur Wikidata
Système d'exploitation Linux, macOS et Microsoft WindowsVoir et modifier les données sur Wikidata
Type Prompt art
Latent variable model (en)
Modèle de diffusion (en)
Modèle d'apprentissage profond (d)Voir et modifier les données sur Wikidata
Licence Stability AI Community License (d)Voir et modifier les données sur Wikidata
Site web stability.ai/stable-imageVoir et modifier les données sur Wikidata

modifier - modifier le code - voir Wikidata (aide)

Stable Diffusion est un modèle d'apprentissage automatique permettant de générer des images numériques de différents styles, y compris photoréalistes, à partir de descriptions en langage naturel. Le modèle peut également être utilisé pour d'autres tâches, comme la génération d'une image améliorée à partir d'une esquisse et d'une description textuelle[1].

Il peut fonctionner sur la plupart des matériels grand public équipés d'une carte graphique même de moyenne gamme.

Licence

[modifier | modifier le code]

Le code source et le modèle de Stable Diffusion sont publics, ce qui n'en fait pas un logiciel libre[2], car sa licence, dite CreativeML OpenRAIL-M, interdit certains cas d'utilisation, contrairement au principe de base de la fondation pour le logiciel libre[3],[4],[5].

Cette licence, utilisée avant la version 3, interdit certains cas d'utilisation, notamment le crime, la diffamation, le harcèlement, le doxing, « l'exploitation de mineurs », la fourniture de conseils médicaux, la création automatique d'obligations légales, la production de preuves légales et « la discrimination ou le préjudice envers des individus ou des groupes en fonction de ... comportement social ou ... caractéristiques personnelles ou de personnalité ... [ou] caractéristiques ou catégories légalement protégées »[6],[7]. L'utilisateur possède les droits sur les images de sortie générées et il est libre de les utiliser à des fins commerciales[8].

Les critiques déplorant la publication du code source peuvent en général être liées aux inquiétudes concernant l'éthique de l'intelligence artificielle. Elles s'appuient sur l'hypothèse que le modèle peut être utilisé pour créer des deepfakes[9] et remettent également en question la légalité de la génération d'images avec un modèle formé sur un ensemble de données incluant du contenu protégé par le droit d'auteur, sans le consentement des artistes à l'origine de ce contenu[10].

Stable Diffusion 3.5 applique la licence communautaire permissive Stability AI alors que les entreprises commerciales dont le chiffre d'affaires dépasse le million de dollars ont besoin de la licence d'entreprise Stability AI[11]. Comme avec la licence OpenRAIL-M, l'utilisateur conserve les droits sur les images générées et il est libre de les utiliser à des fins commerciales[12].

Technologie

[modifier | modifier le code]

Modèles

[modifier | modifier le code]
Version date de sortie taille recommandée des images à générer licence d'utilisation Notes
1.0
1.4 [13] août 2022 512 x 512 pixels CreativeML OpenRAIL M license
1.5[14] octobre 2022 512 x 512 pixels CreativeML OpenRAIL M license Basé sur la version 1.2, publié par Runway ML, partenaire de Stability[15]
2.0[16] novembre 2022 768 x 768 pixels CreativeML OpenRAIL M license Modèle entrainé sans images explicites (érotiques, pornographiques)[17]
2.1[18] décembre 2022 768 x 768 pixels CreativeML OpenRAIL M license
SDXL 0.9 base[19] juin 2023 1024 x 1024 pixels SDXL 0.9 Research License
SDXL base 1.0[20]

SDXL refiner 1.0[21]

juillet 2023 1024 x 1024 pixels CreativeML Open RAIL++-M License
3.0 Medium 22 février 2024 (annonce et accès restreint)

12 juin 2024 (publication)

1024 x 1024 pixels Stability Non-Commercial Research Community License

En novembre 2023, Stability publie une version distillée nommée SDXL-Turbo[22], permettant la génération d'images en temps réel. À la différence des autres modèles, sa licence n'en permet pas un usage commercial et la version originale ne permet de générer que des images de 512x512 pixels. La communauté des utilisateurs[23] a depuis entraîné d'autres modèles Turbo permettant de générer des images de 1024x1024 pixels. Ces modèles Turbo peuvent générer une image en quelques étapes de calcul[24].

En février 2024, Stability publie un modèle Stable Cascade[25] construit sur l'architecture Würstchen[26]. Il fonctionne dans un espace latent beaucoup plus petit. Alors que Stable Diffusion utilise un facteur de compression de 8, ce qui signifie qu'une image de 1024x1024 est encodée en 128x128, Stable Cascade atteint un facteur de compression de 42, ce qui signifie qu'il est possible d'encoder une image de 1024x1024 en 24x24. Ce type de modèle est bien adapté aux utilisations où l'efficacité est importante. Comme la version Turbo, sa licence est non-commerciale et elle est destinée à la recherche.

Le 22 février 2024, Stability annonce la prochaine version de son modèle, Stable Diffusion 3[27].

Entraînement

[modifier | modifier le code]

Stable Diffusion est formé sur un sous-ensemble du jeu de données LAION-Aesthetics V2[28]. Il est entraîné sur 256 GPU Nvidia A100 pour un coût de 600 000 $[29].

ControlNet

[modifier | modifier le code]

ControlNet[30] est une structure de réseau neuronal qui permet d'ajouter un conditionnement spécifique à des images générées par Stable Diffusion à partir de texte. Les ControlNet utilisent une image de référence pour conditionner la génération. L'image passe un préprocesseur (détection de contours, de profondeur, de pose, etc.) et sert alors de guide à la génération. Cela permet par exemple de conserver la composition de l'image de référence dans les générations[31].

Exemples de ControlNet (liste non exhaustive) :

  • Détection de contours : Filtre de Canny
  • Détection de la position d'un corps humain : Pose[32]
  • Détection de la profondeur de champ : Depth[33]
  • Détection des lignes d'un dessin : Lineart

Certains modèles sont entraînés pour améliorer la netteté[34] ou coloriser[35] des images.

ControlNet se sert de couches spéciales, appelées convolutions zéro, qui commencent sans influence sur l'image et progressent doucement, évitant d'introduire des erreurs pendant l'amélioration du modèle[30].

Des modèles ont été entraînés pour les diverses versions de Stable Diffusion (1.4, 1.5, 2.1, SDXL).

Poursuites en justice

[modifier | modifier le code]

En janvier 2023, trois artistes — Sarah Andersen, Kelly McKernan et Karla Ortiz — intentent une action en justice contre Stability AI, Midjourney et DeviantArt, créateurs des générateurs d'art Stable Diffusion, Midjourney et DreamUp, affirmant que ces sociétés avaient bafoué les droits de « millions d'artistes » en entraînant leurs outils d'intelligence artificielle sur cinq milliards d'images extraites du web « sans le consentement des artistes créateurs »[36].

Le juge de district américain William Orrick III (en) rejette certaines des revendications de l'action collective, y compris toutes les allégations dirigées contre Midjourney et DeviantArt. Il indique que les artistes peuvent amender leur plainte contre les deux entreprises, dont les systèmes utilisent la technologie de texte à image Stable Diffusion de Stability.

Le juge rejette intégralement les revendications de violation du droit d'auteur de Kelly McKernan et Karla Ortiz et autorisé Sarah Andersen à poursuivre sa principale allégation selon laquelle l'utilisation présumée de son travail par Stability pour entraîner Stable Diffusion enfreint son droit d'auteur[37].

Notes et références

[modifier | modifier le code]
  1. ↑ (en) « Diffuse The Rest - a Hugging Face Space by huggingface », huggingface.co, sur Hugging Face (consulté le 5 septembre 2022).
  2. ↑ (en) Emad Mostaque (en), « Stable Diffusion Public Release », Stability.Ai, 22 août 2022 (consulté le 31 août 2022).
  3. ↑ (en) Richard Stallman, « Why programs must not limit the freedom to run them », sur gnu.org, 6 septembre 2022.
  4. ↑ « Ready or not, mass video deepfakes are coming », The Washington Post, 30 août 2022 (consulté le 31 août 2022).
  5. ↑ (en) « License - a Hugging Face Space by CompVis », huggingface.co, 22 août 2022 (consulté le 5 septembre 2022).
  6. ↑ « Ready or not, mass video deepfakes are coming », The Washington Post,‎ 30 août 2022 (lire en ligne [archive du 31 août 2022], consulté le 31 août 2022)
  7. ↑ « License - a Hugging Face Space by CompVis » [archive du 4 septembre 2022], huggingface.co (consulté le 5 septembre 2022)
  8. ↑ (ja) Katsuo Ishida, « 言葉で指示した画像を凄いAIが描き出す「Stable Diffusion」 ~画像は商用利用も可能 » [archive du 14 novembre 2022], Impress Corporation,‎ 26 août 2022 (consulté le 4 octobre 2022)
  9. ↑ (en) « Deepfakes for all: Uncensored AI art model prompts ethics questions », TechCrunch, 24 février 2022 (consulté le 31 août 2022).
  10. ↑ (en) Luke Plunkett, « AI Creating 'Art' Is An Ethical And Copyright Nightmare », Kotaku, 25 août 2022 (consulté le 2 septembre 2022).
  11. ↑ (en-GB) « Community License », Stability AI, 5 juillet 2024 (consulté le 23 octobre 2024)
  12. ↑ « Stable Diffusion 3.5 » [archive du 23 octobre 2024], Stability AI (consulté le 23 octobre 2024)
  13. ↑ « CompVis/stable-diffusion-v1-4 · Hugging Face », sur huggingface.co (consulté le 29 février 2024).
  14. ↑ « runwayml/stable-diffusion-v1-5 · Hugging Face », sur huggingface.co (consulté le 29 février 2024).
  15. ↑ (en) RunwayML, « Stable Diffusion v1-5 Model Card » Accès libre, sur HuggingFace, 22 octobre 2022.
  16. ↑ « stabilityai/stable-diffusion-2 · Hugging Face », sur huggingface.co (consulté le 29 février 2024).
  17. ↑ « Découvrir les modèles Stable Diffusion » Accès libre, stablediffusion.blog (consulté le 28 février 2024).
  18. ↑ « stabilityai/stable-diffusion-2-1 · Hugging Face », sur huggingface.co (consulté le 29 février 2024).
  19. ↑ « stabilityai/stable-diffusion-xl-base-0.9 · Hugging Face », sur huggingface.co (consulté le 29 février 2024).
  20. ↑ « stabilityai/stable-diffusion-xl-base-1.0 · Hugging Face », sur huggingface.co (consulté le 29 février 2024).
  21. ↑ « stabilityai/stable-diffusion-xl-refiner-1.0 · Hugging Face », sur huggingface.co (consulté le 29 février 2024).
  22. ↑ (en) stabilityai, « SDXL-Turbo Model Card » Accès libre, sur huggingface, 2_ novembre 2023.
  23. ↑ (en) divers, « Modèles SDXL Turbo CIVITAI » Inscription nécessaire, sur civitai.
  24. ↑ (en) Axel Sauer, Dominik Lorenz, Andreas Blattmann et Robin Rombach, « Adversarial Diffusion Distillation », Stability AI papers,‎ novembre 2023, p. 7 (lire en ligne Accès libre [PDF])
  25. ↑ (en) Stability, « Stable Cascade Model Card », sur Huggingface, février 1014.
  26. ↑ (en) Sayak Paul, Pedro Cuenca, Pablo Pernías, Kashif Rasul et Dominic Rampas, « Introducing Würstchen: Fast Diffusion for Image Generation » Accès libre, sur huggingface, 13 septembre 2023 (consulté le 28 février 2024).
  27. ↑ (en) Stability, « Stable Diffusion 3 » Accès libre, sur stability.ai, 22 février 2024 (consulté le 28 février 2024).
  28. ↑ (en) « LAION-Aesthetics | LAION », laion.ai (consulté le 2 septembre 2022).
  29. ↑ (en) Emad Mostaque (en), « Cost of construction », Twitter, 28 août 2022 (consulté le 6 septembre 2022).
  30. ↑ a et b Lvmin Zhang, Anyi Rao et Maneesh Agrawala, « Adding Conditional Control to Text-to-Image Diffusion Models » Accès libre, sur Cornwell University, arXiv, 10 février 2023 (consulté le 5 mars 2024).
  31. ↑ (en) stable-diffusion-art, « ControlNet v1.1: A complete guide » Accès libre, sur stable-diffusion-art.com, 5 novembre 2023 (consulté le 5 mars 2024).
  32. ↑ (en) « Papers with Code - Pose Estimation », sur paperswithcode.com (consulté le 5 mars 2024).
  33. ↑ (en) « Papers with Code - Depth Estimation », sur paperswithcode.com (consulté le 5 mars 2024).
  34. ↑ « kohya-ss/controlnet-lllite · Hugging Face », sur huggingface.co (consulté le 5 mars 2024).
  35. ↑ (en) Renato Sortino, « ColorizeNet: Stable Diffusion for Image Colorization », sur Medium, 7 octobre 2023 (consulté le 5 mars 2024).
  36. ↑ (en) James Vincent, « AI art tools Stable Diffusion and Midjourney targeted with copyright lawsuit », sur The Verge, 16 janvier 2023.
  37. ↑ (en) Blake Brittain, « Judge pares down artists' AI copyright lawsuit against Midjourney, Stability AI », sur Reuters, 30 octobre 2023 (consulté le 28 février 2024).

Articles connexes

[modifier | modifier le code]
  • DALL-E
  • Google Brain
  • Art créé par intelligence artificielle
  • StyleGAN

Liens externes

[modifier | modifier le code]

  • (en) Site officielVoir et modifier les données sur Wikidata
  • Stable Diffusion, une nouvelle IA de création d'images qui mise sur l’open source 7 septembre 2022
  • Stable Diffusion, l’IA qui crée des images, devient encore plus forte
  • Stable Diffusion, Imagen… les modèles d'IA génèrent-ils des images en bafouant la vie privée et les droits d'auteur ?
  • Les créateurs de Stable Diffusion « calment » leur IArtiste
  • Getty Images attaque Stable Diffusion en justice pour violation du droit d'auteur
  • Une intelligence artificielle est capable de lire dans les pensées et de les traduire en images, 10 mars 2023
v · m
Intelligence artificielle générative
Modèles
  • Texte-image
  • Texte-vidéo
Texte
  • Character.ai
  • Claude
  • DeepSeek
  • Gemini
  • GPT-3
  • GPT-4
  • Grok
  • Le Chat
  • Microsoft Copilot
  • SearchGPT
  • LLaMA
Images
  • Adobe Firefly
  • DALL-E
  • Flux
  • Midjourney
  • Stable Diffusion
Vidéos
  • Adobe Firefly
  • Sora
  • Veo
  • HeyGen
Musiques
  • Suno AI
  • Udio
Prompt
  • Prompt art
  • Ingénierie de prompt
Entreprises
  • Aleph Alpha
  • Anthropic
  • DeepSeek
  • Google DeepMind
  • Hugging Face
  • Meta AI
  • Mistral AI
  • OpenAI
  • Perplexity AI
  • xAI
Critiques
  • Droits d'auteur
  • Perroquet stochastique
  • Slop
  • icône décorative Portail de l’intelligence artificielle
  • icône décorative Portail de l'informatique théorique
  • icône décorative Portail des probabilités et de la statistique
  • icône décorative Portail de l’imagerie numérique
Ce document provient de « https://fr.teknopedia.teknokrat.ac.id/w/index.php?title=Stable_Diffusion&oldid=231717376 ».
Catégories :
  • Logiciel écrit en Python
  • Logiciel libre sous licence MIT
  • Traitement automatique du langage naturel
  • Linguistique informatique
  • Intelligence artificielle
  • Logiciel sorti en 2022
Catégories cachées :
  • Article contenant un appel à traduction en anglais
  • Page utilisant P571
  • Page utilisant P1324
  • Page utilisant P277
  • Logiciel catégorisé automatiquement par langage d'écriture
  • Page utilisant P306
  • Page utilisant des données de Wikidata à traduire de l'anglais
  • Page utilisant P31
  • Page utilisant P275
  • Page utilisant P856
  • Article utilisant une Infobox
  • Page utilisant un modèle Bases inactif
  • Article utilisant le modèle Dictionnaires inactif
  • Page utilisant le modèle Autorité inactif
  • Portail:Intelligence artificielle/Articles liés
  • Portail:Informatique/Articles liés
  • Portail:Technologies/Articles liés
  • Portail:Informatique théorique/Articles liés
  • Portail:Mathématiques/Articles liés
  • Portail:Sciences/Articles liés
  • Portail:Probabilités et statistiques/Articles liés
  • Portail:Imagerie numérique/Articles liés
  • Page comportant une illustration générée par une IA

  • indonesia
  • Polski
  • الرية
  • Deutsch
  • English
  • Español
  • Français
  • Italiano
  • مصر
  • Nederlands
  • 本語
  • Português
  • Sinugboanong Binisaya
  • Svenska
  • Українска
  • Tiếng Việt
  • Winaray
  • 中文
  • Русски
Sunting pranala
Pusat Layanan

UNIVERSITAS TEKNOKRAT INDONESIA | ASEAN's Best Private University
Jl. ZA. Pagar Alam No.9 -11, Labuhan Ratu, Kec. Kedaton, Kota Bandar Lampung, Lampung 35132
Phone: (0721) 702022
Email: pmb@teknokrat.ac.id