Le projet:les Mille Pages a pour objectif de créer des séries de 1000 biographies de femmes dans des délais les plus courts possibles, à l’aide de processus automatisés ou bots.
Ce projet s’inscrit dans une démarche globale de réduction du biais de genre sur Wikipédia en français et donc à améliorer la visibilité sur Wikipédia des femmes. A ce titre, il est connexe au Projet:Les sans pagEs.
Phasage du projet
Méthode 1
Phase 1 | 27-31 décembre 2022 | Phase expérimentale. Création dans l'espace principal de 49 biographies de scientifiques américaines, par traduction d’articles existant sur Wikipédia en anglais. Ces articles sont d’emblée wikifiés (liens internes a minima), avec les mêmes références que l'article original (avec la syntaxe de la WP :fr), avec portail et catégories adaptées. Des tâches connexes sont réalisées : évaluation, ajout article dans des pages éphéérides, dans la page d'homonymie s'i y en a une. |
Phase 2 | 1-4 janvier 2023 | Publication dans l’espace projet de 1044 articles avec un préfixe «Projet:Les Mille Pages/». |
5 janvier 2023 | Information des principaux projets concernés. | |
janvier-février 2023 |
Après vérification de son admissibilité, tout article peut être publié dans l’espace principal par tout contributeur qui souhaite s'engager sur son amélioration. L'article est ensuite travaillé soit individuellement soit collectivement (à plusieurs ou lors d’un editathon par exemple). Un bilan sera fait après un délai de 2 mois. | |
Phase 3 | lancée sous conditions | Ue nouvelle approche par occupation et par langue sera déclenchée uniquement si le bilan de la phase 2 est satisfaisant. Des requêtes sql sur Wikidata permettent de lister par occupation/métier les articles figurant dans d’autres WP et pas dans la WP fr : d’abord en langue anglaise, puis espagnole, puis allemande. Une approche par catégories peut aussi être envisagée. Nécessite néanmins dans les deux cas la création de glossaires nouveaux. |
Méthode 2
13 janvier 2023 | Publication de 41 articles des « articles vitaux » de la WP anglaise, selon une nouvelle méthode (voir la page de suivi). |
Suivi du projet
Classement alphabétique
Classement par projet
Mode de publication des articles
Ces projets d'articles constituent une base de départ et doivent être vérifiés, corrigés et complétés. Afin de valoriser ce travail aval, les contributeurs qui souhaitent s'approprier un article en le publiant dans l'espace principal le feront sous leur propre pseudo, en
- mentionnant simplement dans le commentaire de création « créé dans le cadre du [[projet:Les Mille Pages]], après première traduction par Utilisateur:Roland45 ».
- ajoutant le nom de l'article créé, son descriptif et la signature (~~~~), dans la page des articles créés.
Articles créés
Projet:Les Mille Pages/Articles créés permet de suivre les articles créés.
Bilan à l'issue de la phase 2
Le bilan après deux mois n’est pas positif, puisque seulement 18 articles ont été publiés, et surtout, il n’est pas évident que tous aient été produits à partir des brouillons de l’espace projet. Et ce malgré une info dans les différents projets concernés. La raison est probablement à chercher dans une question d’appropriation. Il est peu probable que la phase 3 soit lancée.
A l'occasion de la journée internationale des femmes du 8 mars 2023, 100 articles ont été mis en ligne. Leur liste est ici.
Descriptif du projet
Participants
La création des premiers articles dans l'espace principal puis des brouillons d'articles dans l'espace projet est faite par Roland45, appuyé par divers outils d'assistance informatisés (bots).
Tout wikipédien peut contribuer au projet en procédant à une relecture, des corrections et d'éventuels ajouts ou suggestions sur les articles créés. En phase 2, tout contributeur considérant qu'un article peut être publié le publie avec son propre pseudo, en enlevant le préfixe au titre. Le projet d'article doit être considéré comme une aide à la contribution.
Méthode
L’objectif est de proposer une traduction exhaustive des articles de la WP anglaise avec un rendu directement wikifié, sourcé, avec affichage des catégories, portails et projets associés et une syntaxe du code correcte.
L’outil de traduction mis à disposition par Mediawiki propose une traduction simultanée d’articles pris individuellement puis publiés manuellement dans l’espace principal, après une traduction section par section (voir ici ou ici).
Il s'agit ici de traiter simultanément des lots d'articles. L'ensemble des tâches aboutissant à la création d’un article a été listé et tout ce qui peut être automatisé a fait l’objet d’un script informatique écrit en VBA, adossé à des feuilles de calculs dans Excel pour tout ce qui est récupération et glossaires.
Deux méthodes étaient donc envisageables :
- la première s'apparentant à celle de l'outil de traduction, mais dédiée à un traitement en masse, à savoir la récupération du code de chaque article par lots, puis une traduction complète de tous ces codes. Ceci à l'inconvénient de générer un très grand nombre d'erreurs de syntaxe du code (mauvaise wikification, mauvais modèles, erreurs de ref) et nécessite donc une relecture ultérieure relativement longue ;
- la deuxième récupérant séparément le texte brut (non wikifié), les catégories, les références (codées en anglais) et l’oldid de la version à traduire, de traduire le texte brut, les réf et les catégories, puis de wikifier le texte brut et de réassembler le tout. Inconvénient : nécessite un travail en amont relativement conséquent (glossaires, codage beaucoup plus long, etc). Avantage : la texte wikifié produit ne comporte normalement que peu d'erreurs et le temps de relecture est donc réduit.
Cette deuxième solution a été retenue.
Les différentes tâches mises en œuvre sont les suivantes (pour une sélection donnée d'articles faite en amont) :
Tâches liées à la création des articles de la sélection
- récupération à partir de l’article anglais séparément du texte brut (non wikifié), des catégories, des références (codées en anglais) et de l’oldid de la version traduite ;
- élaboration d’un glossaire des catégories propres aux scientifiques américaines (à partir du corpus d’articles existant dans la WP en français relatifs à des scientifiques américaines) ;
- traduction des paramètres des références (les titres des liens restent dans la langue originale) ;
- élaboration du glossaire des catégories anglaises et françaises de la sélection (de nombreuses catégories anglaises n’existent pas en français - aucune catégorie ne sera créée spécifiquement) ;
- élaboration d’un glossaire des définitions succinctes des personnes de la sélection (à partir de Wikidata, mais pas que);
- élaboration du glossaire des portails et des projets associés à la sélection d’articles (précision : les projets associés au portails ne portent pas toujours le même nom, notamment lorsqu’ils sont plus englobants) ;
- définition d’un titre dans la WP française (les homonymies dans la WP:en ne sont pas celles de la WP:fr)
- traduction automatique de l’article via DeepL (+ relecture à grandes mailles par séries d’articles) ;
- ajout dans l’article (hors WP - par lots d'articles en fait) : des liens internes (à partir du glossaire dédié), des références (avec la syntaxe adaptée), du ou des portails liés (souvent absents dans la WP anglaise), des catégories, des éventuelles homonymies, de la clé de tri, de l’oldid de référence de traduction ;
- chargement sur Wikipédia de l’article assemblé et mis en forme.
Tâches complémentaires associées (traitées simultanément)
- création de l’évaluation de l’article en PDD ;
- ajout de l’article dans la liste des articles du projet ;
- ajout de l’article dans la page de type « mois année » comme octobre 1925 , dans la section « Naissance » ou « Décès »( si le mois et l’année de naissance et de décès sont connus) ;
- ajout de l’article dans la page d’homonymie associée (s’il y en a une).
Tâches complémentaires associées (traitées manuellement postérieurement)
- relecture ;
- ajout de palettes (existantes ou à créer) ;
- ajout éventuel de l’article dans des listes pré-existantes.
L’intervention humaine est ainsi encore présente à de multiples niveaux (sélection d’articles, création de glossaires, rédaction des scripts, relectures à divers niveaux, etc).
Admissibilité des articles
La présélection des 1000 premiers articles a été établie en fonction de leur longueur et du nombre de références. Certains, bien que d’une longueur conséquente, n’ont pas été retenus parce qu’ils ne contenaient pas suffisamment de sources (comme en:Lillie Rosa Minoka Hill, même si, vu le nombre de distinctions, l'article serait admissible).
Certains sont très courts et peu sourcés, mais admissibles, du fait de la notoriété avérée de la personne, comme en:Linda Braidwood ou en:Linda K. George.
Tous les articles n’ont pas été pré-lus pour se faire une idée. Il se peut donc qu’il y ait des articles en limite d’admissibilité.
Forme de l’article
Temps
Dans la mesure du possible, les articles seront écrits au présent de narration. Dans la WP anglaise, l’imparfait ou des formes passées sont utilisés lorsque la personne est décédée, et le présent lorsque la personne est vivante, une adaptation systématique des temps est donc nécessaire (ce qui n’est … pas si simple !).
Féminisation des noms
Il est communément admis de considérer la féminisation ou l'absence de féminisation comme un choix de style, qui est donc laissé à la discrétion des rédacteurs et des rédactrices. Il est rarissime que les contributeurs déclarent leurs préférences de style. Comme ici, c’est un bot qui met en forme l’article (relu par un humain certes), il paraît toutefois logique de préciser ces préférences (qui ne s’appliquent que dans le cadre de ces articles).
Les règles suivies sont les suivantes :
- termes englobants en remplacement de termes au genre masculin dans le cas où celui-ci est utilisé comme neutre : NON
- double flexion : NON
- féminisation rarement usitée des métiers et fonctions : uniquement celles qui apparaissent dans les catégories de la WP fr ou quasiment passées dans l’usage. Exemples : autrice, professeure, ou membre fondatrice (membre étant alors considéré comme un nom épicène)
- accord de proximité plutôt que la règle « le masculin l’emporte sur le féminin » : NON
- mots valises masculins-féminins : NON
- formes de rédaction inclusives reposant sur l’usage de formulations non-binaires : NON
Références
Dans le corps du texte original (en anglais) les références explicites (type <refname=AA> … </ref>) et les renvois de références (type <refname=AA/> ) ne suivent pas un ordre donné (on peut avoir un ou des renvois de références avant la référence explicite. Le bot remettra tout en ordre : d’abord la ref explicite, puis les renvois. Il s’agit d’une modification cosmétique (complexe toutefois à traiter), donc non visible par le lecteur.
Certaines formes sont relativement complexes à traiter par le bot et peuvent nécessiter une mise en forme à la main :
- lorsque toutes les références sont explicitement dans la section référence (et qu’il n’y a dans le corps du texte que des renvois (ex : en:Barbara A. Bailar ou en:Theoni Pappas) ;
- lorsque les références sont groupées par nature d’éditeur (comme pour en:Ann Kiessling où les groupes sont dans la section Références) ou dans un groupe Notes (en:Beulah Ream Allen, où la section Notes est en-dehors de la section Références).
Certaines références de la WP anglaise comportent des liens brisés. Quelquefois d'aileurs ils sexpiciteemnt brisés avec le modèle dead link. Ces liens resteront brisés dans la WP fr car aucune vérification exhaustive des liens n’est faite. le modèle dead link sera remplacé par lien brisé.
Modèles
Les modèles suivants seront ajoutés :
- {{Date de naissance-}}
- {{Date de décès-}}
- {{Date-}}
- {{Botan.}} en:Template:Botanist -> Modèle:Botan. (mise en fin d’article, avant les portails ou palettes).
- {{PMID}}, {{PMC}}, {{ISBN}}, {{ISSN}}, {{JSTOR}}, {{doi}}, lorsque les modèles {{Article}} ou {{Ouvrage}} ne sont pas utilisés.
Dans cette première version, les modèles {{nobr}} et {{Unité}} ne sont pas ajoutés automatiquement.
Listes à puces
Selon les conventions typographiques, une liste à puces composée de groupes nominaux ou verbaux ou de phrases, introduite par un deux-points a son premier niveau terminé par un point-virgule et son second niveau par une virgule. Lorsqu'elle n'est pas introduite par un deux-points , elle n'a en principe pas de ponctuation finale, mais on peut utiliser un point à la fin des items selon leur longueur.
Il existe des listes à puces dans les articles dédiés aux personnes (notamment dans la section "Ditinctions et récompenses") et dans les articles de types listes. Il existe une grande hétérogénéité dans leur traitement. Par mesure de simplification, la règle suivante sera appliquée :
- dans les articles dédiés aux personnes, tous les items se termineront par un point ;
- dans les articles de types listes (homonymie, éphémérides), tous les items se termineront par un point-virgule.
Il ne sera affectué aucune correction des syntaxes existantes (dans les articles de types listes), de sorte que :
- certaines hétérogénéités peuvent subsister dans le signe de ponctuation final des items ;
- lorsque la liste n'est pas classée par ordre alphabétique, elle reste telle quelle (l'item nouveau vient se placer après l'initiale précédent l'itiale de cet item).
Noter qu'une mise en forme automatique (par un bot) de toutes les listes ne respectant pas les règles pourrait être envisagée, mais il s'agit d'un travail spécifique qui n'a pas été retenu dans le cas présent.
Typographie
Pour toutes les citations comportant des guillements droits dans l'article original en anglais, la traduction récupère logiquement ces guillemets droits. Pour l'instant le bot ne traduit pas ces guillemets droits en « et », ni avec le modèle:citation, car ces mêmes guillemets droits sont utilisés dans le code pour d'autres fonctions. Une intervention manuelle est donc (pour l'instant) nécessaire sur cet aspect.
Infobox et rattachement à Wikidata
Le modèle Biographie2 sera utilisé pour afficher l'Infobox. Mais comme le bot ne rattachera pas automatiquement l'article à Wikidata (rattachement qui devra être fait à la main), l'affichage de l'Infobox sera forcé en utilisant le code WD de l'article, sous la forme {{Infobox Biographie2|wikidata=Q23542889}} .
Commentaires
Sur le bot proprement dit
Il s’agit d’un ensemble de bots autrement plus complexe que celui utilisé en 2018 pour créer les articles sur les astéroïdes (20 000 en 5 jours) ou ceux qui pourraient être faits pour créer des articles sur des objets géographiques figurant dans d’autres WP et absents de la WP fr, ce qui permettrait facilement de remonter le score de la WP fr (soit dit en passant les articles sur les astéroïdes faisaient en moyenne 4 koctets à la création contre à peine 500 octets pour de nombreux articles géographiques actuellement créés - ex avec Los Huisaches). Un certain nombre de traitements manuels reste en outre à faire entre chaque série de 1000.
Sur les pages liées
Le nom de chaque personne est ajouté dans la page de type « mois année » comme octobre 1925, dans la section « Naissance » ou « Décès » (si le mois et l’année de naissance et de décès sont connus), principalement pour éviter l'apposition automatique du bandeau d'article orphelin (étant entendu que des ajouts peuvent être faits au cas par cas dans de nombreuses autres listes thématiques). L'ajout aurait pu également être fait automatiquement dans d'autres pages éphémérides, comme celles du type décès en 1886 ou naissance en 1886, mais toutes les pages éphémérides de ce type n'ont pas été créées et elles n'ont pas toutes les mêmes structures. En tout état de cause un passage ultérieur peut être envisagé.
Quelques chiffres
Combien pour atteindre les 20 % ?
Le vrai indicateur de biais de genre est le % des bios féminines, toutes nationalités confondues, par rapport au % de ces bios disponibles dans les sources notables. Comme cet indicateur n’existe pas, on se contentera de l’indicateur de biais de genre apparent, tel qu’il ressort en faisant le ratio bios femmes/total des bios sur WP.
Il n’existe pas d’outil mesurant l'évolution historique du biais de genre (gender gap) depuis la création des différentes versions linguistiques de Wikipédia, mais trois étapes peuvent apparemment être identifiées :
- en 2016, Wikipédia en français compte 450 000 biographies d'hommes, contre 75 000 de femmes, soit seulement 14,3 %.
- en septembre 2020, 495 504 d’hommes et 112383 de femmes, soit un ratio de 18,473 (voir ici)
- Au , Wikipédia en français compte 541 819 biographies d'hommes, contre 130 858 de femmes, soit seulement 19,429 %. (voir ici).
Ainsi il y aurait un apport moyen de 9 000 bios de femmes par an (noter que, sauf erreur, le projet:les Sans Pages y contribue pour environ 1500 par an).
Pour passer le cap des 20 %, il faudrait ajouter 5000 bios de femmes, sans apport de bios d’hommes. Ainsi le bot apportera sa quote-part mais ne réduira pas massivement par magie l’écart.
Les créations de Jess Wade
Jess Wade a été très médiatisée avec la création de 1600 articles (voir ici).
Les articles sont souvent relativement courts. Il semblerait que Jade ait utilisé les productions d’ébauches de résumés créées par QuickSilver, un outil d’intelligence artificielle développé par la start-up californienne Primer, permettant la création d’ébauches (pas au format WP) des personnalités scientifiques ne figurant pas dans Wikipedia par deep learning à partir du web (voir ici).
Outils
Requêtes SQL
Pour la phase 3, exemple de requête sur les articles consacrés à des femmes chimistes dans la WP anglaise :
SELECT ?item ?itemLabel ?titreEn ?wen ?linkcount
WHERE
{
?item wdt:P106 ?occ .
VALUES ?occ {
wd:Q593644 # chimiste
}
FILTER NOT EXISTS { # pas dans fr.wikipedia
?wfr schema:about ?item .
?wfr schema:isPartOf <https://fr.teknopedia.teknokrat.ac.id/> .
}
# dans en.wikipedia
?wen schema:about ?item ;
schema:isPartOf <https://teknopedia.ac.id/> ;
schema:name ?titreEn .
?item wdt:P21 wd:Q6581072 . # genre: féminin
?item wdt:P31 wd:Q5 . # humain
OPTIONAL {?item wikibase:sitelinks ?linkcount .} # nombre de liens interlangues
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } # le label viendra de préférence dans votre langue, et autrement en anglais
}
ORDER BY DESC (?linkcount)
Exemples de décompe avec les requêtes
Femmes chimistes (à la date de la requête WD, définie ci-après dans la section Outils) :
- en langue anglaise : 779
- en langue allemande : 264
- en langue espagnole : 233
- articles issus de la WP anglaise, allemande ou espagnole (et pas dans la WP française) : 1000 (dont 450 avec un seul interwiki – en, es ou de)
Approche par catégorie
Une approche par catégorie est envisageable.