Un diacritique ou signe diacritique (du grec ancien : διακριτικός / diakritikós, « qui distingue ») est un signe accompagnant une lettre ou un graphème pour en modifier le sens ou la prononciation.
En ce qui concerne la lettre ou le graphème, le diacritique peut être placé au-dessus (diacritique suscrit), au-dessous (diacritique souscrit), devant (diacritique prescrit), derrière (diacritique adscrit), dedans ou à travers (diacritique inscrit), ou autour (diacritique circonscrit). Les accents, le tréma et la cédille sont des signes diacritiques.
Présentation
Son objectif est de :
- modifier la valeur phonétique de la lettre (ou du graphème) ;
- permettre une meilleure compréhension du texte (les diacritiques ne sont alors pas obligatoires[réf. souhaitée]) ;
- éviter une ambiguïté entre des homographes.
Il existe aussi des lettres diacritiques, muettes et nécessairement écrites à côté de la lettre qu'elles modifient. Accessoirement, elles ont pu devenir un signe diacritique (cf. umlaut et rond en chef).
Au même titre que les ligatures et que les lettres supplémentaires inventées après coup, l'ajout de diacritiques étend le nombre de graphèmes d'une écriture. Dans de nombreux cas, la lettre diacritée n'est pas considérée comme un graphème indépendant ; elle fonctionne comme un allographe, c'est-à-dire une autre version écrite de la lettre simple. La lettre diacritée n'entre pas dans le classement alphabétique.
À titre d'exemple, l'accent aigu du français modifie la valeur phonétique d'un e, généralement prononcé [ǝ] (e « muet ») : é vaut alors [e]. L'accent grave sur un a permet de distinguer des homographes : la (article) ~ là (adverbe de lieu), valant tous deux [la] en français (ils se distinguent à l'oral dans certains dialectes du français). Le é et le à ne sont pas considérés comme des lettres indépendantes de e et a.
En écriture latine, les diacritiques ne servent en général pas à affiner la lecture : ils sont tous obligatoires.
En écriture arabe, où les voyelles ne sont en principe pas écrites, les diacritiques servent au contraire à affiner la lecture. Dans les ouvrages didactiques ou religieux, il est possible de les noter sous forme de diacritiques[Quoi ?]. La fatḥa, un trait légèrement oblique suscrit, sert à indiquer la présence d'une voyelle [a] : le mot عدل se lit ʿadl (‘adl) mais se translittère ʿdl. Pour en préciser la lecture, il est loisible d'ajouter une fatḥa : عَدل. Dans cet alphabet, comptent comme diacritiques les points souscrits ou suscrits qui servent à distinguer un graphème pouvant être réalisé en son de différentes manières. Ainsi le graphème ح sert de support à trois autres lettres, qui sont distinguées dans l'écriture par la présence ou l'absence de point : ج ح خ — prononcées, de droite à gauche : ǧ, ḥ, ḫ.
En règle générale, si une lettre diacritée est présente dans une langue, la lettre simple l'est également. Les exceptions sont :
- le maltais, qui possède ċ et pas c ;
- le biélorusse, qui possède й sans и ;
- et dans une certaine mesure, la forme minuscule de l'alphabet latin de base, qui possède i et pas ı. Le turc, pour sa part, établit la distinction ı/i et I/İ dans les deux casses, I étant dans ce cas la forme capitale de ı et İ celle de i.
Diacritiques selon l'écriture et l'alphabet
Chaque écriture a développé ses propres diacritiques :
- diacritiques de l'alphabet latin : celui-ci servant aussi à la romanisation, c'est l'alphabet qui connaît le plus de signes diacritiques :
- cf. aussi diacritiques de l'alphabet vietnamien (quốc ngữ),
- les diacritiques utilisés en français, leur utilisation et les règles d'emploi, sont traitées à part ;
- diacritiques de l'alphabet grec ;
- diacritiques de l'alphabet cyrillique ;
- diacritiques de l'alphabet arabe ;
- diacritiques de l'alphabet hébreu ;
- diacritiques de l'alphabet italien ;
- diacritiques de la devanâgarî ;
- diacritiques des syllabaires japonais ;
- diacritiques de l'alphabet tibétain ;
- diacritiques de l'alphabet turc ;
- diacritiques de l'alphabet phonétique international.
Prise en compte en informatique
ASCII
Le jeu de caractères ASCII standard, utilise un sous ensemble de 7 bits du système octal (8 bits) très sollicité lors des débuts de l'informatique. Il comporte 128 codes, dont 95 caractères affichables, parmi lesquels 52 caractères alphabétiques, les 26 lettres de l'alphabet latin en casses majuscule et minuscule (ou bas-de-casse) et pas de lettre accentuée.
Historiquement, vers 1963, la première version de l'ASCII prévoyait des accents (~ ' ` , ^ " ~) pour composer les caractères accentués en combinant le caractère et l'accent, en utilisant le symbole de suppression ou retour arrière. Les lobbies en présence[réf. nécessaire] ont éliminé cette possibilité dès la deuxième version. En conséquence, l'ASCII ne permet pas l'échange de textes comportant des caractères accentués.
Pour remédier à cet état de fait, des jeux de caractères appelés ASCII étendu, ont été proposés. Ils comportent 256 codes et requièrent donc 8 bits. Les 128 codes supplémentaires à l'ASCII initial servent notamment à représenter voyelles et consonnes de l'alphabet latin comportant des signes diacritiques.
Les premiers jeux de caractères étendus, dits pages de code, furent créés par la société IBM pour ses micro-ordinateurs « PC »[réf. nécessaire] ; dans ce système, une page de code ou « CP » (codepage) est spécifiée par un nombre et associée à un ensemble particulier : la CP437 est l'ensemble « américain » ou « graphique » ; la CP850 est l'ensemble « multilingue européen ».
Avec l'apparition des environnements graphiques (Apple Macintosh, Microsoft Windows, X Window, etc.), les caractères « graphiques » des pages de code n'ayant plus lieu d'être[réf. nécessaire] un plus grand nombre de codes étendus ont servi à noter des caractères à signes diacritiques. Les ensembles créés conjointement par IBM et par la société Microsoft pour leurs deux plateformes graphiques, Windows et OS/2 « Présentation Manager », servirent de base pour une série de jeux de caractères ISO, la norme ISO/CEI 8859 qui se décline en quinze ensembles :
- 8859-1 à 8859-4, 8859-9, 8859-10, 8859-13 à 8859-16 : « Latin1 » à « Latin10 », variantes de l'alphabet latin avec caractères à diacritiques de divers pays et régions (France, Italie, Espagne, Albanie, Turquie, pays scandinaves, Hongrie, Pologne, etc.) ;
- 8859-6 : alphabets latin et arabe ;
- 8859-7 : alphabets latin et grec ;
- 8859-8 : alphabets latin et hébreu ;
- 8859-11 : alphabet thaïlandais.
En l'absence d'un clavier d'ordinateur français ou lorsqu'une application ne propose pas les caractères accentués, il est possible d'obtenir ces diacritiques en ajoutant un caractère devant la lettre à accentuer, ou derrière, voire devant et derrière. Cela peut donner par exemple :
Le garc,on ne pouvait 'e`tre l`a cet e'te'.
Voir aussi les exemples dans chaque article sur les diacritiques, ainsi que dans l'article VIQR. L'espéranto fait optionnellement de même, l'article 15-1 de la déclaration des droits de l'homme pouvant ainsi s'écrire Ĉiu rajtas havi ŝtatanecon ou Cxiu rajtas havi sxtatanecon, selon le codage souhaité, sauf si l'ordinateur dispose d'une touche Compose ou similaire.
Unicode
Le Consortium Unicode, qui rassemble la plupart des grands noms de l'informatique, fut créé au milieu des années 1980 pour répondre à l'incompatibilité des divers codages de caractères développés pour diverses plateformes matérielles et logicielles (EBCDIC et système « codepage » d'IBM/Microsoft, jeux propres à Apple, à HP, jeux Unix et autres) et en liaison avec le développement de la norme ISO/CEI 10646.
Le but initial était de développer un système de codage non plus de 8 bits mais de 16 bits, ce qui permet le codage de 216 soit 65 536 caractères. Actuellement, la norme a été étendue au-delà des 16 bits, car la variété des caractères et symboles (notamment les symboles mathématiques et scientifiques) à représenter excède de beaucoup cette limite, la seule écriture chinoise avec ses diverses variantes dépassant déjà cette limite de 65 536.
Le principe retenu consiste à grouper soit des ensembles soit des sous-ensembles de caractères et de symboles par « pages » de 256 codes ou « blocs ». Par exemple, les blocs 0 à 3 correspondent à quatre sous-ensembles de l'alphabet latin, le bloc 6 aux « signes diacritiques combinés » associables aux caractères de l'alphabet latin, le bloc 7 aux caractères grecs et coptes, le bloc 11 à l'hébreu, les blocs 12 à 14 aux alphabets arabe et syriaque, le bloc 58 aux symboles monétaires, les blocs 63, 73, 77 et 78 aux symboles mathématiques.
Dans sa version finale, le système Unicode 16 bits n'a pas retenu les écritures pictographiques, qui répondent à une autre norme.
Il y a au moins trois manières (méthodes d'entrée) d'insérer un caractère Unicode dans un document :
- par valeur ;
- par numéro d'ordre ;
- par alias.
L'inscription par valeur consiste à placer dans le document la séquence numérique de 16 bits qui correspond à un caractère donné. Les méthodes par numéro d'ordre sont utilisées dans certains types de documents seulement, notamment dans les fichiers de format RTF et HTML ou assimilés (XML, PHP notamment). Dans tous les cas, le principe est le même : faire précéder ou entourer le numéro ou l'alias d'une « séquence d'échappement ».
Dans les documents HTML, on place la séquence « & » (alias) ou « &# » (numéro) au début et le signe « ; » à la fin de la séquence, et entre les deux le numéro d'ordre ou l'alias.
Par exemple, les séquences « 
» et « &
» permettent de représenter le signe « et commercial » (appelé aussi « esperluette » ou « ampersand »), « & ».
HTML
À cette notation basée sur le numéro (voir ci-dessus), certains préfèrent la notation par alias, plus simple à mémoriser. La liste étant longue, un seul exemple est donné pour chacun. Si l'exemple est donné avec la lettre a, on peut utiliser l'entité HTML (et donc le signe diacritique correspondant) avec toutes ou la plupart des lettres, selon la règle ci-après. Si l'exemple est donné avec une autre lettre, l'entité HTML ne peut être utilisée qu'avec quelques lettres.
Pour appliquer le signe diacritique sur une autre lettre que celle donnée en exemple, il suffit de changer la lettre qui suit l'esperluette. Ainsi, á donne un a avec accent aigu (á), pour obtenir un i accent aigu (í), il faut écrire í. Ceci s'applique aussi aux majuscules : Á donne Á, Í donne Í.
á | ʼn | ă | č | ç | â | ő | ċ | à | ā |
---|---|---|---|---|---|---|---|---|---|
á | ʼn | ă | č | ç | â | ő | ċ | à | ā |
ŀ | ı | ą | å | ø | đ | ł | ã | ä | |
ŀ | ı | ą | å | ø | đ | ł | ã | ä |
´ | ' | ˘ | ˇ | ¸ | ˆ | ˝ | ˙ | ` | ¯ | ˛ | ˚ | ˜ | ¨ |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
´ | ' | ˘ | ˇ | ¸ | ˆ | ˝ | ˙ | ` | ¯ | ˛ | ˚ | ˜ | ¨ |
Notes et références
Voir aussi
Bibliographie
- (en) « Diacritics Project @ Typo.cz », sur diacritics.typo.cz.
- (en) Palo Bálik, Fikip Blažek, Robert Kravjanszki, Agnieszka Małecka et Zofia Oslislo, The Insects Project, Problems of Diacritic Design for Central European Languages, (lire en ligne).
- (en) J.C. Wells, « Orthographic diacritics and multilingual computing », Language Problems and Language Planning, vol. 24, no 3, (lire en ligne).