Discussion:GB 18030

Le contenu de la page n’est pas pris en charge dans d’autres langues.
Une page de Wikipédia, l'encyclopédie libre.
Autres discussions [liste]
  • Admissibilité
  • Neutralité
  • Droit d'auteur
  • Article de qualité
  • Bon article
  • Lumière sur
  • À faire
  • Archives
  • Commons

Introduction et abus de langage[modifier le code]

De ce que je comprends de GB 18030, ce n'est pas un jeu de caractères, c'est un système de codage, au meme titre qu'UTF-8. UTF-8 est une manière de coder sous forme de séquence d'octets le jeu de caractères d'Unicode, l'ensemble des caractères définis par un index(point de code), un nom et des propriétés. GB 18030 permet de coder les caractères Unicode d'une autre manière, compatible avec les codages utilisés précédemment en Chine Populaire (GBK par ex.). Il permet potentiellement de traiter des caractères en dehors du répertoire Unicode dans la mesure ou le nombre de caractères différent encodable est supérieur, mais de ce que je comprends il n'utilise pas cette capacité : le jeux de caractères utilisé est (besoin de confirmation) celui du répertoire Unicode. Baldodo (d) 8 mars 2012 à 16:44 (CET)[répondre]

Est-ce que les traducteurs bénévoles de l'anglais pouvaient au moins connaître la terminologie française en la matière !!! Cf. www.unicode.org/fr/charts

Paragraphe Description, référence à l'ASCII[modifier le code]

Le Paragraphe "Description" contient la parenthèse suivante :

"(en particulier, un algorithme spécial est nécessaire pour rechercher des caractères ASCII dans des séquences GB18030)."

Je pense que la référence à l'ASCII est abusive. ASCII ne définit que les 128 premiers caractères qui sont "mappés" tels quel par GB18030 (à l'exception du caractère ASCII de contrôle 0x7F). J'imagine que l'auteur initial voulait parler des caractères 8 bits dont le code est compris entre 128 (0x80) et 255 (0xff). Le problème c'est qu'un code "ASCII" (abus de langage) supérieur à 127 peut s'interpréter de différentes façons (multiples extension de l'ASCII tels que les ISO-8859-* ou les jeux de caractères windows tels que CP-850). Je propose la ré-écriture suivante :

"(en particulier, un algorithme spécial est nécessaire pour rechercher certains caractères latins accentués courants dans des séquences GB 18030)".

A moins qu'on parle de "caractères dont le point de code Unicode est compris entre 128 et 255" mais ça me semble un peu trop technique. Baldodo (d) 7 mars 2012 à 17:37 (CET)[répondre]