Canalblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Publicité
mli07 Terminographie
Derniers commentaires
Archives
16 octobre 2013

Unicode

Unicode est un standard informatique qui permet des échanges de textes dans différentes langues, à un niveau mondial.

  • Elle est développée par le Consortium Unicode, qui vise à permettre le codage de texte écrit en donnant à tout caractère de n’importe quel système d'écriture un nom et un identifiant numérique, et ce de manière unifiée, quelle que soit la plate-forme informatique ou le logiciel.
  • Ce standard est lié à la norme ISO 10646.
  • La dernière version, Unicode 6.3, est publiée depuis le 30 septembre 2013.
  • Les normes sont plutôt payantes, et peu diffusées, alors que les standards sont plus facilement diffusés. En particulier le standard Unicode est généralement mieux connu que la norme ISO-10646 qui en est un sur-ensemble.
  • Totalement compatible avec le jeu universel de caractères (JUC) de l'ISO/CEI 10646, le standard Unicode l'étend en lui ajoutant un modèle complet de représentation et de traitement de textes, en conférant à chaque caractère un jeu de propriétés normalisées ou informatives, en décrivant avec précision les relations sémantiques qui peuvent exister entre plusieurs caractères successifs d’un texte, et en normalisant des algorithmes de traitement qui préservent au maximum la sémantique des textes transformés, tout en étendant l’interopérabilité de la représentation de ces textes sur des systèmes hétérogènes.
  • Le standard Unicode est constitué d'un répertoire de plus de 109 000 caractères couvrant 93 écritures, d'un ensemble de tableaux de codes pour référence visuelle, d'une méthode de codage et de plusieurs codages de caractères standard, d'une énumération des propriétés de caractère (lettres majuscules, minuscules, symboles, ponctuation, etc.) d'un ensemble de fichiers de référence des données informatiques, et d'un certain nombre d'éléments liés, tels que des règles de normalisation, de décomposition, de tri, de rendu et d'ordre d'affichage bidirectionnel (pour l'affichage correct de texte contenant à la fois des caractères d'écritures droite à gauche, comme l'arabe et l'hébreu, et de gauche à droite).
  • En pratique, Unicode reprend intégralement la norme ISO/CEI 10646, puisque cette dernière ne normalise que les caractères individuels en leur assignant un nom et un numéro normatif (appelé point de code) et une description informative très limitée, mais aucun traitement ni aucune spécification ou recommandation pour leur emploi dans l’écriture de langues réelles, ce que seul le standard Unicode définit précisément.
  • L'ISO/CEI 10646 fait normativement référence à certaines parties du standard Unicode (notamment l'algorithme bidirectionnel et les propriétés des caractères (en)) ; Unicode est également une norme de facto pour le traitement du texte et sert de base à de nombreuses autres normes.
Publicité
Commentaires
mli07 Terminographie
  • Terminographie. Recensement et étude des termes appartenant aux nomenclatures scientifiques et techniques d'une langue. Terminotique. Terminologie informatisée. Dictionnairique. Discipline traitant de la conception des dictionnaires
  • Accueil du blog
  • Créer un blog avec CanalBlog
Publicité
Publicité