Accueil | Spécifications MARC 21 | Jeux de caractères

SPÉCIFICATIONS MARC 21
JEUX DE CARACTÈRES

Les notices MARC 21 destinées aux échanges vastes et réguliers devraient être encodées selon les spécifications suivantes. On peut utiliser un système d'enregistrement à 8 bits, celui qu'on appelle MARC-8 dans la documentation MARC 21, ou un enregistrement variable à 8 ou 16 bits selon la norme ISO/IEC 10646 (UCS) et les règles d'enregistrement Unicode UTF-8, qu'on appelle UCS/Unicode UTF-8 dans la documentation MARC 21. Un vaste répertoire de caractères peut être utilisé dans l'environnement MARC-8, y compris plus de 15 000 idéogrammes chinois, japonais et coréens. Pour ce qui est des échanges MARC 21 réguliers, l'utilisation du jeu de caractères UCS/Unicode UTF-8 est limitée à ce même répertoire, soit un sous-ensemble du jeu de caractères UCS/Unicode. Cela est nécessaire aux échanges jusqu'à ce que tous les systèmes s'adaptent entièrement au répertoire complet des caractères du jeu de caractères UCS/Unicode. Les restrictions seront périodiquement révisées afin d'y ajouter des occasions de développer l'environnement d'enregistrement des caractères.

Toutes les désignations de contenu des notices MARC 21 sont encodées à l'aide du répertoire contenu dans le document intitulé Code for Information Interchange (ASCII) (ANSI X3.4) ou la norme internationale équivalente, ISO 646 (IRV). D'autres répertoires de caractères, comme le Extended Latin Alphabet Coded Character Set for Bibliographic Use (ANSEL) (ANSI Z39.47) et les codes de caractères MARC 21 pour 14 exposants, 14 indices et 3 symboles grecs sont couramment utilisés dans les notices dont le contenu renferme des données en caractères latins. On a désigné d'autres répertoires pour les caractères arabes, chinois, cyrilliques, grecs, hébreux, japonais et coréens aux fins d'utilisation dans les notices MARC 21. La partie 1 ci-dessous spécifie l'utilisation de ces répertoires de caractères dans l'environnement MARC-8. La partie 2 décrit l'utilisation du jeu de caractères UCS/Unicode des notices MARC 21. La partie 3 spécifie les répertoires de caractères ainsi que la valeur de leurs codes pour le système MARC-8 et l'UCS/Unicode.


On retrouve également la définition des termes en italique contenus à l'intérieur des définitions.

appeler :
Faire en sorte qu'un jeu de caractères désigné soit représenté par les configurations binaires prescrites lorsque ces dernières apparaissent.
caractère 
Un élément parmi un ensemble d'éléments servant à l'organisation, au contrôle ou à la représentation de données.
caractère de commande :
Une fonction de commande qui est codée comme une simple configuration binaire.
caractère final :
Le caractère dont la configuration binaire termine une séquence d'échappement.
caractère graphique :
Un caractère, autre qu'un caractère de commande, dont la représentation visuelle est habituellement écrite à la main, imprimée ou affichée.
caractère graphique d'espacement :
Un caractère graphique qui est suivi par le mouvement de marche avant du périphérique de sortie jusqu'à la position du prochain caractère. Aux fins de la norme, ce terme inclut les caractères spéciaux, les symboles spéciaux et les signes de ponctuation.
caractère graphique de frappe morte :
Un caractère graphique qui n'entraîne pas le mouvement de marche avant du périphérique de sortie. Aux fins de la norme, ce terme inclut les modificateurs de caractères.
caractère intermédiaire :
Un caractère dont la configuration binaire apparaît entre le caractère d'Échappement et le caractère final dans une séquence d'échappement qui consiste en plus de deux configurations binaires.
caractère spécial :
Un caractère alphabétique ou un autre caractère graphique d'espacement (p.ex., Æ).
caractères de regroupement (signes diacritiques) :
Un caractère représentant une marque, un point ou un signe utilisé conjointement avec des caractères graphiques alphabétiques afin de les distinguer selon la forme ou le son (habituellement dans le but d'être affiché au dessus ou en dessous d'un caractère graphique alphabétique).
code d'organisation de la zone :
Un code qui indique le sens utilisé pour écrire les caractères graphiques qui sont affichés ou imprimés.
configuration binaire :
Une combinaison de bits consécutifs qui représente un caractère.
désigner :
Identifier un jeu de caractères qui doivent être représentés selon une forme prescrite.
échappement (ECH) :
Un caractère de commande (ASCII 1B(hex)) qui permet d'accéder à d'autres caractères grâce à l'extension de code. Il change la signification d'un nombre limité de configurations binaires successives.
espace :
caractère ASCII 20(hex) qui est à la fois interprété comme un caractère graphique et un caractère de commande. Ce caractère est également identifié comme un « blanc » dans la documentation MARC 21.
extension de code :
Les techniques utilisées pour enregistrer les caractères qui ne sont pas inclus dans un jeu de caractères codé donné.
fonction de commande :
Une action qui produit des effets sur l'enregistrement, le traitement, la transmission ou l'interprétation des données et dont la représentation codée consiste en une ou plusieurs configurations binaires.
jeu de caractères codé; code :
Un ensemble de règles sans équivoque qui définissent un jeu de caractères et les rapports un à un entre les caractères du jeu et leurs configurations binaires.
MARC-8 :
Le groupe de jeux de caractères à 7 ou 8 bits et à 24 bits utilisés pour enregistrer les notices MARC 21. Ces jeux de caractères sont spécifiés dans le document intitulé Spécifications MARC 21 pour la structure de notices, les jeux de caractères et le média d'échange, Partie 1.
multiplet :
Un groupe de bits consécutifs. Une chaîne constituée de 8 bits s'appelle également un octet.
octet :
Un groupe de 8 bits consécutifs qui est également désigné comme un multiplet de 8 bits.
organisation de la zone :
Se dit du sens utilisé pour écrire les caractères graphiques qui sont affichés ou imprimés dans une zone (p.ex., soit de gauche à droite ou de droite à gauche). Les caractères sont toujours enregistrés dans leur ordre logique, du premier au dernier caractère, sans tenir compte du sens dans lequel on doit les lire.
partie active :
Le jeu de caractères codé qui est actuellement appelé.
position du tableau de code :
Une partie du tableau de code qu'on identifie grâce à ses coordonnées de colonne et de rangée.
répertoire :
Un groupe de caractères, graphiques ou de commandes. Chaque caractère peut être encodé selon des configurations binaires différentes, dans des jeux de caractères codés différents.
répertoire MARC 21 :
Tous les caractères définis dans le présent document ainsi que les autres documents portant sur les jeux de caractères destinés à être utilisés dans le système MARC 21, qu'ils soient encodés à l'aide des systèmes MARC-8 ou UCS/Unicode.
séquence d'échappement :
Une chaîne de bits qui est utilisée à des fins de commande dans les procédures d'extension de code et qui consiste en deux configurations binaires ou plus, dont la première est la configuration binaire qui correspond au caractère Échappement.
signe de ponctuation :
Une marque qui indique la structure d'une phrase ou d'un syntagme afin d'en relever la clarté (p.ex., ;).
signes diacritiques (modificateurs de caractères) :
Une marque, un point ou un signe utilisé avec une lettre alphabétique de base afin d'en distinguer la forme ou le son d'une autre lettre qui n'a pas été modifiée.
symbole spécial :
Un signe conventionnel utilisé à la place de mots ou de groupes de mots (p.ex., &).
tableau de code :
Un tableau qui indique le caractère attribué à chaque configuration binaire dans un jeu de caractères codé.
UCS/Unicode :
Le jeu de caractères universels, soit la norme ISO 10646, et son équivalent industriel Unicode.
Unicode :
voir UCS/Unicode
UTF-8 :
Formats de transformation UCS à 8 bits qui utilisent un signal spécial axé sur les bits dans le but d'indiquer si un caractère UCS/Unicode est représenté par 1 octet (8 bits) ou par plusieurs octets.

  • Structure de code de caractères et techniques d'extension (ISO/IEC 2022)
  • Code for Information Interchange (ASCII) (ANSI X3.4)
  • Code Extension Techniques for Use with 7-bit and 8-bit Character Sets (ANSI X3.41)
  • Jeu de caractères arabes codés à 7 éléments pour l'échange d'information (ISO 9036) (équivalent à la norme ASMO 449) - sauf que le jeu de caractères MARC 21 renferme 5 caractères supplémentaires ainsi que les chiffres arabes de 0 à 9.
  • East Asian Character Code for Bibliographic Use (EACC) (Z39.64)
  • Extended Latin Alphabet Coded Character Set for Bibliographic Use (ANSEL) (ANSI Z39.47)
  • Extension du jeu de caractères codés de l'alphabet arabe pour les échanges d'information bibliographique (ISO 11822)
  • Extension du jeu de caractères cyrilliques codés employé pour l'échange d'information bibliographique (ISO 5427)
  • Jeu de caractères grecs codés employé pour l'échange d'information bibliographique (ISO 5428)
  • Jeu ISO de caractères codés à 7 éléments pour l'échange d'information (ISO/IEC 646 (IRV))
  • Jeu de caractères codés de l'alphabet hébreu pour les échanges d'information bibliographique (ISO 8957)
  • Jeu universel de caractères codés sur plusieurs octets (JUC) (ISO/IEC 10646)
  • The Unicode Standard, Version 3.0
  • International Register of Coded Character Sets to be Used with Escape Sequences, Registration Number 37, Basic Cyrillic Graphic Character Set


MARC 21 en version anglaise sur le site de la Bibliothèque du Congrès