Page d'accueil encyclopedie-enligne.com en page d'accueil
Liste Articles: [0-A] [A-C] [C-F] [F-J] [J-M] [M-P] [P-S] [S-Z] | Liste Catégories | Une page au hasard | Pages liées

Format de données


Le format des données est la manière utilisée en informatique pour représenter des données sous forme de nombres binaires. C'est une convention (éventuellement normalisée) utilisée pour représenter des données, soit des informations représentant un texte, une page, une image, un son, un fichier exécutable, etc. Lorsque ces données sont stockées dans un fichier, on parle de format de fichier. Une telle convention permet d'échanger des données entre divers programmes informatiques ou logiciels, soit par une connexion directe soit par l'intermédiaire d'un fichier.

Sommaire

Typologie

On distingue un format dont la spécification est publiquement accessible, un format ouvert, d'un format fermé dont la spécification est secrète. Un format fermé correspond généralement à un logiciel seul capable de pleinement l'exploiter.

Une autre distinction s'opère entre un format normalisé, faisant l'objet d'une normalisation par une institution publique ou internationnale (ISO, W3C) et un format quelconque, qui peut devenir un standard de fait s'il est populaire. Un tel format est parfois normalisé par la suite.

Formats des nombres

Nombres entiers

Un nombre entier naturel est en général simplement représenté en binaire (en base 2), avec la règle de conversion classique. Lorsque l'on veut représenter un entier relatif, on réserve un bit pour désigner le signe (en général le bit le plus à gauche) ; on parle alors d'« entier signé ». La plupart du temps, les nombres négatifs seront codés selon la règle du complément à deux.

Par exemple, avec un octet on peut représenter

Voir l'article détaillé : Système binaire

Nombres fractionnaires

Pour les nombres fractionnaires, la convention de numération veut qu'en base n, « 0,a » désigne a·1/n (=a·n-1), « 0,0a » désigne a·1/n2 (=a·n-2)... Par exemple en base 10 (n = 10), « 0,005 » désigne 5·10-3.

Ainsi, le nombre 0,001 en binaire (n = 2) désigne 1·2-3=0,125.

Donc en informatique, la première solution consiste à attribuer un certain nombre de bits à droite aux puissances négatives de 2.

Une autre solution consiste à considérer les nombres comme des caractères (du texte), et à utiliser par exemple le format ASCII. Cependant, cela ne peut concerner que le stockage : l'ordinateur ne pouvant appliquer que l'arithmétique binaire, il faut nécessairement les convertir en binaire pour le calcul.

Voir l'article détaillé : Virgule flottante.

Formats de texte

Les textes sont formés de caractères en nombres finis (lettres, diacritiques, signes de ponctuation...). Il est donc simple d'attribuer un nombre à chaque caractère. Cette convertion caractère → nombre est définie par convention sous la forme d'une table, ou page de code. Les plus utilisés sont l'ASCII et l'unicode.

Les textes comprenent aussi de la mise en page (alignement des paragraphes) et de la mise en forme (type de police de caractère, taille...). La solution retenue en général consiste à définir des mots de commande, des instructions, séparées du texte par un caractère spécial. Ainsi, en HTML, les instructions sont appelées « balises » et sont mises entre des crochets <...> ; en LaTeX, les instructions sont introduites par une barre de fraction inversée \. De ce fait, certains caractères sont réservés aux instructions et ne peuvent plus faire partie du texte ; ils existe alors des « codes d'échappement », ou bien des instructions spéciales permettant de les représenter.

Le logiciel Microsoft Word a retenu une autre manière de stocker la mise en forme : les données (texte et images) sont mis en brut (sans mise en forme) dans le document, et la mise en forme est définie dans une partie du document appelée « saut de section » (section break). Le saut de section, hormis le fait de marquer un changement de mise en page (saut de colonne, saut de page), est une zone invisible contenant des pointeurs attribuant un formattage à une partie de la section. Cette solution se révèle très lourde et source de problèmes (corruption de documents) pour les documents très volumineux (plusieurs centaines de pages).

Formats d'image

La base de la représentation des images est la géométrie analytique.

Format carte de points

Un petit retour en arrière

En 1672, Isaac Newton démontre à l'aide du prisme que la lumière blanche procède de l'addition de toutes les couleurs (Newton dénombrera sept couleurs, nombre arbitraire et culturellement marqué). En 1839, l'année de la naissance de la photographie, Michel Eugène Chevreul publie un livre expliquant les effets optiques produits par les couleurs et leur juxtaposition, c'est-à-dire non pas la superposition couches colorées (filtres) ou le mélange de couleurs, mais l'effet produit par des couleurs différentes mises côte-à-côte et vues de loin. En 1869 (le 7 mai précisément, sans se connaître et sans avoir travaillé ensemble... une des grandes coïncidences de l'histoire), Louis Ducos de Hauron et Charles Cros proposent à la Société française de photographie un procédé de leur invention qui permet d'obtenir des clichés en couleurs. Tous ces travaux marqueront Georges Seurat, le créateur du pointillisme (ou néo-impressionnisme), et seront à l'origine de l'impression en couleurs ou encore de la télévision en couleurs.

Il faudrait aussi parler des procédés textiles, notamment ceux de Jacquard, qui considèrent les images comme des matrices de points (l'industrie textile a d'ailleurs été la première à utiliser la programmation par cartes perforées). Tout ceci est à l'origine des images « en carte de point », ou en anglais, « bitmap ».

Les images à l'écran

On peut donc découper une image en points élémentaires, ou « pixel », et attribuer une couleur à ce pixel. La couleur est représentée par un nombre, la correspondance couleur → nombre étant faite par une « palette ».

Il est inutile de donner les coordonnées des points : si l'on donne la largeur de l'image en nombre n de points, alors les n premiers points représentent la première ligne, les points n+1 à 2n représentent la deuxième ligne... Il suffit alors de fixer par convention l'ordre de balayage, en l'occurrence l'ordre de lecture occidental (de gauche à droite et de haut en bas).

Ceci donne une image au format carte de points, souvent appelée image bitmap. C'est donc un canevas de points dont chacun se voit attribuer une valeur colorée. Les grandes différences entre les formats existants sont la profondeur de couleurs (1 bit : noir ou blanc, 8 bits : 256 couleurs, 24 bits : 16 millions de couleurs,...) et le type de compression (sans compression, ou raw, avec une compression par motifs, avec une compression destructive...)

Par exemple, prenons une carte noir et blanc (1 pour blanc, 0 pour noir) définissant une image large de cinq points par la suite de chiffres suivante :

1000101010001000101010001

il faut découper cette carte par groupes de 5 bits :

10001
01010
00100
01010
10001

ce qui nous donne le dessin d'un « X » blanc sur fond noir.

Le format des données doit donc inclure, outre la liste des points, la largeur de l'image et la description de la palette ; ceci se fait en général en début de fichier (on parle d'« entête » de fichier).

Ce procédé a été utilisé pour envoyer un message dans l'espace à destination d'une intelligence extra-terrestre : il s'agit d'une image noir-et-blanc représentant le système solaire, de dimensions n sur m, n et m étant des nombres premiers. Les émetteurs espèrent ainsi que les récepteurs sauront décomposer les n×m en ses deux facteurs, et ainsi recomposer l'image.

Format vectoriel

Une image au format vectoriel est une image qui se décrit par des ensemble de coordonnées mathématiques et non par un canevas de point. Par exemple,

En quelques sorte, il s'agit d'un ensemble de commande, le programme d'affichage ou d'impression exécutant ces commandes pour redessiner l'image à chaque fois.

Pour des images pouvant être réduites facilement à des formes géométriques (typographisme, cartographie,...), le format vectoriel est extrêmement économe.

La particularité des formats vectoriels est que leur rendu final ne dépend que de la résolution du périphérique de sortie. Ce type d'image peut aussi être agrandi sans effets gênants ; il n'y a pas d'effet de « pixellisation » (les lignes diagonales ou courbes n'apparaissent pas sous forme d'escalier).

Quelques formats vectoriels célèbres : Adobe PDF (Acrobat), Adobe illustrator AI, encapsuled postscript EPS, CSV, Macromedia Flash (format d'animation vectorielle), Autocad DXF.

Représentation des couleurs

Format de son

Compression des données

La compression des données est la technique qui consiste à transformer les données afin qu'elles prennent moins de place. Les données devant être décompressées avant d'être traitées, ceci se fait aux dépens de la rapidité, et avec un risque plus grand de perte de données.

L'idée de base est qu'en général, des éléments se répètent dans les fichiers. On a donc intérêt à représenter les éléments se répétant souvent par des nombres plus petits (c'est-à-dire prenant moins de bits).

On peut distinguer deux types de compresison :

Voir l'article détaillé Compression de données.

Formats classiques

Voir aussi

[ format ouvert | ISO | W3C ]



This site support the Wikimedia Foundation. This Article originally from Wikipedia. All text is available under the terms of the GNU Free Documentation License Page HistoryOriginal ArticleWikipedia