Les documents XML doivent toujours être identifiés par un jeu de caractères approprié au langage dans lequel le document doit être rédigé.

La déclaration de l'encodage du document doit se situer dans la déclaration XML préalable par l'intermédiaire de l'attribut encoding.

<?xml version="1.0" standalone="yes" encoding="UTF-8"?>

Si la déclaration XML ne comporte pas d'attribut encoding, alors l'encodage par défaut sera le jeu de caractères Unicode compressé.

Encodage Description
US-ASCII Anglais
UTF-8 Unicode compressé (par défaut)
UTF-16 UCS compressé
ISO-10646-UCS-2 Unicode brut
ISO-10646-UCS-4 UCS Brut
ISO-8859-1 Latin-1, Europe occidentale
ISO-8859-2 Latin-2, Europe orientale
ISO-8859-3 Latin-3, Europe méridionale
ISO-8859-4 Latin-4, Europe septentrionale
ISO-8859-5 ASCII plus cyrillique
ISO-8859-6 ASCII plus arabe
ISO-8859-7 ASCII plus grec
ISO-8859-8 ASCII plus hébreu
ISO-8859-9 Latin-5, turc
ISO-8859-10 Latin-6, ASCII plus langues nordiques
ISO-8859-11 ASCII plus thaï
ISO-8859-13 Latin-7, ASCII plus langues baltes
ISO-8859-14 Latin-8, ASCII plus gallos et gaëllique
ISO-8859-15 Latin-9, Latin-10, Europe occidentale
ISO-2022-JP Japonais
ISO-2022-CN Chinois
KOI6-R Russe
ISO-2022-KR Coréen

Pour plus de renseignements sur les différents types d'encodage, consultez les standards Unicode à l'adresse suivante :

  http://www.unicode.org

La liste officel des jeux de caractères disponibles se trouvent sur le site de l'INIA (Internet Assigned Numbers Authority) :

  http://www.iana.org/assignments/character-sets