Les documents XML doivent toujours être identifiés par un jeu de caractères approprié au langage dans lequel le document doit être rédigé.
La déclaration de l'encodage du document doit se situer dans la déclaration XML préalable par l'intermédiaire de l'attribut encoding.
<?xml version="1.0" standalone="yes" encoding="UTF-8"?>
Si la déclaration XML ne comporte pas d'attribut encoding, alors l'encodage par défaut sera le jeu de caractères Unicode compressé.
Encodage | Description |
---|---|
US-ASCII | Anglais |
UTF-8 | Unicode compressé (par défaut) |
UTF-16 | UCS compressé |
ISO-10646-UCS-2 | Unicode brut |
ISO-10646-UCS-4 | UCS Brut |
ISO-8859-1 | Latin-1, Europe occidentale |
ISO-8859-2 | Latin-2, Europe orientale |
ISO-8859-3 | Latin-3, Europe méridionale |
ISO-8859-4 | Latin-4, Europe septentrionale |
ISO-8859-5 | ASCII plus cyrillique |
ISO-8859-6 | ASCII plus arabe |
ISO-8859-7 | ASCII plus grec |
ISO-8859-8 | ASCII plus hébreu |
ISO-8859-9 | Latin-5, turc |
ISO-8859-10 | Latin-6, ASCII plus langues nordiques |
ISO-8859-11 | ASCII plus thaï |
ISO-8859-13 | Latin-7, ASCII plus langues baltes |
ISO-8859-14 | Latin-8, ASCII plus gallos et gaëllique |
ISO-8859-15 | Latin-9, Latin-10, Europe occidentale |
ISO-2022-JP | Japonais |
ISO-2022-CN | Chinois |
KOI6-R | Russe |
ISO-2022-KR | Coréen |
Pour plus de renseignements sur les différents types d'encodage, consultez les standards Unicode à l'adresse suivante :
http://www.unicode.orgLa liste officel des jeux de caractères disponibles se trouvent sur le site de l'INIA (Internet Assigned Numbers Authority) :
http://www.iana.org/assignments/character-sets