L'apòstrof (') està codificat per Unicode com a U+0027, per ISO-8859-1 com a Ox27, com a entitat HTML ' (en XML i XHTML també s'accepta ').
Aquest caràcter normalment té un glyph vertical que el diferencia del glyph de la cometa simple de tancament (codificada per Unicode com a U+2019 i com a entitat HTML ’ o ’).
Aquí precisament comença un dels primers problemes: En ISO-8859-1 només existeix una posició per ambdós caràcters; el 0x27, heredat de l'ASCII.
Per tant, per aconseguir cometes simples assimètriques s'usen els caràcters d'accent obert (U+0060, 0x60, ` `) i tancat (U+00B4, 0xB4, ´, ´). Al fer-ho però poden apareixer problemes amb tipografies de sistemes X Window que codifiquin l'accent obert com a 0x27 (igual que l'apòstrof).
Amb codificacions més complertes com UTF-8 on cada caràcter té una posició, l'apòstrof manté el glyph vertical que tenia en ASCII i ISO-8859-1 mentre que la cometa simple de tancament passa a tenir un estil "arrissat".
Això fa que aparegui un nou problema: en tipografies classiques (impressió de textos, llibres, etc.) l'apòstrof sempre ha tingut un aspecte "arrissat", amb la qual cosa hi ha gent que prefereix usar una cometa simple de tancament en comptes d'un apòstrof perquè la troba més adequada (a nivell purament d'aspecte).
Com a darrer problema, en eines de Microsoft tals com MS Word a l'escriure un apòstrof el converteix en un altre caràcter corresponent a una extensió de ISO-8859-1 —que comprèn l'interval 0x82-0x95— que aconsegueix ser incompatible amb ISO-8859-1 i amb Unicode.
Això fa que quan es copia un text des de MS Word a un formulari HTML el contingut guardat sigui erroni ja que té inconsitències de codificació. Per subsanar aquest problema cal, o prohibir l'ús d'aquest processador de textos a qui hagi d'usar aquest formulari o validar el contingut que envia el camp de formulari detectant aquestes inconsistències i substituint-les pels caràcters correctes.
Recursos relacionats
- Detailed descriptions of the characters (U+0027)
- Llistat de caràcters de l'ISO-8859-1
- Apostrophe and acute accent confusion
- ASCII and Unicode quotation marks
- Apostrophe or Catastrophe?
- Correct moronic and gratuitously incompatible Microsoft HTML
- Character entity references in HTML 4
- The Definitive Guide to Web Character Encoding
Comentaris
Comentat per Blai el 28/12/06
Uah! brutal tota aquesta sintesi d'informació referent a un sol caràcter, l'apòstrof.
També n´hi ha un altre que fa molt la punyeta en textos en català, com es el punt volat (·).
Prohibim el Word!!!
Comentat per mini-d el 31/12/06
El punt volat, si no estic marejat és
·. En Unicode crec que no n'hi han problemes tampoc. Jo paso de fer servir l'entitat HTML.Comentat per Jordi el 28/02/07
Nosaltres tenim problemes amb l'apòstrof. Efectivament si entro les dades desde qualsevol lloc que no sigui el Word funciona correctament, però el problema és que les dades que haig d'omplir els formularis me les passen amb Word, i engara que faci copiar-enganxar al "bloc de notas" i llavors al formulari em passa el mateix. Algú té una idea per resoldre aquest problema? Gràcies.
Comentat per are el 28/02/07
L'única manera seria que les dades del formulari passin per un "netejador" al servidor.