Re: Dateien als utf-8 speichern
- From: Hans-Peter Diettrich <DrDiettrich1@xxxxxxx>
- Date: Sun, 06 May 2007 14:11:49 +0200
Micha Kuehn wrote:
Andrej Kluge schrieb:
Nur mal interessanhalber: warum? Sonderzeichen haben doch in HTML ihre eigene Kodierung, wozu brauchst du dann Unicode?
Einige Sonderzeichen kann man mit Entities erreichen, ja. Aber es ist kompliziert, Entities zu verwenden.
Kompliziert vielleicht, aber einem Programm macht das ja nicht unbedingt viel aus ;-)
Ich kann nun meinen Usern nicht vorschreiben, welche Kodierung sie für den Rest ihrer Seiten verwenden wollen, zumal das auch nicht sinnvoll wäre, schließlich ist Unicode ja nicht zum Spaß erfunden worden. Und nicht jedes Unicode-Zeichen ist ein Sonderzeichen, es gibt auch normale arabische Schrift beispielsweise...
Dumme Frage: wie machst Du das denn bisher? Woher weißt Du, welche Codierung Deine User verwenden?
Und wie kommst Du überhaupt an die User-Texte dran? HTTP erlaubt ja die Angabe der Codierung des zu übertragenden(?) bzw. übertragenen Dokuments, so daß Du die Schnipsel beim Import in Dein gewünschtes Format konvertieren kannst.
Wegen der angestrebten Wahlmöglichkeit der User möchte ich auch wissen, wie es mit und wie ohne BOM geht.
Ein(e) BOM setzt voraus, daß der Empfänger Unicode erwartet. Deshalb vermute ich, daß ihm das im HTTP Protokoll bereits mitgeteilt werden muß. UTF-8 ist insofern relativ unkritisch, als die ganzen ASCII Zeichen keine Umcodierung erfahren, und der Empfänger den ganzen Header des HTML Dokuments lesen kann, einschließlich der Angabe zur Codierung. Frühestens wenn er diese Angabe gelesen hat, dürfen auch nicht-ASCII Zeichen im Dokument verwendet werden. Das wäre ein Argument dafür, keine BOM zu verwenden, da diese eben aus nicht-ASCII Zeichen besteht.
Den wichtigsten Hinweis habe ich gefunden in:
http://www.w3.org/TR/1999/REC-html401-19991224/charset.html#encodings
5.2.2 Specifying the character encoding
Die ersten beiden Absätze beschreiben vorab, wie Server und User-Agent die Codierung handhaben sollen.
Ich könnte mir also vorstellen, daß Du alle Schnipsel in Dateien *mit* UTF-8 BOM ablegst, um sicher zu sein, daß diese tatsächlich UTF-8 enthalten. Beim Zusammensetzen des zu übertragenden Dokuments würde ich die dann aber wegwerfen.
DoDi
.
- Follow-Ups:
- Re: Dateien als utf-8 speichern
- From: Micha Kuehn
- Re: Dateien als utf-8 speichern
- References:
- Dateien als utf-8 speichern
- From: Micha Kuehn
- Re: Dateien als utf-8 speichern
- From: Andrej Kluge
- Re: Dateien als utf-8 speichern
- From: Micha Kuehn
- Dateien als utf-8 speichern
- Prev by Date: Re: Dateien als utf-8 speichern
- Next by Date: Re: Delphi 2007 .Net
- Previous by thread: Re: Dateien als utf-8 speichern
- Next by thread: Re: Dateien als utf-8 speichern
- Index(es):
Relevant Pages
|