Re: Dateien als utf-8 speichern



Micha Kuehn wrote:
Andrej Kluge schrieb:

Nur mal interessanhalber: warum? Sonderzeichen haben doch in HTML ihre eigene Kodierung, wozu brauchst du dann Unicode?


Einige Sonderzeichen kann man mit Entities erreichen, ja. Aber es ist kompliziert, Entities zu verwenden.

Kompliziert vielleicht, aber einem Programm macht das ja nicht unbedingt viel aus ;-)


Ich kann nun meinen Usern nicht vorschreiben, welche Kodierung sie für den Rest ihrer Seiten verwenden wollen, zumal das auch nicht sinnvoll wäre, schließlich ist Unicode ja nicht zum Spaß erfunden worden. Und nicht jedes Unicode-Zeichen ist ein Sonderzeichen, es gibt auch normale arabische Schrift beispielsweise...

Dumme Frage: wie machst Du das denn bisher? Woher weißt Du, welche Codierung Deine User verwenden?

Und wie kommst Du überhaupt an die User-Texte dran? HTTP erlaubt ja die Angabe der Codierung des zu übertragenden(?) bzw. übertragenen Dokuments, so daß Du die Schnipsel beim Import in Dein gewünschtes Format konvertieren kannst.


Wegen der angestrebten Wahlmöglichkeit der User möchte ich auch wissen, wie es mit und wie ohne BOM geht.

Ein(e) BOM setzt voraus, daß der Empfänger Unicode erwartet. Deshalb vermute ich, daß ihm das im HTTP Protokoll bereits mitgeteilt werden muß. UTF-8 ist insofern relativ unkritisch, als die ganzen ASCII Zeichen keine Umcodierung erfahren, und der Empfänger den ganzen Header des HTML Dokuments lesen kann, einschließlich der Angabe zur Codierung. Frühestens wenn er diese Angabe gelesen hat, dürfen auch nicht-ASCII Zeichen im Dokument verwendet werden. Das wäre ein Argument dafür, keine BOM zu verwenden, da diese eben aus nicht-ASCII Zeichen besteht.

Den wichtigsten Hinweis habe ich gefunden in:
http://www.w3.org/TR/1999/REC-html401-19991224/charset.html#encodings

5.2.2 Specifying the character encoding
Die ersten beiden Absätze beschreiben vorab, wie Server und User-Agent die Codierung handhaben sollen.

Ich könnte mir also vorstellen, daß Du alle Schnipsel in Dateien *mit* UTF-8 BOM ablegst, um sicher zu sein, daß diese tatsächlich UTF-8 enthalten. Beim Zusammensetzen des zu übertragenden Dokuments würde ich die dann aber wegwerfen.

DoDi
.



Relevant Pages

  • Re: Sourcecode-Encoding
    ... Wenn die Dateien vorher Zeichen enthielten, ... Die einzig sinnvolle Codierung ist UTF-8 mit ...
    (microsoft.public.de.german.entwickler.dotnet.vb)
  • Re: utf-8
    ... japanische zeichen habe und word diese nicht kennt, ... der Codierung. ... Ich gebe dort utf-8 ein und speichere als txt Datei. ...
    (microsoft.public.de.word)
  • Re: utf-8
    ... japanische zeichen habe und word diese nicht kennt, ... der Codierung. ... Ich gebe dort utf-8 ein und speichere als txt Datei. ...
    (microsoft.public.de.word)
  • Re: IE-Fehler: Umlaute in Objekteigenschaften
    ... `ä"´ (aus der Codierung des Dokuments durch Deinen Editor) ein einzelnes Zeichen dar, ...
    (de.comp.lang.javascript)
  • Re: innerHTML und UTF-8
    ... es aber wieder ins Dokument schreibt nutzt er dazu hier normalerweise ... ISO-8859-1 (die Zeichencodierung des Dokuments) um dieses Zeichen dort zu ... Codierung dieser Zeichen hier nur eine untergeordnete Rolle. ... innerHTML die encodeURI-Funktion auf den String losgelassen, ...
    (de.comp.lang.javascript)