Codierung

Jürgen_Nordlicht · Beitrag von **Jürgen_Nordlicht** » 09.12.2011, 11:30

Ups,
sorry Jürgen, das war mein Fehler,
habe die exe nicht im AB eingebunden sondern nach Download und Umbenennung aus dem Downloadordner gestartet was natürlich falsch war.
Also mein obiger Beitrag ist Unsinn.
Dank Dir hier denn auch für Deine Plugins

Gast · Beitrag von **Gast** » 09.12.2011, 14:27

Jürgen T. hat geschrieben:Hallo Sadaways,

Ich habe mein Plugin leicht geändert.
Es bringt jetzt nur max. 10 Meldungen und benennt zusätzlich den Wert des gefundenen Zeichens. Demnach ist das † das Zeichen Nr. 8224 im Zeichensatz und somit ein UNICODE-Zeichen.

Wenn Du möchtest, kannst Du mal mit der beigefügten Datei testen:
Bitte die Endung .txt entfernen und in das Pluginverzeichnis (...\Ahnenblatt\Plugins\jt_UNICODEfinden\) kopieren.

Super Jürgen, das funktioniert einwandfrei. Vielen Dank !!

Sadawys · Beitrag von **Sadawys** » 09.12.2011, 14:32

Noch ein kleiner Zusatz zum Plugin:

Jürgen T. hat geschrieben:Hallo Sadaways,

Demnach ist das † das Zeichen Nr. 8224 im Zeichensatz und somit ein UNICODE-Zeichen.

Aber wie kann dann AB dieses Zeichen mit ANSI-Zeichensatz abspeichern und es bleibt erhalten? Auch im Editor sieht das mit ANSI-Zeichensatz ganz normal aus.
Das Zeichen muss demnach auch im ANSI-Zeichensatz enthalten sein.
Oder sehe ich da was falsch?

Gruß Sadawys

Sadawys · Beitrag von **Sadawys** » 09.12.2011, 14:40

Und noch einmal ein Nachtrag (Editieren wäre toll ^^ Muss mich mal anmelden

):

Siehe auch
ANSI/Windows1252 (Das ist die verwendete Codierung von AB)

http://de.wikipedia.org/wiki/ISO_8859-1#Windows-1252

Da steht das Kreuz drin! So ist es auch ein ANSI-Zeichen! (Natürlich auch Unicode, aber dein Plugin sollte ja die Zeichen anzeigen, die die Datei "kaputt" machen)

Gruß Sadawys

Sadawys · Beitrag von **Sadawys** » 09.12.2011, 15:10

So,

also ich habe mich mal gerade noch ein bisschen weiter in die Materie eingelesen.

Im GEDCOM-Standard

http://homepages.rootsweb.com/~pmcbride/gedcom/55gctoc.htm

ist angegeben das die Zeichencodierung ANSEL zu verwenden ist und wenn es geht Unicode (heißt quasi UTF-8).

Die sogenannten ANSI-Zeichen entsprechen ISO 8859-1 und Windows-1252 ist eine kleine Erweiterung von ISO 8859-1 mit ein paar neuen Zeichen (wie zum Beispiel € und das Kreuz).

Das heißt Jürgens Plugin ist schon ok, da international die ISO 8859-1 Zeichenkodierung als ANSI verstanden wird und man mit Windows-1252 nicht unbedingt davon ausgehen kann, dass die jedes internationale Programm lesen kann.

Hier liegt also wahrscheinlich wieder der Fehler von AB, dass Windows-1252 anstatt reine ISO 8859-1 verwendet.

Auf der anderen Seite ist von ANSI im GEDCOM-Standart ja gar keine Rede. Hier ist dann für mich die Frage, ob es sich überhaupt lohnt, die Datei in ISO 8859-1 zu halten, da die Programme nach Standard nur ANSEL und evtl UTF-8 können.

Da ISO 8859-1 eine Teilmenge von Windows-1252 und die von UTF-8 ist, sollte für AB Nutzer kein Problem entstehen.

Das heißt doch aber auch, dass ich mir eigentlich nicht die Mühe machen muss ANSI einzuhalten

Gruß Sadawys

Jürgen T. · Beitrag von **Jürgen T.** » 09.12.2011, 15:41

Hallo Sadaways,

Sadawys hat geschrieben:Da steht das Kreuz drin! So ist es auch ein ANSI-Zeichen! (Natürlich auch Unicode, aber dein Plugin sollte ja die Zeichen anzeigen, die die Datei "kaputt" machen)

Gruß Sadawys

es ist richtig, dass das Zeichen 0134 (ANSI) auch das † ergibt.

Aber in dem Text aus Wiki war das † das UNICODE-Zeichen 8224.

Grundsätzlich findet mein Plugin alle UNICODE-Zeichen, unabhängig davon, ob diese Zeichen die Datei "kaputt" machen oder nicht.
Ich frage lediglich ab, ob der Wert eines Zeichens größer als 255 ist.

Wie im Forum schon mehrfach beschrieben wurde, können einige Zeichen von UNICODE auch im ANSI-Zeichenstz dargestellt werden - so ist es auch mit dem †.

Nichts desto trotz muss Dirk mal drüberschauen, was Ahnenblatt so alles mit den Codierungen anstellt.

Sadawys · Beitrag von **Sadawys** » 09.12.2011, 18:05

Jürgen T. hat geschrieben:Hallo Sadaways,

es ist richtig, dass das Zeichen 0134 (ANSI) auch das † ergibt.

Aber in dem Text aus Wiki war das † das UNICODE-Zeichen 8224.

Grundsätzlich findet mein Plugin alle UNICODE-Zeichen, unabhängig davon, ob diese Zeichen die Datei "kaputt" machen oder nicht.
Ich frage lediglich ab, ob der Wert eines Zeichens größer als 255 ist.

Wie im Forum schon mehrfach beschrieben wurde, können einige Zeichen von UNICODE auch im ANSI-Zeichenstz dargestellt werden - so ist es auch mit dem †.

Nichts desto trotz muss Dirk mal drüberschauen, was Ahnenblatt so alles mit den Codierungen anstellt.

Alles klar Jürgen, das macht Sinn

Dann können wir die Diskussion hier im Prinzip schließen und dem Chef sagen, dass er mal drüber schauen soll, dass AB keine sinnlosen Konvertierungen in ANSI/Windows-1252 macht, wenn nicht alle Zeichen konvertierbar sind

Gruß und vielen Dank für die schnelle Hilfe,
Sadawys