Seite 2 von 2
Verfasst: 09.12.2011, 11:30
von Jürgen_Nordlicht
Ups,
sorry Jürgen, das war mein Fehler,
habe die exe nicht im AB eingebunden sondern nach Download und Umbenennung aus dem Downloadordner gestartet was natürlich falsch war.
Also mein obiger Beitrag ist Unsinn.
Dank Dir hier denn auch für Deine Plugins
Verfasst: 09.12.2011, 14:27
von Gast
Jürgen T. hat geschrieben:Hallo Sadaways,
Ich habe mein Plugin leicht geändert.
Es bringt jetzt nur max. 10 Meldungen und benennt zusätzlich den Wert des gefundenen Zeichens. Demnach ist das † das Zeichen Nr. 8224 im Zeichensatz und somit ein UNICODE-Zeichen.
Wenn Du möchtest, kannst Du mal mit der beigefügten Datei testen:
Bitte die Endung .txt entfernen und in das Pluginverzeichnis (...\Ahnenblatt\Plugins\jt_UNICODEfinden\) kopieren.
Super Jürgen, das funktioniert einwandfrei. Vielen Dank !!
Verfasst: 09.12.2011, 14:32
von Sadawys
Noch ein kleiner Zusatz zum Plugin:
Jürgen T. hat geschrieben:Hallo Sadaways,
Demnach ist das † das Zeichen Nr. 8224 im Zeichensatz und somit ein UNICODE-Zeichen.
Aber wie kann dann AB dieses Zeichen mit ANSI-Zeichensatz abspeichern und es bleibt erhalten? Auch im Editor sieht das mit ANSI-Zeichensatz ganz normal aus.
Das Zeichen muss demnach auch im ANSI-Zeichensatz enthalten sein.
Oder sehe ich da was falsch?
Gruß Sadawys
Verfasst: 09.12.2011, 14:40
von Sadawys
Und noch einmal ein Nachtrag (Editieren wäre toll ^^ Muss mich mal anmelden
):
Siehe auch
ANSI/Windows1252 (Das ist die verwendete Codierung von AB)
http://de.wikipedia.org/wiki/ISO_8859-1#Windows-1252
Da steht das Kreuz drin! So ist es auch ein ANSI-Zeichen! (Natürlich auch Unicode, aber dein Plugin sollte ja die Zeichen anzeigen, die die Datei "kaputt" machen)
Gruß Sadawys
Verfasst: 09.12.2011, 15:10
von Sadawys
So,
also ich habe mich mal gerade noch ein bisschen weiter in die Materie eingelesen.
Im GEDCOM-Standard
http://homepages.rootsweb.com/~pmcbride/gedcom/55gctoc.htm
ist angegeben das die Zeichencodierung ANSEL zu verwenden ist und wenn es geht Unicode (heißt quasi UTF-8).
Die sogenannten ANSI-Zeichen entsprechen ISO 8859-1 und Windows-1252 ist eine kleine Erweiterung von ISO 8859-1 mit ein paar neuen Zeichen (wie zum Beispiel € und das Kreuz).
Das heißt Jürgens Plugin ist schon ok, da international die ISO 8859-1 Zeichenkodierung als ANSI verstanden wird und man mit Windows-1252 nicht unbedingt davon ausgehen kann, dass die jedes internationale Programm lesen kann.
Hier liegt also wahrscheinlich wieder der Fehler von AB, dass Windows-1252 anstatt reine ISO 8859-1 verwendet.
Auf der anderen Seite ist von ANSI im GEDCOM-Standart ja gar keine Rede. Hier ist dann für mich die Frage, ob es sich überhaupt lohnt, die Datei in ISO 8859-1 zu halten, da die Programme nach Standard nur ANSEL und evtl UTF-8 können.
Da ISO 8859-1 eine Teilmenge von Windows-1252 und die von UTF-8 ist, sollte für AB Nutzer kein Problem entstehen.
Das heißt doch aber auch, dass ich mir eigentlich nicht die Mühe machen muss ANSI einzuhalten
Gruß Sadawys
Verfasst: 09.12.2011, 15:41
von Jürgen T.
Hallo Sadaways,
Sadawys hat geschrieben:Da steht das Kreuz drin! So ist es auch ein ANSI-Zeichen! (Natürlich auch Unicode, aber dein Plugin sollte ja die Zeichen anzeigen, die die Datei "kaputt" machen)
Gruß Sadawys
es ist richtig, dass das Zeichen 0134 (ANSI) auch das † ergibt.
Aber in dem Text aus Wiki war das † das UNICODE-Zeichen 8224.
Grundsätzlich findet mein Plugin alle UNICODE-Zeichen, unabhängig davon, ob diese Zeichen die Datei "kaputt" machen oder nicht.
Ich frage lediglich ab, ob der Wert eines Zeichens größer als 255 ist.
Wie im Forum schon mehrfach beschrieben wurde, können einige Zeichen von UNICODE auch im ANSI-Zeichenstz dargestellt werden - so ist es auch mit dem †.
Nichts desto trotz muss Dirk mal drüberschauen, was Ahnenblatt so alles mit den Codierungen anstellt.
Verfasst: 09.12.2011, 18:05
von Sadawys
Jürgen T. hat geschrieben:Hallo Sadaways,
es ist richtig, dass das Zeichen 0134 (ANSI) auch das † ergibt.
Aber in dem Text aus Wiki war das † das UNICODE-Zeichen 8224.
Grundsätzlich findet mein Plugin alle UNICODE-Zeichen, unabhängig davon, ob diese Zeichen die Datei "kaputt" machen oder nicht.
Ich frage lediglich ab, ob der Wert eines Zeichens größer als 255 ist.
Wie im Forum schon mehrfach beschrieben wurde, können einige Zeichen von UNICODE auch im ANSI-Zeichenstz dargestellt werden - so ist es auch mit dem †.
Nichts desto trotz muss Dirk mal drüberschauen, was Ahnenblatt so alles mit den Codierungen anstellt.
Alles klar Jürgen, das macht Sinn
Dann können wir die Diskussion hier im Prinzip schließen und dem Chef sagen, dass er mal drüber schauen soll, dass AB keine sinnlosen Konvertierungen in ANSI/Windows-1252 macht, wenn nicht alle Zeichen konvertierbar sind
Gruß und vielen Dank für die schnelle Hilfe,
Sadawys