Seite 1 von 1
csv raus und rein
Verfasst: 07.08.2009, 20:55
von UngerMa
Hallo,
bis jetzt hatte ich damit kein Problem, weil ich die Sache nicht brauchte beziehungsweise vermied, aber nun hat der Fehler (?) doch zugeschlagen:
CSV geschrieben. Gut. Gleich öffnen? JA!
Es werden verschiedenen Datumsangaben falsch interpretiert.
Ein Beispiel: aus dem unvollständigem Sterbe-Datum 08.1926 wird in Äksel grafisch 81.926, aber eigentlich nur 81926, weil mit Dezimalpunkt geschrieben. Der Import nach AB geht in die Hose, denn das liest 81.926 (so weit zurück kann ich nicht in den Annalen graben!). Diese Angabe fällt bei der PlausiPrüfung gleich mehrfach durch (Kinder nach eigenem Tod geboren usw. usf.). In meinem Fall: 111 Fehler. Kannste vergessen.
Zweiter Versuch: csv in txt umbenannt. txt mit Äksel geöffnet. Trennzeichen: Semikolon. Allen Spalten Typ Text zugewiesen (Datumsangaben vor 1900 gibts ja wohl in Äksel nicht, etliche unvollständige Datumse sowieso drin). Auf den ersten Blick alles in Ordnung, der zweite zeigt aber:
Bei allen Datensätzen, denen mehrere Bilder zugeordnet sind, wird ZWISCHEN den einzelnen Bildverweisen (Pfad+Datei) ein Umbruch eingefügt und hinterher nochmals so viel Umbrüche, wie Bilder angehängt waren. SO ist ein Import sinnlos (ist erstens klar und zweitens kommt Unsinn raus, nämlich leere Personeneinträge).
Manuelle Korrektur der Einträge (Excel) mag ich zwar machen, aber nicht unbedingt unbedingt bei reichlich 60 Personen, die über den Datenbestand von etwa 1100 verteilt sind.
Nun sitzt meistens der Fehler VOR dem Gerät, aber ein bisschen genauer möchte ich doch wissen, wie ich das Problem lösen kann.
Übrigens ist schon für einfache csv - txt - Schiebereien absolut tödlich, in irgendwelchen Textfeldern ein Semikolon zu verwenden: Excel macht sofort den Umbruch zur nächsten Zelle draus, und das macht den Datensatz total kaputt. Im Einzelfall reparierbar, bei größeren Datenmengen: Guten Abend. Oder Nachtschicht.
Danke.
Manfred
Re: csv raus und rein
Verfasst: 08.08.2009, 00:46
von Torquatus
Hallo Manfred,
UngerMa hat geschrieben:
CSV geschrieben. Gut. Gleich öffnen? JA!
NEIN
besser ist es, die Datei erst durch Excel öffnen zu lassen, da man dabei noch eingreifen kann, weil dabei automatisch der Textkonvertierungsassistent gestartet wird.
Es werden verschiedenen Datumsangaben falsch interpretiert.
Ein Beispiel: aus dem unvollständigem Sterbe-Datum 08.1926 wird in Äksel grafisch 81.926, aber eigentlich nur 81926, weil mit Dezimalpunkt geschrieben. Der Import nach AB geht in die Hose, denn das liest 81.926. Diese Angabe fällt bei der PlausiPrüfung gleich mehrfach durch (Kinder nach eigenem Tod geboren usw. usf.). In meinem Fall: 111 Fehler. Kannste vergessen.
Warum denn, erfasse doch einfach in AB anstelle der unbekannten Tage oder Monate 00, dann sind alle Problem beseitigt, die Plausi meckert nicht und sogar der Reimport klappt und in Tabellen sieht es auch nicht mehr so grausig aus. Ich habe trotz mehr als 24.000 Personen nur 105 mit solchen Daten.
Übrigens ist schon für einfache csv - txt - Schiebereien absolut tödlich, in irgendwelchen Textfeldern ein Semikolon zu verwenden: Excel macht sofort den Umbruch zur nächsten Zelle draus, und das macht den Datensatz total kaputt. Im Einzelfall reparierbar, bei größeren Datenmengen: Guten Abend. Oder Nachtschicht.
Bei 77 Personen mit Seminkolon in Texten habe ich mit Excel-2007 und auch mit AB beim Reimport keine Probleme. Das liegt aber wohl daran, dass wegen bestimmter Sonderzeichen meine CSV-Daten zwangsläufig im Unicode-Format ausgegeben und auch von Excel so abgespeichert werden. Bei Unicode wird von AB und auch von Excel stillschweigend der Tabulator (und nicht das Semikolon) als Trennzeichen verwendet (siehe Wikipedia zu CSV). Unicode erzwingt man, indem man in AB in Texten mindestens ein Zeichen verwendet, das im ANSI-Zeichensatz nicht vorkommt.
Re: csv raus und rein
Verfasst: 08.08.2009, 13:14
von Hugo
Guten Tag
Nur zur Info für unsere Ahnenbättler/inen, welche ihre Datei im Gedcom-Format speichern
Torquatus hat geschrieben:Warum denn, erfasse doch einfach in AB anstelle der unbekannten Tage oder Monate 00, dann sind alle Problem beseitigt, ....
Das funktioniert nur bei XY.ahn Dateien
Wird (oder wurde ! ) die Datei in Gedcom gespeichert, gibt es die Datumsangabe 00 nicht
und steht auch nicht in der Gedcom-Datei
Das ist
keine willkür in Ahnenblatt
das ist Gedcom
siehe dazu auch
"Erlaubte Datumsformate nach Gedcom"
Somit funktioniert Torquatus sein gut gemeinter Tip nur mit reinen XY.ahn Dateien
Gruß Hugo
Verfasst: 08.08.2009, 16:21
von UngerMa
Hallo,
danke für die Ratschläge. Aber leider ist das Problem noch nicht gelöst. Hauptschwierigkeit ist, dass bei Benutzung des Assistenten zum Excel-Import die Dateiverweise für Bilder/Dateien "aufgesplittet" werden, weil AB offensichtlich einen Tab o.ä. zur Trennung benutzt. Der Assistent ist schon nicht mehr in der Lage zu erkennen, dass die Einträge zusammengehören (bereits in der neutralen Voransicht wird die Zeichenkette für die zweite Datei in der nächsten Zeile angezeigt).
Nur beim Import als csv ohne Assistent ist das Ergebnis verwendbar. Hierbei tritt aber das falsche Interpretieren von unvollständigen Datumsangaben auf.
Fazit für mich: erst alle Datumsangaben korrigieren (GEDCOM-konform) und dann csv direkt öffnen.
Wenn es tatsächlich keine andere Chance gibt, wäre konsequent, dass AB in der Plausi-Prüfung kein Datum akzeptiert, welches nicht den gültigen Formaten entspricht.
Ich lege mal zur Nachvollziehbarkeit eine Test-csv bei. Ausserdem 4 Silhouetten, die ich zuordnen will, wenn es keine Bilder gibt (eigentlich Hauptzweck der Übung).
Gruß
Manfred
Verfasst: 08.08.2009, 16:40
von Torquatus
Hallo Hugo,
das was Du da schreibst ist vollkommen richtig.
Aber ging es nicht um das Thema "csv raus und rein"?
Verfasst: 08.08.2009, 16:57
von Hugo
Guten Tag Manfred
Mit Excel ist je nach Version csv-Dateien bearbeiten unter Umständen sowieso mit einen Risiko verbunden!!!
Lange Texte in den Anmerkungen oder Quelllen werden in alten Excel-Versionen gekürzt
Bei seeehr großen Dateien reicht die Anzahl der zur Verfügung stehenden Zeilen in alten Excel-Versionen nicht aus.
Die Datei wird nicht komplett eingelesen
Außerdem muß die csv-Datei als Text-Datei eingelesen werden, da Excel (je nach Optionseinstellungs) kein Datum vor 1904 bzw 1900 kennt
Nun jedoch zu Deinen Problem
Beim Einlesen über den Assistenten kannst Du in der Vorschau mehrere Spalten zusammenfassen
Damit dürfte Dein Problem zu lösen sein
Du siehst, Excel ist eine Wissenschaft für sich mit Eigenleben
Gruß Hugo
Verfasst: 08.08.2009, 17:02
von Hugo
Guten Tag Torquatus
Danke für die Blumen
Torquatus hat geschrieben:Aber ging es nicht um das Thema "csv raus und rein"?
Eben deshalb
Nicht alle Ahnenblättler/inen speichern ihre Daten als XY.ahn
Gruß Hugo
Verfasst: 08.08.2009, 18:45
von Torquatus
Hallo Hugo,
Hugo hat geschrieben:Mit Excel ist je nach Version csv-Dateien bearbeiten unter Umständen sowieso mit einen Risiko verbunden!!!
im Prinzip hast Du schon Recht, denn das Leben ist eines der schwersten
Lange Texte in den Anmerkungen oder Quelllen werden in alten Excel-Versionen gekürzt
Richtig, schon seit Excel-97 können Text-Felder nur 32.767 Zeichen enthalten. Wer mehr braucht, hat dann ein Problem.
Bei seeehr großen Dateien reicht die Anzahl der zur Verfügung stehenden Zeilen in alten Excel-Versionen nicht aus. Die Datei wird nicht komplett eingelesen
Naja, Excel-1997+2002 hatten tatsächlich nur 65.536 Zeilen (Excel-2007 schon 1.048.576), da kann jemand mit einer mächtigen Datei schon Probleme kriegen
Außerdem muß die csv-Datei als Text-Datei eingelesen werden, da Excel (je nach Optionseinstellungs) kein Datum vor 1904 bzw 1900 kennt
Kannitverstan; siehe unten.
Nun jedoch zu Deinen Problem
Beim Einlesen über den Assistenten kannst Du in der Vorschau mehrere Spalten zusammenfassen
Damit dürfte Dein Problem zu lösen sein
Du siehst, Excel ist eine Wissenschaft für sich mit Eigenleben
und leidet unter einem großen Ballast von Erinnerungen
Verfasst: 08.08.2009, 19:14
von Hugo
Guten Tag Torquatus
Meiner Frau und mir stehen Excel aus Office97 und 2002 zur Verfügung
Für unsere Zwecke ist das vollkommen ausreichend
Torquatus hat geschrieben:Richtig, schon seit Excel-97 können Text-Felder nur 32.767 Zeichen enthalten. Wer mehr braucht, hat dann ein Problem.
....
Naja, Excel-1997+2002 hatten tatsächlich nur 65.536 Zeilen (Excel-2007 schon 1.048.576), da kann jemand mit einer mächtigen Datei schon Probleme kriegen
Komisch, auf Isabelle ihren Laptop mit W98 und Office97 ergeben sich bei Excel ganz andere Werte
Text-Felder = max 1024 Zeichen
max Zeilen = 32.000 und ein paar zerquetschte
PS: Diese Meldung gibt es auch noch
8 2 4 csv-Import mit Hochkommas (') problematisch - Datenverlust mit Excel 2007.
[mehr]
Gruß Hugo
Verfasst: 08.08.2009, 19:20
von Torquatus
Hallo Manfred,
UngerMa hat geschrieben: Hauptschwierigkeit ist, dass bei Benutzung des Assistenten zum Excel-Import die Dateiverweise für Bilder/Dateien "aufgesplittet" werden, weil AB offensichtlich einen Tab o.ä. zur Trennung benutzt. Der Assistent ist schon nicht mehr in der Lage zu erkennen, dass die Einträge zusammengehören (bereits in der neutralen Voransicht wird die Zeichenkette für die zweite Datei in der nächsten Zeile angezeigt).
Ich kann das leider nicht nachvollziehen, denn unter Excel-2002+2007 passiert das nicht. In meinem persönlichen Eintrag stehen die Pfade zu 6 Dokumente. Nach dem Einlesen in Excel stehen die Pfade alle beisammen hintereinander in einer Spalte und nach dem Wiedereinlesen in AB sind alle Angaben dort, wo sie sein sollen und lassen sich auch alle problemlos öffnen.
Ich lege mal zur Nachvollziehbarkeit eine Test-csv bei.
Hmm, wenn ich die aufmache, dann sieht das in Excel wie unten aus.
Verfasst: 08.08.2009, 21:36
von UngerMa
Hallo Torquatus,
richtig, so sieht die csv aus, wenn sie direkt mit Excel geöffnet wird. Da sind aber "nichtdruckbare Zeichen" drin (können entfernt werden mit der Funktion SÄUBERN). Wenn man aber nun die csv in txt umbenennt, gibts ein völlig anderes Bild, weil plötzlich die Umbrüche wirksam werden.
Ich habe mein Problem nun doch dadurch gelöst, indem ich die "falschen" Datumsangeben einzeln korrigiert habe. Die Zahl von 71 Fehlern hat sich durch die Verweise der Personen untereinander auf etwa 15 reduziert, also relativ überschaubar.
Grundsätzlich zwei Möglichkeiten: csv und "richtige" Datumse verwenden, oder txt und Problem mit den Umbrüchen bei mehreren Dateien an einer Person. Momentan scheint nur die erste Variante beherrschbar zu sein.
(Ich habe "nur" Office2003, Probleme mit vielen Zeichen in einer Zelle gibts nicht.)
Danke und Gruß
Manfred
Verfasst: 09.08.2009, 00:39
von Torquatus
Hallo Hugo,
Hugo hat geschrieben:Komisch, auf Isabelle ihren Laptop mit W98 und Office97 ergeben sich bei Excel ganz andere Werte
Text-Felder = max 1024 Zeichen
max Zeilen = 32.000 und ein paar zerquetschte
das liegt evtl. an W98. Schau doch einfach mal - wie ich - in der Onlinehilfe von Excel-97 nach "Spezifikationen".
PS: Diese Meldung gibt es auch noch
8 2 4 csv-Import mit Hochkommas (') problematisch - Datenverlust mit Excel 2007.
[mehr]
Ja, das Problem besteht auch jetzt noch. Wenn man eine AB-Datei im CSV-Format abspeichert und diese Datei dann "unverändert" wieder in AB einliest, dann klappt das ohne Probleme. Wird die Datei aber von Excel verarbeitet und gespeichert und dann nach AB eingelsen, dann hat man Datenverluste. Bei 24.000 Personen kam es bei mir zu 15 Problemfällen; nicht viel aber ärgerlich.
Verfasst: 09.08.2009, 00:53
von Torquatus
Hallo Manfred,
UngerMa hat geschrieben:Wenn man aber nun die csv in txt umbenennt, gibts ein völlig anderes Bild, weil plötzlich die Umbrüche wirksam werden.
ja, ausprobiert, stimmt. Wieder etwas dazugelernt
Grundsätzlich zwei Möglichkeiten: csv und "richtige" Datumse verwenden, oder txt und Problem mit den Umbrüchen bei mehreren Dateien an einer Person. Momentan scheint nur die erste Variante beherrschbar zu sein.
(Ich habe "nur" Office2003, Probleme mit vielen Zeichen in einer Zelle gibts nicht.)
Das von Hugo erinnerte Problem mit den Hochkomma besteht aber auch noch
Verfasst: 21.10.2009, 20:13
von UngerMa
Hallo Torquatus und Hugo, danke für die Anregungen.
Nach etlichen Monden komme ich nun dazu, mir das Thema csv-Export und -Import noch einmal anzusehen und darüber zu berichten.
Ein Problem gibt es entsprechend meiner Erfahrung "nur", wenn einer Person MEHRERE Dokumente (Bilder/Dateien) zugeordnet werden.
Solange die csv "direkt" in Excel eingelesen wird (egal, ob unmittelbar aus AB oder extern), klappt das ohne Schwierigkeiten.
Allerdings: Unvollständige Datumsangaben werden von Excel falsch interpretiert. Beispiel: aus dem unvollständigem Sterbe-Datum 08.1926 wird in Äksel grafisch 81.926, aber eigentlich nur 81926, weil die Zelle als Zahl mit 1000er Trennzeichen (.) formatiert ist.
Solche Angaben müssen vorher in eine GEDCOM-konforme Angabe geändert werden.
Das war übrigens der Anlaß für mich, das Thema loszutreten.
Wird die csv in txt umgetauft und per Assistent - Trennzeichen Semikolon - in Excel eingelesen: Das Ergebnis ist nicht verwendbar, da in das Feld OBJE.FILE bei MEHREREN Dateiverweisen Umbrüche eingefügt werden (nichtdruckbare Zeichen). Das führt zur Splittung des Datensatzes in mehrere Zeilen. Die Anzahl ist von der Menge der angehängten Dateien abhängig. Ein Import in AB ergibt absoluten Unsinn.
Eine manuelle Reparatur geht nicht. Wers nicht glaubt: ohne den Assistenten einlesen und dann einen Teil der Zeichenkette aus diesem Feld woanders hin kopieren. Da gibt es erstaunliche Effekte. Ich hatte keine Lust, das alles auszuprobieren. Viel Spaß damit!
Probleme mit Hochkommata habe ich nicht beobachtet, vielleicht habe ich was falsch gemacht. Und mit Unicode-Texten habe ich nichts am Hut.
Sind bestimmte Eingaben (Datum, Sonderzeichen usw.) erkennbar als Hindernis beim Datenaustausch mit GEDCOM, csv usw., könnte bei der Datenprüfung von AB ein entsprechender Hinweis erfolgen. Nicht-GEDCOM-konforme Datumsangaben z.B. könnten geblockt werden. Zwar sind Restriktionen aller Art mitunter ärgerlich, aber das ist immer noch besser, als wenn dann in 120 Fällen manuelle Korrekturen gemacht werden müssen.
Allgemein Excel und Ahnenblatt:
- Texte in den Anmerkungen mit mehr als 32.767 Zeichen?
Ich persönlich halte das für Unsinn. Wer Romane zu Personen schreiben will, kann das in Form von Dateien (txt, Word, pdf ...) machen. Genau dafür lassen sich ja Dokumente zuordnen, und das müssen keine Bilder sein. In den Dateibeschreibungen gibt es die Möglichkeit, eine Klassifizierung vorzunehmen. Dass es mit zu vielen Zeichen in Excel Beschränkungen gibt ist für mich uninteressant, weil Excel auch nicht der Nabel der Welt sein kann. Aber wie gesagt: Große Datenmengen gehören m.E. nicht in die Felder für Anmerkungen und Quellen.
- Anzahl der möglichen Zellen in Excel?
Ihr solltet mal eine Rundfrage starten, wer über 65536 Einträge (Excel 2003) kommt. Das sind dann wahrscheinlich Leute, die eventuell Johannes Gutenberg oder Karl den Großen in ihrer Datei haben. Aber dafür kann und sollte man dann Access oder dergleichen verwenden.
Gruß
Manfred