Auswertungen der Daten

hieberst · Beitrag von **hieberst** » 27.11.2020, 14:02

Hallo zusammen,

mir stellt sich gerade die Frage, wie ich möglichst einfach die unterschiedlichsten Auswertungen erstellen kann.

Damit meine ich zum Beispiel:
- Ereignisse ohne Quellen
- Quellen mit Link aber ohne Datum
- Quellen mit Link aber ohne Anhang / Medium
- Personen mit einem bestimmten Wort/Text in einer Notiz
- Personen mit gleicher benutzerdefinierter ID (REFN)

Ich will also einerseits wissen, wo ich bei der Eingabe geschludert habe und andererseits nach bestimmten Texten suchen können, um damit einzelne Personen weiter klassifizieren zu können. Also bspw. "Geprüft am...".

In AB habe ich dazu nichts gefunden, auch bei den Plugins bin ich nicht fündig geworden.

Aber vielleicht ist ja auch meine Vorgehensweise falsch? Wie stellt Ihr sicher, dass eure "Funde" möglichst vollständig und kein Wunschdenken sind?

Vielen lieben Dank
Steffen

bjew · Beitrag von **bjew** » 27.11.2020, 18:06

Hallo,
das lässt sich vermutlich fast alles am einfachsten über den csv-Export lösen. Ich sehe auf Anhieb keinen Lösung innerhalb Ahnenblatt.

D.h., Zeilen mit/ohne die gewünschtten Kriterien auswählen und anschließend wieder in Ahnenblatt importieren.

hieberst · Beitrag von **hieberst** » 27.11.2020, 19:10

Hallo,
vielen Dank für den Tipp, mit dem CSV-Export komme ich gut klar und ich habe dabei direkt auch gleich den ersten Fehler gefunden. Importieren will ich es gar nicht, ich will nur eine Liste, die ich abarbeiten kann.

Danke schön.

Fridolin · Beitrag von **Fridolin** » 27.11.2020, 21:26

hieberst hat geschrieben:Hallo zusammen,

mir stellt sich gerade die Frage, wie ich möglichst einfach die unterschiedlichsten Auswertungen erstellen kann.

Damit meine ich zum Beispiel:
- Ereignisse ohne Quellen
- Quellen mit Link aber ohne Datum
- Quellen mit Link aber ohne Anhang / Medium
- Personen mit einem bestimmten Wort/Text in einer Notiz
- Personen mit gleicher benutzerdefinierter ID (REFN)

Hallo Steffen, deine Fragen klingen alle so, als ob jemand anders sie auch haben könnte. Insofern: Frage in die Runde der Plugin-Programmierenden sowie an Dirk, ob da was machbar wäre!

Wort in Notiz: Suchfunktion starten, bei Optionen das gewünschte Feld markieren (aber merken - denn beim nächsten Mal ist das wieder voreingestellt!).

Ansonsten gibt es in Ahnenblatt bisher in dieser Richtung vor allem die berühmte Plausibilitätsprüfung, aus der man auch automatisch Aufgaben generieren kann, soweit ich mich erinnere.

Leider muss es bei jedem anständigen Programm noch offene Wünsche für die Zukunft geben - damit die Weiterentwicklung Perspektiven hat...

hieberst · Beitrag von **hieberst** » 28.11.2020, 14:35

Hallo Fridolin,

danke, die Suchfunktion hatte ich tatsächlich noch nie verwendet. Die Plausibilitätsprüfung hingegen schon, sie hat mich bereits auf die eine oder andere Fehleingabe hingewiesen.

Aktuell komme ich mit dem CSV-Export prima zurecht, ich kann die Daten dann ja beliebig filtern und bekomme damit meine gewünschten Listen, wenn auch nicht ganz so allgemein wie oben formuliert, aber für meinen Zweck mehr als ausreichend.

Ursächlich für meine Frage ist übrigens, dass ich erstmals in AB die Internet-Suche aktiviert habe und dabei festgestellt zu haben meine, dass die Familienstammbäume Dritter, welche gemeinsame Vorfahren haben, bei manchen Personen teilweise Abweichungen enthalten, welche für mich unstimmig sind und nicht zu den Quellen passen, falls vorhanden. Vermutlich auch, weil z.B. auf Ancestry die eine oder andere Transkription nicht ganz korrekt ist. Obwohl ich zufriedener Ancestry-Kunde bin, da ich bisher z.B. alle Geburtsurkunden, welche ich mir mühsam in einem Archiv in Polen abfotografiert habe, dort ebenfalls gefunden habe. Und man kann die Daten ja online aktualisieren, auch wenn ich mir hier eine Bestätigungsmail wünschen würde. Jedenfalls hatte ich mir überlegt, wie ich meine Daten systematisch prüfen kann, meine Daten können ja genauso fehlerhaft sein. Daher auch meine Frage, wie andere das lösen.

Ich habe mir gestern mal spasseshalber ein kleines AB-Plugin geschrieben, welches doppelt vergebene benutzerdefinierte IDs sucht; wie das geht, ist hier im Forum ja wunderbar beschrieben. Nur um zu sehen, wie aufwändig das ist. Meine Listen könnte ich mir damit auch relativ einfach erzeugen, eine Verallgemeinerung, also quasi einen Listen-Generator, halte ich aber für sehr anspruchsvoll. Damit möchte ich vorerst niemanden belästigen, solange ich es nicht vernünftig formulieren kann, jeder hat ja eigene Vorstellungen, welche Listen ihn interessieren.

Was für meine Zwecke praktisch wäre, wäre eine Erweiterung der Suchfunktion insofern, dass das Ergebnis invertiert wird, ich also eine Liste der Personen erhalte, welche den Suchausdruck nicht enthalten. Oder alternativ die Möglichkeit, einen regulären Ausdruck als Suchausdruck angeben zu können. Falls meine Vorgehensweise sinnvoll ist, wovon ich noch nicht wirklich überzeugt bin...

Danke schön.

jsy_vienna · Beitrag von **jsy_vienna** » 29.11.2020, 00:12

Hallo Steffen,

Im Forum ist immer von dem Excel Export die Rede. Für gewisse Tests ist dies ein gutes Mittel.
Ich bin kein großer Fan davon, da die Ausgabe in einer flachen Struktur mit einer Zeile pro Person erfolgt. Relevante Informationen stehen in irgendeiner Spalte und sind, speziell bei Ereignissen kaum zu finden. Alle Ereignisse zu einer Person stehen somit in einer Zeile IRGENDWO! Das geht nicht anders, wenn man Inhalte aus Relationen zu flachen Dateien „verbiegt“.
Mein Vorschlag ist das GEDCOM-File deiner AHN-Datei zu nutzen und dieses in Excel als Textdatei in folgender Form einzulesen:
Textdatei mit Leerzeichen als Trennzeichen.
Dies hat den Vorteil, dass die logische Struktur der Datensätze erhalten bleibt und so auch einfach prüfbar ist. Auch die Logiken des Gedcom-Formats bleiben als Prüfkriterien/parameter erhalten.

EINSCHUB: Excel Datei Schritt öffnen, für Excel-Neulinge:
• Datei öffnen / Durchsuchen /
• Zu Verzeichnis gehen, in dem die GEDCOM Datei liegt
• neben Dateinamen Dropdown-Feld auf „Alle Dateien“ stellen und in der Dateiauswahl die Gedcom-Datei öffnen.
• Bei den nächsten Auswahl Option „Getrennt“ wählen und weiter drücken.
• Als Trennzeichen NUR „Leerzeichen“ anklicken.
• Bei der nächsten Auswahl auf „Fertigstellen“ drücken.
Als Ergebnis erhälts Du die GEDCOM-Zeilen in einer Spaltenstruktur, mit der man sehr gut weiterarbeiten kann.

Folgender Link gibt einen sehr informativen Überblick über GEDCOM-Dateinen und -format.
https://www.ahnenblatt.de/infos/gedcom/

ENDE EINSCHUB

Nun noch eine 1. Zeile mit den Spatenüberschriften einfügen.
Meine Eingabe ist dabei
Spalte A Ebene
Spalte B Tag
Spalte C Inhalt
Den Rest lasse ich ohne Überschrift.
Nun noch die erste Tabellenzeile als Überschrift fixieren (bei Menüpunkt Ansicht/Fenster fixieren) und schon kann es mit den Auswertungen losgehen:
Der Vorteil dieser Struktur ist, dass man gezielt nach Ebene, Tag, Inhalt und den restlichen Spalten SUCHEN, SORTIEREN und FILTERN kann!

Nun zu Deinen Auswertungen:

Personen mit einem bestimmten Wort/Text in einer Notiz
Filter einschalten und Spalte TAG nach „NOTE“ filtern.
Nun mit der Suchen Funktion in Excel nach dem gesuchten Wert suchen (Suchoptionen beachten!)
Die Zeile der Fundstelle merken und weitersuchen bis nichts mehr gefunden wurde. Dann Filter ausschalten zu den jeweiligen Zeilen gehen und in den Zeilen darüber die betroffene Person ermitteln. (Ahnenblatt mit Suchfunktion machts sicher schneller, Beispiel ist aber für den Einstieg zum Thema gut geeignet)

Personen mit gleicher benutzerdefinierter ID (REFN)
Filter einschalten und Spalte Ebene nach „0“, Spalte Inhalt nach „INDI“ filtern.
Nun das Ergebnis nach Spalte „TAG“ sortieren und schon sind die REF-Nummern sortiert angeordnet. Entweder mit Hilfsspalten eine Prüfung auf Gleichheit hintereinander liegender Werte machen, oder die Werte durchblättern.
Damit kann man auch alle anderen Referenzen (Familie, Ort, Objekte, Quellen etc.) prüfen, jeweils nur in Spalte „Inhalt die entsprechenden Werte „FAM,_LOC, OBJE,SOUR) einstellen.

Nun etwas komplexere Sachen, da ist Wissen über GEDCOM-Struktur von Nöten:

Ereignisse ohne Quellen
Das Tag „SOUR“ für Quelle hat immer die Ebene 2 als Kennzeichen.
Ereignis-Tags haben immer die Ebene 1 als Kennzeichen. Aber nicht jedes Kennzeichen „1“ ist ein Ereignis-Tag.
Folgende Ereignis-Tags sind zu beachten (Aufstellung nicht vollständig, weitere Tags selbst bei Bedarf ermitteln)
EVEN als benutzerdefiniertes Tag
ADDR, BIRT, DEAT, OCCU, RESI, IMMI, etc.
Filter einschalten und Spalte Ebene nach „1“ und „2“ filtern
Spalte „Tag“ nach den jeweiligen gewünschten Ereignissen ADDR, BIRT, DEAT, OCCU, RESI, IMMI, etc.
und unbedingt „SOUR“ noch mitnehmen!
Folgende Ergebnis wird angezeigt
Zeile mit Ebene 1 ist immer das Ereignis.
Dann sollte Ebene 2 SOUR folgen. Ist dem nicht so, hat das Ereignis keine Quelle.
Weiter Vorgangsweise wie bei obigem Fall.
Übrigens: Ahnenblatt hat auch eine Möglichkeit eingebaut: „Automatische Aufgabenerstellung“
Menüpunkt Extras/automatische Aufgabenerstellung
Punkt für Ereignisse (Datum/Ort) ohne Quelle (der Rest ist selbsterklärend)

Ereignisse ohne Anhang/Medium
(nicht gefragt, aber ev. auch nützlich)
Wie vorheriger Fall, nur Tag „SOUR“ durch Tag „OBJE“ ersetzten!

Quellen mit Link aber ohne Datum
Tag „_LINK“ hat derzeit immer Ebene 3 als Kennzeichen, da es eine Ebene tiefer als „SOUR“ sitzt.
Tag „DATE“ und „SOUR“ haben Ebene 2
Daher ist folgende Filterung erforderlich:
Spalte Ebene auf werte „2“ und „3“ filtern
Spalte Tag auf „_Link“, „DATE“ und „SOUR“ filtern.
Folgende Ergebnis wird angezeigt
Ebene 2 Tag „SOUR“ ist der jeweilige Beginn
Danach Kommt Ebene 3 „_LINK“
Nun sollte noch danach Ebene 2 „DATE“ kommen, dann ist alles ok.
Sollte „DATE nicht nach „_LINK“ stehen, so ist zu prüfen, ob direkt vor „SOUR“ „DATE“ steht.
Fehlt „DATE“ gänzlich, ist ein Datensatz gefunden, der in bei Quellenangaben mit Link kein Datum ausweist.
Weitere Vorgangsweise wie oben.
ACHTUNG: Diesen Punkt habe ich nicht sehr gut geprüft, bitte um Feedback ob so ok, Danke.

Quellen mit Link aber ohne Anhang / Medium
Tag „_LINK“ hat derzeit immer Ebene 3 als Kennzeichen, da es eine Ebene tiefer als „SOUR“ sitzt.
Tag „OBJE, hat, wenn es von einer Quelle abhängig ist die Ebene „3“
Tag „SOUR“ haben Ebene 2
Daher ist folgende Filterung erforderlich:
Spalte Ebene auf Werte „2“ und „3“ filtern
Spalte Tag auf „_LINK“, „OBJE“ und „SOUR“ filtern.
Folgende Ergebnis wird angezeigt
Ebene 2 Tag „SOUR“ ist der jeweilige Beginn
Danach Kommt Ebene 3 „OBJE“
Danach Kommt Ebene 3 „_LINK“
Fehlt der Tag „OBJE“, dann ist bei der Quelle kein Anhang/Medium angegeben.
Weitere Vorgangsweise wie oben

Damit sollte eine Prüfung der Datenbestände auch OHNE Programmierkenntnisse möglich sein und der eine oder andere Benutzer zu einer besseren Datenqualität gelangen.

Für EDV-affine User empfehle ich den GEDCOM Bestand in ein Programm, das eine SQL-Datenbank im Hintergrund verwendet, einzulesen und dort mit SQL-Mitteln diverse Auswertungen zu erstellen.

Beste Grüße und Happy Hacking

Johannes

hieberst · Beitrag von **hieberst** » 29.11.2020, 00:58

Hallo Johannes,

vielen lieben Dank für die sehr ausführliche Anleitung, ich bin sprachlos.
Ich arbeite das morgen Abend Schritt für Schritt durch und gebe dann natürlich sehr gerne Feedback.

Vielen Dank,
Steffen

Jürgen_Nordlicht · Beitrag von **Jürgen_Nordlicht** » 29.11.2020, 16:11

Johannes, das ist sehr interessant und regt zum Test an, Danke.
Allerdings hab ich auf einem 64bit Win10 und EXCEL immer Probleme mit csv-Format und auch xls Ergebnisse sind für mich nicht übersichtlich.
"...GEDCOM-File deiner AHN-Datei zu nutzen und dieses in Excel als Textdatei..." werde ich mal versuchen

hieberst · Beitrag von **hieberst** » 30.11.2020, 10:00

Hallo Johannes,

ich habe gestern Abend meine GEDCOM-Datei in Excel und probehalber LibreOffice Calc geöffnet und diese und ähnliche Auswertungen ausgeführt.

Nach ersten Fehlversuchen durch Trotteligkeit meinerseits habe ich noch zwei Spalten hinzugefügt:

eine Spalte "Zeile" als fortlaufende Nummer, damit ich die ursprüngliche Sortierung wiederherstellen kann und
eine Spalte "Person", welche mit 0 beginnend immer um 1 inkrementiert wird, wenn in der Spalte "Ebene" eine 0 steht, um bei den gefilterten Zeilen einen Personenwechsel erkennen zu können.

Das hat insgesamt wunderbar funktioniert, ich konnte alle Auswertungen durchführen, mit folgenden Anmerkungen:

Personen mit einem bestimmten Wort/Text in einer Notiz
Durch das Leerzeichen als Trennzeichen landet jedes Wort in einer eigenen Spalte, was eine Suche mit Leerzeichen wie bei "geprüft am" erschwert. Auf die Leerzeichen kann ich aber natürlich verzichten. Schlussendlich habe ich die GEDCOM-Datei jedoch einfach in einem Texteditor geöffnet und mit regulären Ausdrücken durchsucht.

Personen mit gleicher benutzerdefinierter ID (REFN)
Dazu habe ich abweichend Ebene 1 und Tag REFN ausgewählt, dann nach Inhalt sortiert und dann erst mal nur eine Sichtprüfung gemacht. Den INDI-Filter habe ich ehrlich gesagt nicht verstanden.

Quellen mit Link aber ohne Datum
Wenn bei einer Quelle ein Datum angegeben ist, dann finde ich dieses Datum bei meinen Daten unter SOUR.DATA.DATE, also in Ebene 4. Da aber DATE auch in Ebene 2 vorkommt, habe ich mich anstelle von DATE für das Tag DATA entschieden, das hat gut funktioniert.

Ich komme also mit beiden Auswertevarianten zurecht. CSV ist für einen ersten Durchlauf einfacher, ich muss mir damit aber bestimmte Ereignisse wie Heirat herauspicken und alle anderen Spalten ausblenden, damit ich den Überblick behalte. GEDCOM ist daher die Wahl für einen zweiten Durchlauf, weil ich damit sicherer sein kann, dass ich alles finde und nichts übersehe.

Der Königsweg ist aber vermutlich wirklich SQL, ich werde das im Laufe dieser Woche mal ausprobieren. Wenn ich die GEDOM-Datei vernünftig einlese und dann die Tabelle weiter zerlege, müsste ich mit ein paar gezielten SELECT's meine gewünschten Auswertungen erhalten...

Danke schön
Steffen

jsy_vienna · Beitrag von **jsy_vienna** » 30.11.2020, 12:13

Hallo Steffen,

Fein, dass Du mit der Methode mehr Genauigkeit und Sicherheit in Deine Daten bringen kannst.

Zu Deinen Erkenntnissen:
„CSV ist für einen ersten Durchlauf einfacher, ich muss mir damit aber bestimmte Ereignisse wie Heirat herauspicken und alle anderen Spalten ausblenden, damit ich den Überblick behalte. GEDCOM ist daher die Wahl für einen zweiten Durchlauf, weil ich damit sicherer sein kann, dass ich alles finde und nichts übersehe.“
Aus dem Grund der Genauigkeit habe ich mir auch diese Methode überlegt. Wenn man im CSV-Bestand „wühlt“ (Spalten weg, Spalten her, usw.), ist schnell etwas übersehen. Mit CSV-Datei findet man die gröbsten Schnitzer und kann dann noch mit GEDCOM nachgebessert werden. Da bin ich voll bei Dir!

Zu SQL:
„Der Königsweg ist aber vermutlich wirklich SQL, ich werde das im Laufe dieser Woche mal ausprobieren. Wenn ich die GEDOM-Datei vernünftig einlese und dann die Tabelle weiter zerlege, müsste ich mit ein paar gezielten SELECT's meine gewünschten Auswertungen erhalten...“

Das habe ich anders gemeint. Ich dachte an andere Verwaltungsprogramme, die im Hintergrund SQL Datenbanken als Datenbasis verwenden.
Du schlägst den Weg des Einlesens des GEDCOM-Inhalts in eine SQL-Datenbank vor. Coole Idee!!! Werde das auch Versuchen, so im ersten Eindruck und Bauchgefühlt geht das was!

Nun zu meiner ursprünglichen Idee, meiner auf meine Bedürfnisse gewählten Vorgangsweise:
Im Speziellen wird in mehreren anderen Verwaltungsprogrammen SQLITE einsetzt, was bekanntlich auf einem einfachen und nicht zu starkem PC sehr gut läuft und ohne großen Aufwand eingesetzt werden kann, da es keinen Server benötigt.
Ich habe den GEDCOM-Bestand meiner AHN-Dateien in die anderen Programme eingelesen. Mit der dabei erhaltenen SQL-Datei einige VIEWS erstellt und damit Auswertungen nach verschiedensten Kriterien durchgeführt.
z.B.:
+) Zeitleiste über Ereignisse aller/bestimmter Personen
+)Häufigkeit von Todesursachen auch nach Geschlechtern und Altersgruppen
+)Anzahl der Geburten pro Frau
+) Auswertung von Berufen, nach von mit festgelegten Berufsgruppen
+) Usw.
Aber jetzt kommt der kleine Pferdefuß an der Sache.
Nicht alle für mich relevanten TAGs aus Ahnenblatt werden von den anderen Programmen erkannt und in die SQL-Datenbank übernommen.
Bei Quellen und Orten spießt es sich etwas. Da muss man nachbessern (Importprotokolle sind dabei sehr hilfreich) oder auf diese Informationen verzichten.

Generell noch eine Bemerkung zu meiner Vorgehensweise:
Ahnenblatt ist für mich das IDEALE Erfassungstool für meine Arbeiten. Aus Standardauswertungen sind reichlich vorhanden. Wenn es ans Eingemachte geht, mache ich mir die Auswertungen selbst und komme damit bestens zu Rande. Wichtig ist auch, die anderen Programme nur als Hilfsmittel zu sehen und dort KEINE Dateneingaben zu machen. Auch findet man in anderen Programmen gute Auswertungen und Grafiken, die zu einer „Horizonterweiterung“ führen können.

Beste Grüße und Happy advanced Hacking

Johannes

Ahnenblattportal

Auswertungen der Daten

Auswertungen der Daten

Re: Auswertungen der Daten