Grundlagen der Datenbereinigung
Methoden und Verfahren im Überblick
Je nach Art und Weise der Datenerfassung kommt es in Datenbeständen immer wieder zu doppelten Datensätzen, unterschiedlichen Schreibweisen und fehlerhaften Einträgen. Aufgabe der Datenbereinigung ist es die bestehenden Daten zu kontrollieren und säubern. Es erfolgt eine Dublettenprüfung, -identifizierung und -löschung und eine Bereinigung der Daten durch Strukturierung und Normierung. Zuletzt können dann die vorhandenen Daten mit Informationen aus internen und externen Quellen angereichert und ergänzt werden. Das Ergebnis des Data Cleaning sind konsistene, widerspruchsfreie und vollständige Datensätze. Folgend ein paar Beispiele, die Ihnen das Vorgehen beim Data Cleaning näher bringen.
Dubletten
Bei Dubletten wird geprüft ob ein Datensatz mit geringfügigen Änderungen in der Datenbank mehrfach enthalten ist. Es wird der korrekte Datensatz ermittelt und gegebenfalls berichtigt, die weiteren Datensätze werden anschließen gelöscht. Typisch auftretende Fragen sind zum Beispiel:
Ist ein Kunde ist mit mehreren Kundennummern in der Datenbank vorhanden?Ist ein Lieferant mit unterschiedlichen Schreibweisen doppelt vorhanden (z.B. Müller & Söhne Daten GmbH und Müller Daten GmbH)?
Ist ein Kunde mit mehreren Adressen in die Datenbank eingetragen?
Strukturierung und Normierung
Bei der Prüfung auf Strukturierung und Normierung werden die vorhandenen Daten auf einheitliche Struktur und Schreibweise geprüft und berichtigt. Folgende Fragen sind Ihnen sicher in Ihrem Arbeitsalltag auch schon begegnet, wenn Sie Daten erfasst haben:
Die richtige Anrede: Herr oder Hr.? Der richtige Titel: Dipl.-Ing. oder Dipl. Ing.?
Die richtige Telefonnummer: (0941) 8 90 50 40 oder 0941/8905040 oder +49 (0) 941 8905040 oder +49 941 8905040 oder +49 941 890504-0?
Sind Straße und Hausnummer getrennt oder in einem Feld?
Anreicherung
Bestimmte Daten können aus vorhandenen internen und externen Quellen geprüft, ergänzt oder angereichert werden. So kann zum Beispiel ein Abgleich der Postleitzahlen und Orte mit der Datenbank der Deutschen Post erfolgen oder der Geschäftsführers mit Hilfe der Datenbank eines Adressdienstleisters ergänzt werden. Desweiteren gibt es im Markt noch viele verfügbare Daten, wie zum Beispiel Kaufkraft, Mietniveau oder Autoanteil, die eine weitergehende Qualifizierung Ihrer Daten erlauben.