Dubletten über mehrere Excel-Tabellen finden

estre

Commander
Registriert
Dez. 2005
Beiträge
3.006
Hi zusammen,

Ich habe 3 Tabellen (in 3 verschiedenen Excel-Dateien) die jeweils mehrere hundertausend Datensätze beinhalten.
Nun möchte ich diese Dateien auf Dubletten prüfen, d.h. ich möchte eine Liste über aller Duplikate haben.

Ich habe mir bereits das Tool fuzzydupes angeschaut, das aber nur begrenzt frei nutzbar ist.

NUn frage ich mich ob das nicht auch mit den Bordmitteln geht, die Excel mir zur Verfügung stellt.

Könnt ihr mir da weiterhelfen?

Vielen Dank!

Grüße
 
Tools an sich sind mir nicht bekannt. Aber Abfragen kannst Du ja bei ausreichend schnellem Rechner und viel RAM auch zur Not per Excel machen. Wie sieht denn die Struktur aus? Wieviele Spalten? Sind die Datensätze eindeutig, zB mit einer Artikelnummer oder so?
Ergänzung ()

Wird aber bei mehreren 100k Zeilen sehr sehr lange dauern. Ich habe diese Thematik in der Buchhaltung, zB wenn ich Summen- und Saldenlisten mehrerer Monate habe und prüfe, ob Konten in den Monaten hinzugekommen oder weggelassen sind. Aber selbst bei 1-2 Tausend Zeilen, die ich manchmal habe, rödelt der Rechner schon. Ich mache das mit einem SVERWEIS. Das ist auch nicht gerade die schnellste Funktion in Excel. Aber ein anderer Weg fällt mir nicht ein, da Excel ja die Inhalte jeder Zeile von Tabelle 1 mit jeder von Tabelle 2 abgleichen muss. Noch schwieriger wirds, wenn Du "ähnliche" Datensätze ohne eindeutigen Basiswert / Indikator hast, wie bei mir die Kontonummer zB. Ein Tipp auf jeden Fall: Wenn Du das machst, schalte vorher das automatische Berechnen der Excel-Zellen aus und lass ihn manuell rechnen. Sonst hast Du bei der Menge mE verloren.
 
Zuletzt bearbeitet:
Hey,

genau, am liebsten wäre mir es, wenn man es direkt in Excel machen kann, aber da fehlt mir das Know How :(
Die Datensätze selbst sind nicht eindeutig identifizierbar (z.B. anhand einer Kundennummer oder Pin) es handelt sich um typische Adresstabellen mit den Spalten "Name", "Vorname", "Strasse", "PLZ", etc.

Das Problem ist, dass der Datenbesand extrem inkonsistent ist und z.B. die gleiche Person jeweils in allen 3 Tabellen vorkommt, aber jeweils völlig unterschiedlich geschrieben ist, obwohl es eben die gleiche Person ist.



Rein theoretisch habe ich mir überlegt, dass ich einfach die ersten 3 Buchstaben vom Vornamen und die ersten 3 Buchstaben vom Nachnamen nehme und nach diesem String dann jeweils über alle Tabellen hinweg die Dubletten suche, aber wie bzw. ob man soetwas machen kann weiß ich eben nicht ...

Grüße
 
Mal eine ganz doofe Frage: Mehrere Hunderttausend Adressdatensätze, wer hat denn für sowas eine Excel-Tabelle? Und wenn man schon mehrere Großstädte in seiner Datenbank hat (zB die Telekom, Google oder das Bundesfinanzministerium) warum sollte man sowas mit Excel machen und nicht mit einem professionellen Datenbanksystem?

Oder hast Du einfach nur viele Freunde?

Ach ja: Wenn Du ein semi-professioneller Spammer bist, kann ich sowieso nicht helfen.
Ergänzung ()

Also ob das mit so vielen geht, weiss ich nicht, aber bei kürzeren Tabellen würde ich Deine drei Tabellen untereinanderkopieren und dann nach der Nachname-Spalte sortieren. Dann könnte man ggf. noch die direkten Nachbarn mit einer "Ähnlichkeitsabfrage" markieren (wenn erste drei buchstaben Nachname & erste drei Buchstaben Vorname identisch mit denen der 1 bis x Vorgänger oder Nachfolger, dann Markierung).
Ergänzung ()

Frag Dich aber auch, was es Dir bringen soll, eine Liste der Dubletten zu haben. Bereinigen musst Du die Tabelle trotzdem per Hand, weil Du ja sagtest, dass die Datensätze uneinheitlich gepflegt wären. Also einfach wird das nicht.
 
Hey,

Insgesamt befinden sich in den 3 Tabellen zusammen ca. 200.000 Adressen.
Sorry, wenn meine Anfrage etwas "dubios" rüberkam, ich brauche diese Auswertung rein beruflich. Es liegt mir völlig fern irgendwelche illegalen Dinge damit zu treiben, da würde ich ja in Teufels Küche geraten :)

An das untereinander kopieren habe ich auch schon gedacht, aber das ist einfach schwierig bei so vielen Daten. Außerdem möchte ich die Lösung dann unserem Fachbereich (den Anwendern) zur Verfügung stellen, damit sie zukünftig ihre Dubletten selbst rausfischen können. Das Würde ich sogar noch hinbekommen, das müsste mit einem SVERWEIS machbar sein ....


Ergänzung vom 05.06.2012 18:31 Uhr: Frag Dich aber auch, was es Dir bringen soll, eine Liste der Dubletten zu haben. Bereinigen musst Du die Tabelle trotzdem per Hand, weil Du ja sagtest, dass die Datensätze uneinheitlich gepflegt wären. Also einfach wird das nicht.
Das ist ja genau der Punkt. Wenn ich eine Liste mit den Dubletten habe kann ich sagen: "Hier lieber Anwender bereinige mal deine Datensätze, diese Liste kannst du dafür verwenden" :)

Grüße
 
Zuletzt bearbeitet:
Schon die Duppletten suchen Funktion mit 2007 sowie 2010 genutzt? Alternativ den Spezialfilter unt er 2003?
 

Ähnliche Themen

Zurück
Oben