Excel-Tipps: Jede Woche neu

Excel-Tipp 7: Duplikate aufstöbern

LinkedIn Learning kostenlos und unverbindlich testen!

Jetzt testen Alle Abonnements anzeigen
René Martin hat in seiner Arbeit als Trainer zahllose Excel-Tipps gesammelt. Mit diesen Tipps lassen sich typische Anwendungsaufgaben schneller und eleganter lösen oder Fallstricke vermeiden. Dieses Wissen gibt er Ihnen in kleinen Häppchen Woche für Woche weiter. Seien Sie gespannt, welchen kleinen Leckerbissen er in der neuen Woche für Sie bereithält. Und mehr als 10 Minuten brauchen Sie nicht zu investieren.
07:18
  Lesezeichen setzen

Transkript

Hallo zusammen, ich heiße René Martin. Ich beschäftige mich oft und intensiv mit Daten. Wer von ihnen das auch tut, der wird das Phänomen kennen, das in der Datenbank Technologie Duplikaten zureißt. Eine wichtige Sache. Es kann immer mal passieren, dass bei der Umstellung von einem System auf ein anderes Daten doppelt erfasst werden. Oder bei der manuellen Buchung wird aus Versehen eine Kostenstelle, eine Artikelnummer oder eine Personalnummer doppelt eingetragen. Oder eine E-Mail-Adresse taucht zweimal auf. Darf nicht sein. Nein, Excel ist zwar kein Datenbanksystem und hat folglich auch keine SQL-Befehle zu Gruppieren und Zählen, aber Excel stellt einige Techniken zur Verfügung mit denen man doppelte Einträge finden, beziehungsweise eliminieren kann. Schauen Sie selbst. Duplikatsuche. Ich habe hier eine Liste, zugegeben schon eine mittelgroße Liste mit E-Mail-Adressen. Hier habe ich generiert mit einem Zufallsgenerator irgendwelche beliebigen Vornamen und dann irgendwelche E-Mail-Adressen, Yahoo, GMX, Hotmail, Telekom und so weiter. Strg + Pfeil nach unten 12.000 Zeilen, eine ganze Menge. Und ich gebe zu, beim Generieren mit diesem Zufallsvariablen sind mir natürlich Fehler unterlaufen, ganz konkret ich habe einige E-Mail-Adressen doppelt generiert. Das darf nicht sein. Die möchte ich jetzt ganz gerne finden. Darum geht es. Die erste Möglichkeit, mit der Sie so etwas bewerkstelligen können, ist, Sie fügen eine Hilfsspalte ein, Sie lassen zählen, ISTGLEICH Zählen wenn in welchem Bereich in der gesamten Spalte such mal bitte die eine Zelle. Entweder dieser Wert taucht einmal auf oder er taucht mehr als einmal auf. Hier der Ali60, der steht einmal drin, aber Doppelklick. Wenn ich das ganze runterziehe, dauert einen kleinen Moment, brauche zum Rechnen. Dann sehen Sie nach einer Weile, oo dieser Garniel, der steht zweimal drin. und ratsch, ratsch, ratsch Da ist wieder einer, der Ernst bei Hotmail, auch er ist zwei mal drin. Interessant! Somit könnte ich also die Liste nach diesem Zählen wenn, Sortieren oder Filtern und wir dann so die Duplikate rausbekommen. Das ist eine Möglichkeit. Sie können es auch noch ein bisschen schneller machen. Strg -. Sie können auch die ganze Spalte direkt über StartBedingte Formatierung mit einer Regel, die mir die doppelten Werte hervorhebt, Formatieren. Ich mache mal doppelte Werte. Ich hätte ganz gerne all die E-Mail-Adressen formatiert, die mehrmals drin sind mit, er schlägt vor Hellrot. Können Sie lassen, lassen wir auch mal, OK. nicht die schönste Farbe. Wo sind sie? Ratsch, ratsch, ratsch. Aha, da ist er, ratsch, ratsch, ratsch. Natürlich will ich jetzt nicht ratsch, ratsch, ratsch runterscrollen bei 10.000 Datensätzen, das ist eine Menge Arbeit, sondern Sie können entweder über DatenListe sortieren nach der Farbe oder Filter, nach der Farbe. Achtung! Excel wird hier sehr, sehr langsam, ich vermute jedes Mal, wenn er ein Sortierschritt oder ein Filterschritt ausführt, berechnet er die bedingte Formatierung neu. Ich zeige es Ihnen einfach mal, ich filtere, ich filtere hier über das Pfeilchen mit dem Autofilter und Sie sehen schon er rechnet jetzt im Hintergrund. Normalerweise sind ja 10.000 Zeilen für Excel kein Problem. Vielleicht haben Sie es gerade auch gesehen, er tut so, als würde er abstürzen, er kämpft ziemlich mit diesen 10.000 Daten und 10.000 bedingten Formatierungen. Zeigt mir aber jetzt an, er kann nach der Farbe filtern, und mich interessieren die doppelten, eben die da, Klick. Und auch hier, er braucht einen kleinen Moment, und dann hat er sämtliche gefiltert, die mehr als einmal drin stehen. Lassen Sie sich nicht irritieren durch diese keine Rückmeldung, Das erscheint. Wahrscheinlich ist er intern ziemlich überlastet, aber noch nicht ganz überlastet. Geben Sie ihn noch einen kleinen Moment, hier sehen Sie, da sind sie. Gut, das ist jetzt die Filterung von, schauen wir uns mal an, Strg + Pfeil nach unten, von den insgesamt 3000 Daten, von den 12.000 Daten, die doppelt sind. Jetzt sehe ich natürlich nicht, wer ist doppelt. Das heißt, ich müsste die Liste intern noch mal sortieren, A bis Z. Jetzt sehen Sie, A. Bauer bei aol steht zweimal drin, Albert bei abacho steht zweimal drin. Und ich sehe hier, oo, da verbergen sich natürlich andere As, andere Alberts. Hier ist irgendwas schiefgelaufen mit meinem System. Das ist die zweite Möglichkeit, also die erste war Zählen wenn, die zweite war mit Start, mit der bedingten Formatierung. Ich werfe den Filter mal wieder raus. Die dritte Möglichkeit lautet Pivot-Tabelle. Sie können auf diese Liste auch einfach eine einfügen Pivot-Tabelle, am besten auf einem neuen Blatt aufsetzen, OK. Können jetzt die E-Mail-Adressen in ein Feld, am besten vielleicht untereinander unterziehen, weil 10.000 Zeilen nebeneinander ist ein bisschen unübersichtlich. Ich wüsste ganz gerne ihre E-Mail-Adressen. Wie oft taucht er denn auf? Ich ziehe die Texte einfach nochmal in die Summenspalte und stelle jetzt fest, 1, 1, 1, 1, oo, er ist zweimal drin. Gleiches Spiel und die kann ich natürlich jetzt wieder sortieren. Am besten hier, rechte Maustaste, sortiere mal. Nach der Größe, aber natürlich absteigend, den größten oben, es könnte ja sein, dass einer dreimal drin ist. OO, ich sehe, einer ist sogar siebenmal drin. Da muss ich mal nachgehen, wurde hier siebenmal der gleiche Kunde erfasst, oder sind es sieben verschiedene Kunden. Sie könnten jetzt vernünftigerweise natürlich die Kundennummer runterziehen oder wenn ich deutlicher sehe. Ich hole den Vornamen runter. Ich stelle fest, Albert, Caden, Colby, Earnest, Guillaume, Jonas und Kim haben die gleiche E-Mail-Adresse, da schau ich mal nach, da ist auf jeden Fall was schief gelaufen. Also, Excel stellt mehrere Varianten zur Verfügung, um Duplikaten zu suchen, zu finden erstmal. Ich rate davon ab, oder ich gebe zu bedenken, sehr, sehr riskant ist, gleich mit Kanonen auf diese Liste zu schießen, auf diese, schwarze Liste ist es nicht gerade, indem Sie Daten die Duplikate entfernen finden Sie hier. Dann fragt er in welcher Spalte. Zum Beispiel in der Spalte E-Mail sind Duplikate drin, OK, mach mal. Und sagt dann 10.000 eindeutige Werte bleiben, die anderen 2000 oder 3000 habe ich nun gelöscht. Hier, 1600 sind es genau, wurden entfernt. Ich finde es deshalb riskant, weil Sie wissen jetzt nicht mehr, welche wurden gelöscht. Der erste Albert bleibt, der zweite Albert wird gelöscht. Also das finde ich ein bisschen riskant. Ich weiß, es gibt Leute, die arbeiten damit. Finden Sie heraus, gibt es überhaupt Duplikate, machen dann rückgängig, aber mir wäre es zu heiß. Die anderen Varianten genügen mir. Damit komme ich gut klar.