Come rimuovere record duplicati da un database di Excel

Avere dei record duplicati è un classico problema che si presenta quando si crea un database utilizzando origine dati differenti. Per rimuovere record duplicati da una tabella, Excel mette a disposizione dell’utente una procedura automatica; tale procedura non risolve però tutti i possibili problemi legati alla duplicazione di dati e, pertanto, necessita di alcuni accorgimenti.

Supponiamo di avere importato in un unico database di Excel dei dati relativi ai Clienti di una impresa che popolavano database differenti e di voler verificare se sussistono record duplicati nel nuovo database. Per fare questa operazione possiamo utilizzare, dopo aver selezionato una cella qualsiasi appartenente alla tabella, il pulsante RIMUOVI DUPLICATI presente sulla barra multifunzione DATI.

A video appare la finestra RIMUOVI DUPLICATI nella quale è possibile scegliere quali campi della tabella confrontare per verificare l’esistenza di dati (record) duplicati. Solitamente la comparazione per l’eliminazione dei record si fa su tutti i campi (difatti, per impostazione, predefinita, tutti i campi della tabella sono inizialmente selezionati!). Confermando con un clic sul pulsante OK della finestra, appare a video una ulteriore finestra che indica se e quanti record sono stati eliminati dalla tabella.

Importante sottolineare che la procedura appena analizzata permette di rimuovere i record contenenti dati identici ad eccezione dei caratteri maiuscolo/minuscolo che vengono, invece, ignorati; pertanto, i record contenenti anche piccole differenze non vengono eliminati.

Ad esempio, vengono considerati diversi (e quindi non eliminati) i dati trascritti con degli spazi tra le parole oppure, come è il caso tipico di un database relativo alle imprese, le sigle societarie trascritte in maniera differente (ad esempio SPA oppure S.p.A.).

Per superare questo inconveniente può essere utile ordinare alfabeticamente i dati della tabella prendendo come riferimento una colonna contenente del testo (ad esempio, nel nostro caso, la colonna Cliente) in maniera da individuare, visivamente, eventuali record che si riferiscono allo stesso oggetto del database.

Per ordinare i dati del database, pertanto, sarà sufficiente selezionare una cella qualsiasi della colonna interessata ed utilizzare il comando ORDINA DALLA A ALLA Z posto sempre sulla barra multifunzione DATI