Matcher - AI duplicate removal: 7d Implementation

DataSkills

Matcher automatizza la pulizia dei dati trovando le righe duplicate (anche leggermente diverse) con algoritmi di machine learning. Si serve di Azure Container per lo sviluppo e Power BI per l'output.

This app is only available in Italian.

Matcher è uno strumento in grado di automatizzare il processo di pulizia dei dati, andando ad individuare le righe duplicate tramite algoritmi di machine learning. Si tratta di una soluzione rapida ed efficace per andare a migliorare la qualità del dato, identificando ad esempio all’interno delle anagrafiche i record appartenenti alla stessa entità. A differenza dei sistemi tradizionali di deduplica, Matcher si serve di un algoritmo di machine learning in grado di identificare non solo i record identici, ma anche record molto simili associabili alla stessa entità. Il servizio fa affidamento su Microsoft Azure Container per una gestione efficiente e sicura nonché per la distribuzione dell'output dell'algoritmo di intelligenza artificiale, mentre l'output vero e proprio viene reso disponibile in un sample di Microsoft Power BI.

UTILIZZO Questo strumento è utile per due tipologie principali di operazioni:

  • Eliminazione di duplicati
  • Cross-matching tra tabelle che non hanno nessuna chiave identificativa in comune

BENEFICI E PECULIARITA’

  • Il tool è applicabile a qualsiasi tipologia di file o base dati
  • I tempi di adozione sono ridotti, grazie ad un training del modello rapido e preciso
  • L’architettura può essere scalata per lavorare con grandi moli di dati

INPUT Per testare l’efficienza del prodotto occorre solamente fornire un file di qualche centinaio di righe, tra cui alcune ripetizioni.

DELIVERABLE Il modello identifica gruppi di istanze praticamente identiche, all’interno della base dati. Indicando quale tra le istanze è quella corretta, la base dati viene automaticamente deduplicata mantenendo la versione corretta di ciascuna istanza.

STEP DI IMPLEMENTAZIONE:

  • Fornitura da parte del cliente del dataset.
  • Applicazione del modello di machine learning al dataset
  • Sviluppo della soluzione all'interno di Azure Container
  • Creazione del report Power BI per l'output
https://store-images.s-microsoft.com/image/apps.46750.9c36ce19-09b8-4b4b-ba56-71150f702d78.d2305ea1-24b5-4878-8582-d47449c9ba57.de2d978a-c41f-4d62-8f28-8918be1d1bde
https://store-images.s-microsoft.com/image/apps.46750.9c36ce19-09b8-4b4b-ba56-71150f702d78.d2305ea1-24b5-4878-8582-d47449c9ba57.de2d978a-c41f-4d62-8f28-8918be1d1bde