Technologia w CRM 
http://www.crm.pl 

WHITE PAPER: Deduplikacja – krok ku niższym kosztom oraz zadowolonym klientom

Z pewnością każdemu z nas przydarzyło się, iż otrzymał pocztą kilka folderów lub ofert na ten sam produkt z jednej firmy, bądź w krótkim okresie czasu zadzwoniło do nas dwóch telemarketerów, proponując tę samą ofertę. Równie często atakowani jesteśmy przez dostawcę reklamami produktów, które już dawno od niego zakupiliśmy.
Najczęstszą przyczyną takich sytuacji jest istnienie duplikatów (a więc powtarzających się zapisów na temat tego samego kontrahenta) w bazie danych.


Pół biedy, kiedy duplikaty posiadają wprowadzaną dokładnie taką samą nazwę lub kiedy posiadają jednoznaczny identyfikator, jak numer NIP lub Regon. Wtedy tak naprawdę to, iż otrzymujemy po kilka tych samych przesyłek lub odbieramy telefony w tej samej sprawie, możemy zrzucić na karb niegospodarności dostawcy lub lenistwa specjalistów do spraw marketingu. Posiadając bowiem jednoznaczne identyfikatory, jak unikalną nazwę, NIP lub Regon, bardzo łatwo jest wyłapać powtarzające się zapisy nawet za pomocą znajdującego się w pakiecie Microsoft Office programu Access (należy użyć utworzyć kwerendę znajdującą duplikaty) lub za pomocą nieskomplikowanego zapytania SQL, które jest w stanie napisać każdy administrator systemu informatycznego.

Co jednak, kiedy nasza baza takich danych nie zawiera, a wprowadzone do niej zapisy całkowicie różnią się pisownią. Spójrzmy na poniższy przykład.

Mimo iż zaprezentowany fragment bazy danych zawiera zaledwie kilka zapisów, ręczne odnalezienie duplikatów sprawia niemałą trudność. Nic nam tu nie pomoże również sortowanie po nazwach. Możemy ewentualnie posortować bazę wg adresów (np. miasto + ulica), ale to też niewiele pomoże (spójrz na zapis nazw ulic).
A gdyby tak baza miała zamiast kilku rekordów np. 100 000 zapisów? Problem praktycznie nie do rozwiązania. Chyba że… skorzystamy ze specjalnie przygotowanego oprogramowania.

Systemy takie przeszukują bazy danych w poszukiwaniu duplikatów z prędkością wielu tysięcy rekordów na godzinę i robią to praktycznie bezbłędnie.
Na świecie istnieje wiele systemów potrafiących profesjonalnie rozwiązywać przedstawiony powyżej problem. Niestety ich ceny zaczynają się w okolicach 10 000 EUR, a nierzadko można spotkać system za 100 000 EUR. Poza tym bardzo często nie radzą sobie one z polską specyfiką językową oraz nie posiadają słowników, które potrafiłyby zweryfikować poprawność nazw miejscowości, kodów pocztowych czy innych danych adresowych.

Od kilku miesięcy dostępny jest jeden z pierwszych polskich systemów służących do deduplikacji danych, sprzedawany przez Clix Software, pod nazwą WIPER.

Wiper jest programem przeznaczonym do inteligentnej deduplikacji danych (usuwania powtarzających się zapisów). Potrafi zaimportować lub podłączyć się do dowolnej bazy danych, a następnie wyszukać w nich powtarzające się zapisy bez względu na strukturę danych oraz sposób zapisu nazw.

System oparty jest o sztuczną inteligencję i nie wymaga, by zapisy w bazach danych posiadały jednoznaczne identyfikatory kontrahentów, jak NIP czy REGON.
Wiper doskonale sprawdza się w trakcie wdrożeń systemów do wspomagania zarządzania lub podczas migracji danych pomiędzy systemami oraz do wspomagania działań marketingu bezpośredniego.

Zastosowanie sztucznej sieci neuronowej oraz semantycznej bazy danych powoduje, że Wiper potrafi zidentyfikować duplikat bez względu na to, w jaki sposób została zapisana nazwa kontrahenta i jego adres.
I tak, Wiper posiada
niezależność od kompletności danych:
  • AKKA / Przedsiębiorstwo AKKA sp. z o.o.
    niezależność od stosowanego sposobu pisowni (duże/małe litery; znaki typu „”)
  • AKKA / „AKKA” / Akka / „akka”
    niezależność od kolejności wyrazów w nazwie
  • KKA Firma Handlowa / Firma Handlowa AKKA
    niezależność od stosowanych skrótów
  • FH / Firma Handlowa / Firma Handl.
    niezależność od błędów w nazwach miast / ulic / województw / powiatów / poczt itp.
  • Sękocin / Sekoicn
  • Świdnia / Świdnica k. Wrocławia
  • ul. Warszawska 10c / Warszawska 10 C
Dodatkowo, Wiper potrafi:

  • w przypadku stwierdzenia błędnego wpisu nazwy miasta, województwa, poczty lub powiatu zaproponować poprawną pisownię
  • sprawdzić poprawność adresów (np. sprawdzić zgodność kodów pocztowych z nazwami miast lub całych adresów)
System umożliwia zaimportowanie (np. w formie arkusza Excela) lub podłączenie się pod zewnętrzną bazę danych (np. SQL) i wyszukanie duplikujących się zapisów. Efektem pracy systemu może być lista duplikatów w bazie oraz lista rekordów nie posiadających duplikatów. Wynik analizy może zostać wyeksportowany do arkusza Excel, pliku tekstowego itp.

Wiper jest również niezależny od struktury danych - Dla programu nie ma znaczenia struktura bazy danych (nazwy, liczba, kolejność i typy pól). Dzięki mechanizmowi mapowania pól, użytkownik wskazuje, w którym polu znajdują się takie elementy jak nazwa firmy, adres (ulica z nr), kod pocztowy, miasto itp. Na podstawie mapy pól system „wie” w jaki sposób porównywać dane i gdzie wyszukiwać duplikaty.

Oto kilka przykładów typowych problemów wynikających z pojawiających się duplikatów oraz ich rozwiązań:

  • Problem 1 - zakupiliśmy nową bazę potencjalnych klientów, chcemy ją zaimportować do naszego systemu CRM, ale nie chcemy ponownie atakować klientów, z którymi mieliśmy już kontakt
    Rozwiązanie - Wiper porówna nową bazę danych z bazą systemu CRM i usunie z nowej bazy wszystkie duplikaty

  • Problem 2 - podejrzewamy, iż w naszym CRMie/ERP znajdują się duplikaty
    Rozwiązanie - Wiper bez problemu przeanalizuje bazę danych i odnajdzie duplikaty

  • Problem 3 - przygotowujemy 2 fazę akcji mailingowej - nie chcemy, aby mailing trafił do firm, które już otrzymały naszą ofertę
    Rozwiązanie - Wiper porówna bazę firm, do których już wysłaliśmy ofertę z nową listą danych i wskaże firmy, do których można wysłać mailing

  • Problem 4 – w naszym systemie sprzedaży istnieje wiele firm o tej samej (lub podobnej nazwie), wystawione faktury trafiają na różne konta, mimo że należą do tego samego kontrahenta. Powoduje to problemy z prowadzeniem rozrachunków oraz analiz sprzedaży
    Rozwiązanie - Wiper bez problemu przeanalizuje bazę danych i odnajdzie duplikaty

Dzięki Wiperowi użytkownicy mogą osiągać następujące korzyści:

Redukcja czasu i odciążenie zasobów ludzkich
Redukuje koszt i czas wdrożenia systemów CRM, ERP, hurtowni danych lub BI, maksymalizując ROI wdrożenia takich systemów. System umożliwia ponad 90 % redukcję czasu potrzebnego na dokonanie czynności czyszczenia danych.

Lepszy wizerunek w oczach klientów
Wszyscy doskonale wiemy, jak się czujemy kiedy nasze skrzynki pocztowe zawierają kilkanaście tych samych ofert, zaproszeń bądź reklamówek przesłanych od tego samego dostawcy. Zredukowanie liczby duplikatów z pewnością przyczyni się do stworzenia wizerunku firmy szanującej swoich klientów.

Zmniejszenie kosztów marketingu bezpośredniego
Usunięcie zdublowanych zapisów pozwala na zmniejszenie kosztów mailingów oraz działań marketingowych poprzez eliminację „wielokrotnych trafień (wysyłek, telefonów)” do tych samych klientów.

Lepszy obieg informacji w firmie
Praca z dublującymi się kontrahentami w systemach informatycznych jest znacznie bardziej utrudniona niż w przypadku dobrze zarządzanej bazy danych. Dzięki takiej bazie z jednej strony odnalezienie informacji jest znacznie szybsze a z drugiej strony powoduje uniknięcie wielu pomyłek i nieporozumień.


Clix Software sp. z o.o.
ul. Bukowińska 22B, 02-703 Warszawa
Tel. +48 (22) 380 16 40
Fax +48 (22) 380 16 41

email: maciej.stanusch@clix-software.com
www.okaycrm.com, www.clix-sofware.com
Autor:Maciej Stanusch
O autorze:Autor jest Prezesem Zarządu firmy Clix Software, producenta systemu do deduplikacji danych Wiper.