Integracja danych, jakie narzędzie

0

Mam następujący problem planuję przebadać jakość zintegrowanych danych w modelu, gdzie dane integrowane są bezpośrednio po wysłaniu zapytania przez użytkownika oraz w modelu, gdzie dane są integrowane wcześniej i przechowywane w pośrednich bazach danych, a zapytanie użytkownika idzie do tych pośrednich baz danych. Czy mógłby mi ktoś polecić jakieś konkretne narzędzie, w którym można dokonać takich badań (żeby był juz zaimplementowany algorytm), albo podpowiedzieć co wykorzystać żeby to zrobić? Dziękuję za odpowiedź.

0

Temat nazywa się 'data reconciliation' i możesz szukać pod hasłem 'data reconciliation tools'.

Żadne narzędzie nie powie Ci, że dane są poprawne w dwóch systemach/modelach. Twoim zadaniem jest zdefiniowanie odpowiednich reguł, które zostaną zaimplementowane w jakimś narzędziu. Nie ma żadnych magicznych algorytmów, bo co niby ma oznaczać "jakość danych"? :-)

Narzędzi powinno umożliwiać Ci pobranie jednego zbioru danych, pobranie drugiego zbioru danych i odpalenie iluś tam zdefiniowanych reguł/raportów.

Nie wiem jak inni, ale przy analizie danych pracuję na 2 poziomach:

  • agregaty (np. liczba klientów, usług w określonych segmentach )
  • detal (np. Klient w systemie A ma ten sam zestaw produktów co w systemie B, historia zmian statusu jest zgodna z cyklem życia dla danego typu obiektów - nie może być np. dwa razy aktywacji)

Często używam kombinacji: postgres, excel+vba, python. Do postgresa wciągam dane, piszę sobie jakiś zestaw skryptów, które mi porównują dane na różne sposoby i produkuję podsumowania np. w formie exceli.

Możesz też próbować takich rozwiązań jak np. :

  • Pentaho Data Integration,
  • Talend (Data Quality) etc.

Jednak trzeba poświęcić trochę czasu na zapoznanie się z narzędziami i walkę z błędami w tych narzędziach, żeby je efektywnie używać. Dodatkowo trzeba mieć gdzie je uruchamiać (ściąganie dużej ilości danych na laptopa z baz produkcyjnych jest raczej słabym pomysłem i może uruchamiać niepotrzebne postępowania wyjaśniające).

1 użytkowników online, w tym zalogowanych: 0, gości: 1, botów: 0