Co to jest Data Fabric?

1

Zetknął się ktoś z tym terminem? Uber archtiect ostatnio rzuca tym terminem na prawo i lewo, powerpointy śmigają po mailach, a wszystko co do tej pory znalazłem w necie to jakieś marketingowe bzdety o tym, jak to ta wspaniała architektura pozwala zaoszczędzić 21.6% kosztów zarządzania informacją w przedsiębiorstwie...
Z tego co udało mi się zrozumieć pryncypała, to wyobraża sobie to jako swojego rodzaju "centralną bazę danych", do której wszystkie systemy mają ładować dane i będzie można z tych danych korzystać. Taki rozproszony monolit, tylko na wielką skalę.
Dobrze to rozumiem i uważam za głupotę, czy coś przeoczyłem?

7

Data Fabric to jest idea ujednolicenia dostępu do danych i zarzadzania w przedsiębiorstwie.

Zdecydowanie to nie jest jedna uber baza, tylko raczej zestaw różnych źródeł danych zintegrowanych ze sobą. Wysokopoziomo może to wyglądać jak jedna dupna baza ale nią nie jest. Jest to raczej cała platforma integrujaca dane na różnych poziomach i dostarczająca te dane do aplikacji które ich potrzebują. Dzięki temu że taka platforma dostarcza gotowe dane to aplikacje konsumujące te dane nie muszą już z tymi danymi za wiele robić bo wszystkie potrzebne informacje znajdują się w jednym miejscu. Odpada cały temat integracji, gdzie każda aplikacja gada z każdą żeby wyciągnąć jakies dane których akurat potrzebuje. Do tego dochodzą aspekty bezpieczeństwa, audyt, centralny monitoring, itd

Generalnie koncept nie jest nowy, tylko dostał nowa łatkę.

1

@markone_dev: to co opisałeś to datalake. Chyba, że uznamy, że data fabric to jeszcze jedna warstwa abstrakcji nad datalake'm bez którego nie miałoby to sensu.

4

@wartek01: No nie do końca. Data Lake to zwykle zbiór surowych nieprzetworzonych danych. W klasycznym wydaniu Data Lake jest źródłem danych dla hurtowni. W DL nie robisz ETLi czy integracji danych. Po prostu wrzucasz tam dane z wielu źródeł w różnych formatach (sql, parquet, csv, xml) które są podstawą do dalszych transformacji.

Jest jeszcze coś takiego jak Delta Lake gdzie masz warstwę abstrakcji nad Data lakem pozwalająca na uporządkowany i transakcyjny dostęp do danych be, potrzeby robienia złożonych ETLi. Ta warstwą abstrakcji umożliwią pracę z Data Lakem w podobny sposób jak gdyby to były uporządkowane i skatalogowane dane jak w hurtowniach.

0

Czyli nieudolnie parafrazując, jak mam n źródeł danych, postawie sobie coś, co potrafi się do tych źródeł dobrać, taki api gateway dla danych, zarządzający dostępem, governance, czasami robiący cache tych danych (ETL), to z grubsza mam data fabric?

Cakłkiem ciekawy (na ile gadanie o danych może być ciekawe) materiał tłumaczący ten i kilka innych konceptów:

1

@piotrpo: zobacz sobie na to to wszystko ci się wyjasni 🙂 https://m.youtube.com/watch?v=0Zzn4eVbqfk

0

@markone_dev: Już widziałem i nie wyjaśniło :) Pomijając narzędzia jakie mogą być użyte, wyobrażam sobie tę koncepcję w ten sposób, że mam centralizowany punkt dostępu do rozproszonych zbiorów danych przedsiębiorstwa. Część danych to widoki zdalne, część to przetworzone i trzymane przez ten punkt informacje.

5

Dokładnie tak. W przeciwieństwie do hurtowni czy lake'ow nie kopiujesz danych (chyba że musisz) nie tworzysz centralnej bazy danych tak jak to sugeruje wasz uber principal senior enterprise IT architect.

Po prostu masz warstwę abstrakcji (platformę) ktora zapewnia ci bezpieczny (zgodny z regulacjami) i wygodny dostep do danych w przedsiębiorstwie. W ramach tej platformy możesz robić ETLe jak i integrację danych pomiędzy systemami. Do tego masz katalog danych, wgląd w to jak wyglądają przepływu danych pomiędzy systemami i to wszystko w ramach jednej centralnej platformy zamiast kilkunastu różnych narzędzi tworzonych i utrzymywanych przez różne zespoły.

1

Szczerze, to chyba najlepsza definicja data fabric jaką widziałem. Jest kilka książek o tym i masz na tyle cierpliwości żeby dojść do 3 strony to zdajesz sobie sprawę, że autorzy sami sobie próbują wytłumaczyć co to jest.

1 użytkowników online, w tym zalogowanych: 0, gości: 1