Big Data & Flume – zbieranie danych

Ostatnimi czasy modne stało się hasło Big Data. Powstało wiele narzędzi i rozwiązań wspierających analizy danych w sposób który do tej pory był praktycznie niedostępny dla większości organizacji. Wraz ze wspomnianymi narzędziami pojawiły się możliwości analizy online (w momencie gdy dane się pojawią). Dodatkowo w dość łatwy sposób można wykorzystać źródła danych których struktura znacząco odbiega od tak zwanych płaskich tabel.

Dość popularnym frameworkiem (kombajnem) do obsługi Big Data stał się Hadoop tworzony przez Apache foundation. Nie jest to typowa baza danych a raczej zestaw narzędzi napisany w javie, którego celem jest zarządzanie danymi znajdującymi się na wielu różnych maszynach(tworzenie farm) dzięki czemu jesteśmy wstanie obrabiać naprawdę duże zbiory danych.

Jedną z aplikacji która współpracuje z Hadoop’em  jest Flume. Generalnie można powiedzieć że to aplikacja stworzona do przekazywania różnych zdarzeń. Cała koncepcja programu skupia się na 3 głównych bytach:

Sources – Są to źródła, końcówki, które zbierają/nasłuchują na zdarzenia. Np. powstanie wpisu w logu. Już dziś w standardowym pakiecie FLume mamy do dyspozycji kilka zaimplementowanych źródeł. Jeśli nie spełniają one naszych oczekiwań, przy znajomości języka Java możemy tworzyć w dość przystępny sposób obsługę innych źródeł. W sieci pojawiają się także projekty w których powstają biblioteki do obsługi różnych źródeł (np. Twitter).

Channels – Kanały, pozwalają zarządzać transferem informacji do źródeł di sinków (destynacji). Źródła dodają informacje do kanału a ‘sinks’ je z niego usuwają. Tak więc kanał staje się buforem na dane. Mamy do wyboru kilka różnych kanałów oraz wiele opcji konfiguracyjnych.

Sinks – Destynacje, gdy zbierzemy już dane ze źródła (z kanału) należy je gdzieś zapisać. Podobnie jak w przypadku źródeł, mamy do dyspozycji wiele gotowych implementacji. Pierwotnym ‘Sinkiem’ był hdfs, czyli system plików używanych przez Hadoop.

Postaram się tutaj przedstawić podstawy konfiguracji Flume, oraz możliwości analizy danych zbieranych przez to narzędzie.

Czytaj dalej  Cloudera i HortonWorks , czyli kolejna część tego kursu.

Leave a Reply

Your email address will not be published. Required fields are marked *

three × two =