Cloudera i HortonWorks

Mając już mgliste pojęcie o tym czym jest Flume można by się zastanowić do czego go użyć. Dość powszechnym przykładem w sieci jest wykorzystanie API strumieniowego Twittera do zapisu logów w HDFS wraz z późniejszym wykorzystaniem HIVE by odpytywać zebrane informacje za pomocą SQL (Teraz wiadomo dlaczego się tym zająłem;) ). Nie mniej by zebrać to wszystko do przysłowiowej kupy i uruchomić trzeba się trochę napocić. Najwięcej opisów/tutoriali pochodzi ze stron Cloudera, jest to firma/organizacja która rozwija rozwiązania oparte o Hadoop’a i żyje z wdrożeń i szkoleń (dodatkowo to oni napisali końcówkę do obsługi Twittera dla Flume). Jej bezpośrednim konkurentem jest Hortonworks, który w mojej ocenie posiada bardziej otwartą politykę (więcej materiałów jest dostępnych za darmo). Obydwie organizacje oferują gotowe obrazy do virtualbox z w pełni skonfigurowanymi środowiskami (Hadoop, Hive itp.). Obydwa środowiska oczywiście nie zawierają Flume ;). Ja osobiście bardziej przekonałem się do środowiska dostarczanego przez Hortonworks i oto środowisko opieram poniższą instrukcję/tutorial.

 

Zanim zaczniesz chciałbym uprzedzić, iż będzie potrzebna znajomość środowiska linux.

Jeśli jest gotowy czytaj dalej: Konfiguracja Wirtualki – HortonWorks Sandbox

Leave a Reply

Your email address will not be published. Required fields are marked *

13 − 2 =