Kako Apache Kafka podmazuje kotače za velike podatke

2024

Митап "Apache Kafka в вопросах и ответах"

Analiza se često opisuje kao jedan od najvećih izazova povezanih s velikim podacima, ali čak i prije nego što se taj korak može dogoditi, podaci moraju biti progutani i stavljeni na raspolaganje korisnicima poduzeća. To je mjesto gdje dolazi Apache Kafka.

Izvorno razvijen u LinkedIn, Kafka je open-source sustav za upravljanje realnom vremenu tokova podataka s web stranica, aplikacija i senzora.

U suštini, ona djeluje kao neka vrsta poduzeća " središnji živčani sustav "koji prikuplja velike količine podataka o stvarima kao što su korisnička aktivnost, dnevnici, metrike aplikacija, burzovne oznake i instrumenti instrumentacije, i čini ga dostupnim kao tok u stvarnom vremenu za potrošnju od strane poduzeća.

[ Kafka se često uspoređuje s tehnologijama kao što su ActiveMQ ili RabbitMQ za lokalne implementacije, ili s Kinesisom za web usluge Amazon za klijente u oblaku ", rekao je Stephen O'Grady, suosnivač i glavni analitičar s RedMonkom. "Postaje sve vidljiviji jer je to kvalitetan projekt otvorenog izvornog koda, ali i zbog toga što je njegova sposobnost da obrađuju velike brzine informacija sve više potražnja za korištenjem servisiranja radnih opterećenja kao što su internet, među ostalima ", dodao je O'Grady.

Budući da je zamišljen u LinkedIn, Kafka je stekla podršku visokih profila tvrtki kao što su Netflix, Uber, Cisco i Goldman Sachs. U petak je dobio novi poticaj od IBM-a, koji je najavio dostupnost dviju novih Kafka-based usluga putem svoje Bluemix platforme.

Nova IBM-ova usluga Streaming Analytics ima za cilj analizirati milijune događaja u sekundi za vremenske odzivne podmilosekunde trenutačno odlučivanje. IBM Message Hub, sada u beta verziji, pruža skalabilne, distribuirane, visokokvalitetne, asinkrone poruke za aplikacije u oblaku, uz mogućnost korištenja API-ja REST ili Apache Kafka API-ja (sučelje aplikacijskog programiranja) za komunikaciju s drugim aplikacijama.

Kafka je bila otvoreno je u 2011. godini. Prošle godine, tri Kafkinih kreatora pokrenuli su tvrtku Confluent, početak posvećen pomaganju tvrtkama da ga koriste u proizvodnji na ljestvici.

"Tijekom naše faze eksplozivnog rasta na LinkedInu, nismo mogli pratiti rastućeg korisnika baze podataka i podataka koji bi nam mogli pomoći da poboljšamo korisničko iskustvo ", rekla je Neha Narkhede, jedna od Kafkinih kreatora i suosnivači Confluenta.

" Što vam Kafka omogućuje, to je da premjestite podatke diljem tvrtke i učinite to dostupan kao kontinuirano slobodno strujanje u roku od nekoliko sekundi ljudima koji ga trebaju iskoristiti ", objasnio je Narkhede. "I to čini na ljestvici."

Utjecaj na LinkedIn bio je "transformacijski", rekla je. Danas LinkedIn ostaje najveći razvoj Kafka u proizvodnji; premašuje 1,1 trilijuna poruka dnevno.

U međuvremenu, Confluent nudi napredni softver za upravljanje putem pretplate kako bi pomogao velikim tvrtkama da pokrenu Kafka za proizvodne sustave. Među njegovim klijentima je jedan od glavnih maloprodajnih trgovaca i "jedan od najvećih izdavatelja kreditnih kartica u Sjedinjenim Državama", rekao je Narkhede.

Potonji koristi tehnologiju za zaštitu od prijevara u stvarnom vremenu, rekla je. > Kafka je "nevjerojatno brz promet za poruke" koji je dobar u pomaganju bržeg integriranja puno različitih vrsta podataka, rekao je Jason Stamper, analitičar s 451 Research. "Zato se pojavljuje kao jedan od najpopularnijih izbora."

Osim ActiveMQ i RabbitMQ, drugi proizvod koji nudi sličnu funkcionalnost je Apache Flume, istaknuo je; U poslovnom prostoru, Confluentovi konkurenti uključuju IBM InfoSphere Streams, Ultra Messaging Streaming Edition tvrtke Informatica i SAS-ov Event Stream Processing Engine (ESP) zajedno s tvrtkom Apama Software AG, Tibco's StreamBase i SAP je Aleri, dodao je Stamper. Manji konkurenti uključuju DataTorrent, Splunk, Loggly, Logentries, X15 Software, Sumo Logic i Glassbeam.

U oblaku, AWS-ova Kinesis usluga za obradu tokova "ima dodatnu korist od integracije s likovima svojih Redshift skladišta podataka i S3 platforme za pohranu", rekao je.

Novootvoreni teradatski slušatelj je još jedan kandidat, a to je Kafka "

Općenito, postoji ozbiljan trend prema realnom vremenu," rekao je Hopkins.

Do 2013 ili tako, "veliki podaci bili su svi", rekao je Hopkins. o masivnim količinama podataka pohranjenih u Hadoop ", rekao je. "Sada, ako to niste učinili, već ste iza krivulje snage."

Danas podaci pametnih telefona i drugih izvora daju tvrtkama priliku da se u stvarnom vremenu bave potrošačima i pružaju kontekstualna iskustva. rekao je. To zauzvrat počiva na sposobnosti bržeg razumijevanja podataka.

"Internet Stvari je poput drugog vala mobitela", objasnio je Hopkins. "Svaki dobavljač pozicionira se za lavinski podatak."

Kao rezultat toga tehnologija se prilagođava.

"Do 2014. godine bilo je sve o Hadoopu, onda je to bila Spark", rekao je. "Sada, to su Hadoop, Spark i Kafka. To su tri jednaka vršnjaka u procesu gutanja podataka u ovoj modernoj analitičkoj arhitekturi."