Preporučeni, 2024

Izbor urednika

Koliko velikih podataka mijenja krajolik baze podataka za dobro

Seminari za IT specijaliste: "Usporedba relacijskih (SQL) i nerelacijskih (NoSQL) baza podataka"

Seminari za IT specijaliste: "Usporedba relacijskih (SQL) i nerelacijskih (NoSQL) baza podataka"
Anonim

Navedite riječ "baza podataka", a većina ljudi misli na časne RDBMS-ove koji su dominirali krajolikom više od 30 godina. To se, međutim, uskoro može promijeniti.

Cijeli niz novih kandidata sada se natječe za komad ovog ključnog tržišta poduzeća, a iako su njihovi različiti pristupi, većina dijeli jednu zajedničku stvar: oštar naglasak na velike

Velik dio onoga što vozi ovu novu proliferaciju alternativa je ono što se obično naziva "tri V-a" koji podliježu velikim podacima: volumen, brzina i raznolikost.

U suštini, podaci nam danas dolaze brže i veće volumena nego ikada prije; to je također raznolik. Drugim riječima, to je novi svijet podataka, a tradicionalni sustavi za upravljanje relacijskim bazama podataka nisu zaista dizajnirani. "U osnovi, oni se ne mogu skalirati na velike, brze ili različite podatke", rekao je Gregory Piatetsky-Shapiro, predsjednik KDnuggetsa, analitička i podatkovna znanstvena savjetovanja.

To je ono što je nedavno našao Harte Hanks. Do 2013. godine agencija za marketinške usluge koristila je kombinaciju različitih baza podataka, uključujući Microsoft SQL Server i Oracle Real Application Clusters (RAC).

"S vremenom smo to primijetili rastom podataka, t proces informacije dovoljno brzo ", rekao je Sean Iannuzzi, tvrtka je voditeljica tehnologije i razvoja. "Ako nastavite s kupnjom servera, možete nastaviti samo tako da smo htjeli osigurati da imamo platformu koja bi mogla biti skalirana prema van".

Minimiziranje prekida bila je ključni cilj, rekao je Iannuzzi, tako da "nismo mogli prebacite se na Hadoop. "

Umjesto toga, odabrao je Splice Machine, koji u osnovi stavlja cjelovitu SQL bazu na vrh popularne Hadoop velike podatkovne platforme i omogućuje postojećim aplikacijama povezivanje s njom, rekao je Harte Hanks. sada u ranoj fazi implementacije, ali već vidi prednosti, rekao je Iannuzzi, uključujući poboljšanu otpornost na smetnje, visoku raspoloživost, redundantnost, stabilnost i "ukupni uspjeh u performansama".

Postoji neka vrsta savršene oluje koja potiče pojavu nove baze podataka , rekao je Carl Olofson, potpredsjednik za istraživanje u tvrtki IDC.

Prvo, "oprema koju koristimo mnogo je sposobni upravljati velikim zbirkama podataka brzo i fleksibilno nego u prošlosti", primijetio je Olofson. stare dane, takve zbirke "prilično mnogo mora biti stavljen na , a podaci su morali biti strukturirani na poseban način, objasnio je.

Sada postoji 64-bitna adresabilnost, što omogućuje postavljanje većih memorijskih prostora, kao i mnogo brže mreže i mogućnost višestrukog povezivanja računala zajedno da djeluju kao pojedinačne, velike baze podataka.

"Te stvari otvorile su mogućnosti koje prije nisu bile dostupne", rekao je Olofson.

U međuvremenu, opterećenja se također promijenila. Dok su prije 10 godina web stranice bile uglavnom statike, na primjer, danas imamo okruženja za web-uslugu uživo i interaktivna iskustva u kupnji. To zauzvrat zahtijeva nove razine skalabilnosti, rekao je.

Tvrtke koriste i podatke na nove načine. Dok je tradicionalno najveći dio našeg usredotočenja bio na obradu transakcija - zabilježiti koliko smo prodali, na primjer, i pohranjivati ​​te podatke na mjestu gdje se može analizirati - danas radimo više.

Upravljanje državnim aplikacijama jedan je od primjera .

Recimo da igrate on-line igra. Tehnologija mora zabilježiti svaku sesiju koju imate sa sustavom i povezati ih zajedno kako biste predstavili neprekidan doživljaj, čak i ako prebacite uređaje ili razne poteze koje obrađujete različiti poslužitelji, objasnio je Olofson.

Ti podaci moraju biti uporni tako da tvrtke mogu analizirati pitanja poput "zašto nitko nikad ne prelazi kristalnu sobu", na primjer. U kontekstu online kupovine, protuslov može biti razlog zašto više ljudi ne kupuje određenu robnu marku nakon što kliknu na odabir boja.

"Prije toga nismo pokušavali riješiti te probleme, ili - ako jesmo - pokušavali smo ih stisnuti u kutiju koja se nije dobro uklopila", rekao je Olofson.

Hadoop je težak među današnjim novih natjecatelja. Iako to nije baza podataka sama po sebi, ona je narasla za ispunjavanje ključne uloge za tvrtke koje se bave velikim podacima. U osnovi, Hadoop je podatkovno centrirana platforma za pokretanje visoko paraleliziranih aplikacija i vrlo je skalabilna.

Dopuštajući tvrtkama povećanje "out" na distribuiranom modelu, a ne skaliranje "gore" preko dodatnih skupih poslužitelja "to omogućuje vrlo jeftino sastaviti veliku zbirku podataka, a zatim vidjeti što ste dobili ", rekao je Olofson.

Među ostalim novim RDBMS alternativama su NoSQL obitelji ponude, uključujući MongoDB - trenutno četvrti najpopularniji sustav za upravljanje bazom podataka, prema riječima DB-Engines - i MarkLogic. "Relacijska je sjajna tehnologija već 30 godina, ali izgrađena je u različitim razdobljima s različitim tehnološkim ograničenjima i različitim tržišnim potrebama", izjavio je Joe Pasqua, izvršni potpredsjednik MarkLogica za proizvode.

Veliki podaci nisu homogeni, rekao je, ali u mnogim tradicionalnim tehnologijama, to je još uvijek temeljni zahtjev. "" Zamislite da je jedini program koji ste imali na prijenosnom računalu Excel ", rekla je Pasqua. "Zamislite da želite pratiti mrežu prijatelja ili pišete ugovor koji se ne uklapaju u retke i stupce."

Kombiniranje skupova podataka može biti osobito lukav.

"Relacijski kaže da prije no što dovedete sve te skupove podataka, morate odlučiti kako ćete podijeliti sve stupce ", dodao je. "Možemo uzeti bilo koji format ili strukturu i početi ga koristiti odmah."

NoSQL baze podataka ne koriste relacijski model podataka, a obično nemaju SQL sučelje. Dok mnogi NoSQL pohranjuju kompromisnu dosljednost u korist brzine i drugih čimbenika, MarkLogic naglašava svoju ponudu kao dosljedniju opciju prilagođenu poduzećima.

Postoji značajan rast u trgovini za NoSQL tržište, tvrdi Media Research Media, no ne svi misle da je to pravi pristup - barem, ne u svim slučajevima.

NoSQL sustavi "riješili su mnoge probleme s njihovom arhitekturom, ali bacili su SQL", rekao je Monte Zweben, direktor tvrtke Splice Machine. To, opet, predstavlja problem postojećem kodu.

Stroj za spajanje je primjer druge klase alternativa poznatih kao NewSQL - druga kategorija koja očekuje snažan rast u godinama koje slijede.

"Naša je filozofija zadržati SQL, ali dodati arhitekturu s mjerilom ", rekao je Zweben. "Vrijeme je za nešto novo, ali pokušavamo to učiniti tako da ljudi ne moraju prepisati svoje stvari."

Deep Information Sciences također je odlučila da se pridržava SQL-a, ali treba još jedan pristup.

DeepSQL baza podataka tvrtke koristi isti sučelje za programiranje aplikacija (API) i relacijski model kao MySQL, što znači da nije potrebna nikakva izmjena aplikacije kako bi se ona koristila.

DeepSQL se može automatski prilagoditi fizičkim, virtualnim ili oblakskim hostovima koristeći bilo koju kombinaciju opterećenja, tvrdi tvrtka, čime se eliminira potreba za ručnim optimizacijom baze podataka. rezultati su uvelike povećao performanse, kao i sposobnost razmjera "u stotine milijardi redaka", rekao je Chad Jones, glavni časnik strategije tvrtke.

Kompletno drugačiji pristup dolazi od Algebraix podataka, koji kaže da je razvio prvi uistinu matematički temelj za podatke.

Dok je računalni hardver matematički modeliran prije nego što je izgrađen, to nije slučaj s softverom, rekao je CEO Charles Algebraix.

"Softver, a posebno podaci, nikad nije izgrađen na matematičkom temelj ", rekao je. "Software je uvelike bio stvar lingvistike."

Nakon pet godina istraživanja i razvoja, Algebraix je stvorio ono što zove "algebra podataka" koji dodiruje matematičku setnu teoriju za "univerzalni jezik podataka", rekao je Silver.

"Prljava mala tajna velikih podataka je ta da podaci još uvijek sjedaju u malim silosima koji se ne slažu s drugim podacima", objasnio je Silver. "Pokazali smo da se svi mogu prikazati matematički, pa se sve integrira."

Opremljeno platformom izgrađenom na tom temelju, Algebraix sada nudi tvrtkama poslovnu analizu kao uslugu. Poboljšana učinkovitost, kapacitet i brzina su sve među pogodnostima koje Algebraix obećava.

Vrijeme će reći koje nove kandidate uspjeti i koje ne, ali u međuvremenu, dugogodišnji lideri kao što je Oracle nisu baš stati.

" Softver je vrlo modna industrija ", rekao je Andrew Mendelsohn, izvršni potpredsjednik za Oracle Database Server Technologies. "Stvari često idu od popularnih do nepopularnih i natrag na popularnost opet."

Mnogi današnji startups su "vraćanje istih starih stvari s malo poliranje ili spin na njega", rekao je. "To je nova generacija djece koja izlaze iz škole i ponovno stvaraju stvari."

SQL je "jedini jezik koji poslovnim analitičarima postavlja pitanja i dobiva odgovore - oni ne moraju biti programeri", rekao je Mendelsohn. "Veliko tržište će uvijek biti relacijski."

Što se tiče novih vrsta podataka, proizvodi relacijske baze podataka evoluirali su kako bi podržali nestrukturirane podatke još 1990-ih, rekao je on. U 2013. godini, Oracleova imenovana baza podataka dodala je podršku za JSON (JavaScript Object Notation) u verziji 12c.

Umjesto potrebe za nekom drugom vrstom baze podataka, to je više pomak u poslovnom modelu koji uzrokuje promjene u industriji, rekao je Mendelsohn.

"Oblak je mjesto gdje svi idu, i to će poremetiti te ljude", rekao je. "Veliki dečki su već na oblaku, pa gdje ima mjesta za te male momke?" "Hoće li oni ići na Amazonov oblak i natjecati se s Amazonom?", Dodao je. "To će biti teško."

Oracle ima "najširi spektar oblaka usluga", rekao je Mendelsohn, "Osjećamo li se dobro o tome gdje se danas nalazimo."

Rick Greenwald, direktor istraživanja s Gartnerom, sklon je uzeti slično

"Novije alternative nisu tako funkcionalne i robusne kao i tradicionalni RDBMS-ovi", rekao je Greenwald. "Neki koriste slučajeve mogu se riješiti novim kandidatima, ali ne i sve, a ne s jednom tehnologijom."

Gledajući unaprijed, Greenwald očekuje da će tradicionalni RDBMS prodavači osjetiti povećani pritisak na cijene i dodati novu funkcionalnost njihovim proizvodima. "Neki će slobodno donijeti nove konkurente u svoj cjelokupni ekosustav upravljanja podacima", rekao je.

Što se tiče novih dečki , nekoliko će preživjeti, predvidio je, ali "mnogi će biti stečeni ili ostati bez sredstava".

nove tehnologije ne predstavljaju kraj tradicionalnih RDBMS-ova, "koje se brzo razvijaju", složili su se Olofson IDC-a. "RDBMS je potreban za dobro definirane podatke - to će uvijek biti uloga". Međutim, bit će i uloga nekih novijih kandidata, rekao je, osobito kao Internet stvari i nove tehnologije kao što su "Nestabilni Dual In-Line Memory Module" (NVDIMM).

Bit će brojnih problema koji zahtijevaju brojna rješenja, dodao je Olofson. "Postoji mnogo zanimljivih stvari za kretanje."

Top