Importanța sQL pentru Hadoop - dummies
Există motive imperioase că SQL sa dovedit a fi rezilient. Industria IT a avut 40 de ani de experiență în domeniul SQL, deoarece a fost dezvoltată pentru prima dată de IBM la începutul anilor 1970. Odată cu creșterea numărului de baze de date relaționale din anii 1980, SQL a devenit de atunci o calificare standard pentru majoritatea IT ...
Sqoop 2. 0 Previzualizare - manechine
Cu succesul din jurul Sqoop 1. x la absolvirea incubatorului Apache , Sqoop are impuls! Deci, așa cum s-ar putea să te aștepți, Sqoop 2. 0 este în lucru cu noi caracteristici interesante pe drum. Puteți vedea că Sqoop 1. 99. 3 este descărcabil, completat cu documentație. Probabil vă întrebați câte ediții 1. 99. x vor fi ...
Sqoop Conectori și drivere - manechine
Conectorii sqoop merg, în general, mână în mână cu un driver JDBC. Sqoop nu leagă driverele JDBC, deoarece acestea sunt în mod obișnuit deținute și licențiate de către distribuitorul RDBMS sau DW. Deci, există trei scenarii posibile pentru Sqoop, în funcție de tipul de sistem de management al datelor (RDBMS, DW sau NoSQL) pe care încercați să-l ...
Exporturile sqoop Utilizând actualizarea și actualizarea abordării inserării - dummies
Cu modul inserare, înregistrările exportate de Sqoop sunt anexate la sfârșitul tabelului țintă. Sqoop oferă, de asemenea, un mod de actualizare pe care îl puteți utiliza prin furnizarea argumentului -update-cheie pentru linia de comandă. Această acțiune determină Sqoop să genereze o instrucțiune SQL UPDATE pentru a rula pe RDBMS sau în depozitul de date. Să presupunem că ...
SQuirreL ca client de bază cu driverul JDBC - dummies
SQuirreL SQL este un instrument open source care acționează ca un client de tip Hive. Puteți descărca acest client universal SQL de pe site-ul SourceForge. Acesta oferă o interfață cu utilizatorul pentru a crea stupii și simplifică sarcinile de interogare a tabelelor mari și de analiză a datelor cu Apache Hive. Figura ilustrează modul în care arhitectura Hive va funcționa când ...
Analiza sentimentului social cu Hadoop - dummies
Analiza sentimentului social este ușor cea mai exagerată a utilizărilor Hadoop, nici o surpriză, având în vedere că lumea este conectată în mod constant și populația curentă expresivă. Acest caz de utilizare folosește conținut din forumuri, bloguri și alte resurse media sociale pentru a dezvolta un sentiment al ceea ce fac oamenii (de exemplu evenimentele de viață) ...
Apache Hadoop Ecosystem - dummies
Are mai mult decât MapReduce și HDFS (Hadoop Distributed File System) a proiectelor conexe (un ecosistem, într-adevăr) pentru calculul distribuit și prelucrarea la scară largă a datelor. Cele mai multe (dar nu toate) dintre aceste proiecte sunt găzduite de Fundația Software Apache. În tabel sunt enumerate unele dintre aceste proiecte. Proiecte asemănătoare cu Hadoop Denumirea proiectului Descriere ...
Opțiunile de comandă dado-dsadmin - dummies
Instrumentele dfsadmin sunt un set specific de instrumente concepute pentru a vă ajuta să eliminați informațiile despre sistemul Hadoop Distributed File (HDFS). Ca un bonus suplimentar, le puteți folosi pentru a efectua unele operațiuni de administrare și pe HDFS. Opțiune Ce anume - raport Raportează informațiile de bază ale sistemului de fișiere și statisticile. -safemode enter | ...
Luați HBase pentru un Test Run - dummies
Aici, aflați cum să descărcați și să implementați HBase în modul standalone . Este uimitor de simplu să instalați HBase și să începeți să utilizați tehnologia. Rețineți că HBase este de obicei implementat pe un grup de servere de mărfuri, deși, de asemenea, puteți implementa cu ușurință HBase într-o configurație independentă, pentru învățare sau demonstrație ...
Opțiunea de preprocesare a datelor hibride în Hadoop <[SET:descriptionro]îN plus față de necesitatea stocării unor volume mai mari de date frigorifice
ÎN plus față de necesitatea stocării unor volume mai mari de date frigorifice
Arhitectura Apache Hive - dummies
ÎN timp ce examinați elementele Apache Hive prezentate, puteți vedea în partea de jos că Hive se află pe partea de sus a sistemelor Hadoop Distributed File System (HDFS) și MapReduce. În cazul MapReduce, cifrele afișează componentele Hadoop 1 și Hadoop 2. Cu Hadoop 1, interogările de tip Hive sunt convertite în codul MapReduce ...
Zona de aterizare bazată pe Hadoop - dummy
Când încercați să înțelegeți cum poate arăta un mediu de analiză în viitor, vă împiedicăți din nou modelul zonei de aterizare Hadoop. De fapt, nu mai este nici o discuție orientată spre viitor, deoarece zona de aterizare a devenit modul în care companiile orientate spre viitor încearcă acum să salveze IT ...
Limitările de eșantionare în analizele statistice Hadoop - dummy
Sunt departe de a fi un copil nou pe bloc și este cu siguranță vestea veche că depinde de prelucrarea unor cantități mari de date pentru a obține o perspectivă nouă. Cu toate acestea, cantitatea de date procesate în mod tradițional de aceste sisteme se situează între 10 și 100 (sau sute de) gigaocteți - ...
HBase MasterServer - dummies
Pornind de la o discuție despre arhitectura HBase (Hadoop Database) descriind RegionServers în locul MasterServer . Termenul RegionServer pare să însemne că depinde de MasterServer (și este secundar) și că ar trebui să discutați mai întâi despre MasterServer. Așa cum merge și cântecul vechi, "nu este neapărat așa. "...
Cheile de a adopta cu succes Hadoop - dummies
ÎN orice proiect serios Hadoop, ar trebui să începeți prin teaming IT cu afacerea liderii de la VP-uri în jos pentru a ajuta la rezolvarea punctelor de durere ale afacerii dvs. - acele probleme (reale sau percepute) care apar în mintea tuturor. Întreprinderile doresc să vadă valoarea din investițiile IT, iar cu Hadoop s-ar putea să vină într-o varietate ...
Clientul CLI Clienți - dummy
Primul client Hive este interfața de linie de comandă Hive (CLI). Pentru a stăpâni punctele mai fine ale clientului Hive CLI, ar putea ajuta la revizuirea arhitecturii de tip Hive (oarecum ocupată). În cea de-a doua figură, arhitectura este raționalizată pentru a se concentra numai asupra componentelor necesare atunci când rulează CLI-ul. Acestea sunt componentele ...
Ecosistemul client HBase - dummies
HBase este scris în Java, un limbaj elegant pentru construirea unor tehnologii distribuite cum ar fi HBase - nu oricine dorește să profite de inovațiile HBase este un dezvoltator Java. De aceea există un ecosistem bogat de clienți HBase, al cărui unic scop este de a face ridicarea grele a Java pentru dvs. și ...
Importanța MapReduce în Hadoop - manechine
Pentru cea mai mare parte a istoriei lui Hadoop, MapReduce a fost singurul joc din oraș când vine vorba de prelucrarea datelor. Disponibilitatea MapReduce a fost motivul succesului lui Hadoop și, în același timp, un factor major în limitarea adoptării ulterioare. MapReduce permite programatorilor calificați să scrie aplicații distribuite fără să vă faceți griji ...
Atributele HBase - dummies
HBase (baza de date Hadoop) este o implementare Java a BigTable-ului Google. Google definește BigTable ca o "hartă tridimensională, distribuită, persistentă, multidimensională. "Este o definiție destul de concisă, dar veți fi, de asemenea, de acord că este puțin pe partea complexă. Pentru a distruge complexitatea lui BigTable un pic, în urma este o discuție a fiecărui atribut. Hbase este rar ...
Programarea < < originea și designul lui Hadoop - manechine
, Deci exact ce înseamnă acest lucru cu numele amuzant - Hadoop? În centrul său, Hadoop este un cadru pentru stocarea datelor pe grupuri mari de hardware de mărfuri - hardware de zi cu zi, accesibil și ușor accesibil - și care rulează aplicații împotriva acestor date. Un cluster este un grup de computere interconectate (cunoscut sub numele ...
Arhitectura porcului în Hadoop - manechine
"Simplu" adesea înseamnă "elegant" acel nou conac din Silicon Valley pe care l-ai planificat când banii încep să se rostogolească după ce ai implementat Hadoop. Același principiu se aplică arhitecturii software. Porcul este alcatuit din doua componente: limbajul in sine: ca dovada ca programatorii ...
MapReduce Application Flow în Hadoop - dummies
ÎN centrul său, MapReduce este un model de programare pentru procesarea seturilor de date care sunt stocate într-o manieră distribuită de-a lungul nodurilor slave ale clusterului Hadoop. Conceptul cheie aici este împărțirea și cucerirea. În mod specific, doriți să rupeți un set mare de date în mai multe bucăți mai mici și să le procesați în paralel cu același algoritm. ...
Fluxul de aplicații latine Pig în Hadoop - dummies
ÎN centrul său, Pig Latin este un flux de date definiți un flux de date și o serie de transformări care se aplică datelor în timp ce acestea circulă prin aplicația dvs. Acest lucru este în contrast cu un limbaj al fluxului de control (cum ar fi C sau Java), unde scrieți o serie de instrucțiuni. În fluxul de control ...
Principiile Designului Sqoop - dummies
Când vine vorba de Sqoop, o imagine este adesea în valoare de o mie de cuvinte verificați figura, ceea ce vă oferă o vedere asupra arcadei Sqoop. Ideea din spatele Sqoop este că foloseste sarcini de hartă - sarcini care efectuează importul și exportul paralel de tabele de baze de date relaționale - chiar dinăuntru ...
Faza de reducere a fluxului aplicației MapReduce de la Hadoop - dummies
Faza Reduce procesează cheile și listele lor individuale de valori, astfel încât ceea ce este în mod normal returnat aplicației client este un set de perechi cheie / valoare. Iată un blow-by-blow până acum: Un set mare de date a fost împărțit în bucăți mai mici, denumite divizări de intrare, iar instanțele individuale ale sarcinilor cartografiere au procesat fiecare ...
Browser-ul Web ca Client Hive - dummies
Folosind CLI Hive necesită doar o singură comandă pentru a porni shell- dar când doriți să accesați stupi utilizând un browser web, trebuie mai întâi să porniți serverul HWI și să îndreptați browserul spre portul pe care asculta serverul. Următoarea figură ilustrează modul în care acest tip de client de tip Hive ...
Faza de hartă a fluxului aplicației MapReduce de la Hadoop - manechine
O aplicație MapReduce procesează datele în diviziuni de intrare o bază record-record și că fiecare înregistrare este înțeleasă de MapReduce ca fiind o pereche cheie / valoare. După ce s-au calculat diviziunile de intrare, sarcinile cartografierului pot începe să le proceseze - adică imediat după ce facilitatea de planificare a Managerului de Resurse îi alocă resursele de procesare. ...
Arhitectura YARN în Hadoop - manechine
YARN, pentru cei care sosesc exact la această petrecere, Negotiator, un instrument care permite altor cadre de procesare a datelor să ruleze pe Hadoop. Slava lui YARN este că prezintă Hadoop cu o soluție elegantă pentru o serie de provocări de lungă durată. YARN este menit să ofere un ...
Ce înseamnă SQL Access Actually - machete
Un număr de companii investesc foarte mult în a conduce proiecte open source și soluții brevetate Accesul SQL la datele Hadoop. Când auziți termenul de acces SQL, trebuie să știți că vă bazați pe câteva presupuneri de bază: Standardele lingvistice: Cel mai important standard, desigur, implică limba în sine. Există multe soluții asemănătoare SQL, ...
Maestrul de aplicații al yarns în Hadoop - dummies
Spre deosebire de alte componente YARN (încă un alt Negotiator de Resurse) hărți direct la aplicația Master. În esență, aceasta este o lucrare pe care JobTracker a făcut-o pentru fiecare aplicație, dar implementarea este radical diferită. Fiecare aplicație care rulează pe clusterul Hadoop are propria instanță Application Master, care rulează efectiv în ...
Faza Shuffle din fluxul aplicației MapReduce Hadoop - dummies
După faza Map și înainte de începutul Reducerea fazei este un proces de transfer, cunoscut sub numele de shuffle și sort. Aici, datele din sarcinile cartografiere sunt pregătite și mutate la nodurile unde vor fi executate sarcinile reductorului. Atunci când sarcina mapperului este finalizată, rezultatele sunt sortate după cheie, partiționate dacă ...
Când HBase vă face să vă simțiți? - manechine
Deci, când trebuie să luați în considerare utilizarea HBase? Deși răspunsul la această întrebare nu este neapărat simplu pentru toată lumea, pentru început, în mod clar trebuie să aveți o cerință mare de date și resurse hardware suficiente. O cerință mare de date: Terabytes la petabytes - în caz contrar veți avea o mulțime de servere în așteptare în rack-urile dvs. Resurse hardware suficiente: Cinci servere ...
Managerul nodului yarn în Hadoop - dummies
Fiecare nod sclav în încă un alt negociator de resurse (YARN) , care acționează ca un sclav pentru Managerul Resurselor. Ca și în TaskTracker, fiecare nod slave are un serviciu care leagă serviciul de procesare (Node Manager) și serviciul de stocare (DataNode) care permit ca Hadoop să fie un sistem distribuit. ...
Managerul resurselor yarns - dummies
Componenta de bază a YARN (încă un alt negociator al resurselor) resursele de procesare a datelor din clusterul Hadoop. Pur și simplu, managerul de resurse este un programator dedicat care alocă resurse solicitanților de aplicații. Singurele sale sarcini sunt de a menține o imagine globală a tuturor resurselor din cluster, manipularea ...
Urmărirea JobTracker și TaskTracker în Hadoop 1 - manechinuri
Maparea procesăriiReduce în Hadoop 1 este gestionată de JobTracker și TaskTracker daemon. JobTracker păstrează o vizualizare a tuturor resurselor de procesare disponibile în clusterul Hadoop și, pe măsură ce cererile de aplicație vin, planifică și le implementează la nodurile TaskTracker pentru execuție. În timp ce aplicațiile rulează, JobTracker primește actualizări de stare de la ...
Cache de date de mare viteză cu NoSQL - dummies
Cu NoSQL. Imaginați-vă că sunteți un bancher cu alți trei colegi care lucrează. Fiecare dintre voi are o linie de oameni pentru a fi servi. Unul dintre clienți, totuși, continuă să se întrebe pentru a întreba dacă cecul său a fost încă încasat și suma a fost creditată în contul său. Când ...
Cum să comunice statistici din date mari - dummies
Datele mari vă pot ajuta să obțineți o înțelegere. Întreprinderile obțin avantaje competitive atunci când informațiile corecte sunt transmise oamenilor potriviți la momentul potrivit. Aceasta înseamnă extragerea de informații și informații din date și comunicarea acestora factorilor de decizie într-un mod ușor de înțeles. La urma urmei, oamenii sunt mai puțin susceptibili să acționeze dacă aceștia ...
Zookeeper și HBase Fiabilitate - dummies
Zookeeper este un cluster distribuit de servere care oferă colectiv servicii de coordonare și sincronizare fiabile pentru aplicații clustered . Desigur, numele "Zookeeper" poate părea la început o alegere ciudată, dar când înțelegeți ce face pentru un cluster HBase, puteți vedea logica din spatele acestuia. Când construiți și depanați distribuite ...
Trecerea de la un model RDBMS la HBase - manechine
Dacă vă confruntați cu faza de proiectare pentru aplicația dvs. credeți că HBase ar fi o potrivire bună, apoi proiectarea chei dvs. de rând și schema pentru a se potrivi modelului de date HBase și arhitectura este abordarea corectă. Cu toate acestea, uneori are sens să mutați o bază de date creată inițial pentru o RDBMS către HBase. A ...
Fereastră în HiveQL - dummies
Conceptul de ferestre introdus în standardul SQL: 2003 permite programatorului SQL să creeze cadru de la care pot funcționa agregatele și alte funcții ale ferestrei. HiveQL acceptă acum ferestre după standardul SQL. Exemplele sunt destul de utile atunci când explicăm funcțiile de ferestre și agregate. Întârzierile de întârziere vin cu teritoriul când zboară ...