Detectarea fraudelor cu Hadoop - dummies
Volumul mare de tranzacții face mai dificilă detectarea fraudelor din cauza volumului de date, ironic, această provocare poate ajuta la crearea unor modele predictive de fraudă mai bune - o zonă în care strălucește Hadoop. În lumea interconectată de astăzi, volumul mare și complexitatea tranzacțiilor o face mai greu ca oricând să găsească fraudă. Ceea ce a folosit ...
Grafic Procesarea în Hadoop - manechine
Una dintre cele mai interesante tehnologii NoSQL emergente implică stocarea și prelucrarea datelor grafice. S-ar putea să credeți că această afirmație este o veste veche, deoarece oamenii de știință din domeniul calculatoarelor au dezvoltat tehnici de analiză grafică de zeci de ani. Ceea ce spuneți ar putea fi adevărat, dar ceea ce este nou este că prin utilizarea lui Hadoop puteți face un grafic ...
Federația Federației Fise Distribuite (HDFS) - dummies
NumeNod. Înainte ca Hadoop 2 să intre în scenă, clusterele Hadoop trebuiau să trăiască cu faptul că NameNode plasa limite asupra gradului în care puteau să scadă. Puține clustere au reușit să scadă peste 3 000 sau 4 000 de noduri. NameNode trebuie să mențină înregistrări pentru ...
Hadoop ca motor de prelucrare a datelor - manechine
Unul dintre primele cazuri de utilizare pentru Hadoop în întreprindere a fost program de transformare motor folosit pentru preprocesarea datelor legate de un depozit de date. În esență, acest caz de utilizare utilizează puterea ecosistemului Hadoop pentru a manipula și a aplica transformări la date înainte de a fi încărcat într-un depozit de date. Deși transformarea reală ...
Ca o arhivă interogabilă a datelor depozitului rece - dummies
O multitudine de studii arată că majoritatea datelor într-un antrepozit de date al întreprinderii este rar întrebat. Furnizorii de baze de date au răspuns la astfel de observații prin implementarea propriilor metode de sortare a datelor pe care le-au plasat acolo. O metodă comandă universul de date în denumirile de date fierbinți, calde sau reci, unde datele fierbinți (numite uneori active ...
Program de < < ca o destinație de date arhivă - dummies
Costul ieftin de stocare pentru Hadoop plus capacitatea de interogare a datelor Hadoop cu SQL face Hadoop destinația principală pentru datele de arhivă. Acest caz de utilizare are un impact redus asupra organizației dvs., deoarece puteți începe să construiți setul de calificări Hadoop pe date care nu sunt stocate pe sistemele critice de performanță. Mai mult, nu ...
Administratori hadoop - manechine
Orice administrator Hadoop care merită sarea sa trebuie să stăpânească un set cuprinzător de comenzi pentru administrarea clusterului. Următoarea listă rezumă cele mai importante comenzi, indicând ce are comanda, precum și sintaxa și exemplele. Cunoașteți-i și veți avansa pe drumul spre înțelepciunea lui Hadoop. balancer: execută utilitarul de echilibrare a clusterului. ...
Hadoop MapReduce pentru Big Data - dummies
Pentru a înțelege pe deplin capabilitățile Hadoop MapReduce, este important să se facă diferența între MapReduce algoritmul) și o implementare a MapReduce. Hadoop MapReduce este o implementare a algoritmului dezvoltat și menținut de proiectul Apache Hadoop. Este util să vă gândiți la această implementare ca pe un motor MapReduce, pentru că exact așa se face ...
Hadoop Integration with R - dummies
La inceput, date mari si R nu erau prieteni naturali. Programarea R necesită încărcarea tuturor obiectelor în memoria principală a unei singure mașini. Limitările acestei arhitecturi sunt realizate rapid atunci când datele mari devin o parte a ecuației. În schimb, sistemele de fișiere distribuite, cum ar fi Hadoop, lipsesc puternic ...
Cum să obțineți Apache Oozie Configurați în Hadoop - manechine
Apache Oozie este inclus în fiecare Hadoop major inclusiv Apache Bigtop. În clusterul dvs. Hadoop, instalați serverul Oozie pe un nod de margine, unde puteți rula și alte aplicații client împotriva datelor din cluster, după cum se arată. Edge nodurile sunt proiectate să fie o poartă de acces pentru rețeaua externă către clusterul Hadoop. Acest ...
Importul de date cu Sqoop - manechine
Gata să se scufunde în importul de date cu Sqoop? Începeți prin a arunca o privire la figura, care ilustrează pașii dintr-o operație tipică de import Sqoop dintr-un sistem RDBMS sau dintr-un sistem de stocare de date. Nimic prea complicat aici - doar un tabel de produse tipic de date de la o companie (tipic) fictiv fiind importate într-un tipic ...
Imagine Clasificarea cu Hadoop
Clasificarea imaginii necesită o cantitate semnificativă de resurse de procesare a datelor, ceea ce a limitat scara de implementări. Clasificarea imaginilor este un subiect fierbinte în lumea Hadoop, deoarece nici o tehnologie de masă nu a fost capabilă - până la apariția lui Hadoop - să deschidă ușile pentru o astfel de prelucrare scumpă pe o astfel de masivă și eficientă ...
Moduri locale și distribuite ale scripturilor de porc care rulează în Hadoop - dummies
Pig script în Hadoop, trebuie să aveți un mâner cu privire la modul în care programele Pig pot fi ambalate cu serverul Pig. Porcul are două moduri de a rula scripturi: Modul local: Toate scripturile sunt difuzate pe o singură mașină fără a fi nevoie de Hadoop MapReduce și HDFS. Acest lucru poate fi util pentru ...
Diviziune de intrare în Hadoop MapReduce - dummies
Modul HDFS a fost configurat, blochează (de exemplu, 128 MB) și stochează trei copii ale acestor blocuri pe noduri diferite din cluster. HDFS nu cunoaște conținutul acestor fișiere. În YARN, atunci când o lucrare MapReduce este pornită, Managerul resurselor (...
Gestionarea resurselor mari de date și aplicații cu Hadoop YARN - manechine
Parte integrantă a Hadoop MapReduce și poate fi utilizat pentru a gestiona resursele și aplicațiile. Versiunile inițiale ale lui Hadoop au susținut un sistem de urmărire a locurilor de muncă și a sarcinilor rudimentare, dar, odată cu schimbarea lucrării susținute de Hadoop, planificatorul nu a putut ține pasul. În special, vechiul ...
Care unește tabelele cu stupi
Probabil știți deja că experții în modelarea și designul bazelor de date relaționale petrec de obicei o mulțime de proiectarea de baze de date normalizate sau scheme. Baza de date este o tehnică care protejează împotriva pierderii de date, a redundanței și a altor anomalii, deoarece datele sunt actualizate și preluate. Experții respectă o serie de reguli pentru a ajunge la un ...
Rețelele și clusterile Hadoop - dummies
Ca în orice sistem distribuit; "Mergi ieftin. "O mulțime de chatter are loc între nodurile principale și nodurile slave într-un cluster Hadoop, care este esențial pentru păstrarea funcționării cluster-ului, deci comutatoarele de clasă de întreprindere sunt cu siguranță recomandate. Pentru fiecare rack din cluster, tu ...
Log Analiza datelor cu Hadoop - dummies
Analiza log este un caz comun de utilizare pentru un proiect inaugural Hadoop. Într-adevăr, cele mai timpurii utilizări ale lui Hadoop au fost pentru analiza pe scară largă a jurnalelor clickstream - jurnale care înregistrează date despre paginile web pe care oamenii le vizitează și în ce ordine le vizitează. Toate jurnalele de date generate de infrastructura dvs. IT ...
Datele din jurnal cu Flume în HDFS - dummies
Unele date care se termină în Hadoop Distributed File System HDFS) ar putea ajunge acolo prin operațiuni de încărcare a bazei de date sau alte tipuri de procese batch, dar ce se întâmplă dacă doriți să capturați datele care circulă în fluxuri de date de mare viteză, cum ar fi datele din jurnalul de aplicații? Apache Flume este metoda standard actuală de a ...
Păstrați urmărirea blocurilor de date cu numeNode în HDFS - dummies
NameNode acționează ca adresă pentru Hadoop Distributed File System (HDFS), deoarece știe nu numai ce blocuri alcătuiesc fișiere individuale, ci și unde fiecare dintre aceste blocuri și replicile lor sunt stocate. Când un utilizator stochează un fișier în HDFS, fișierul este împărțit în blocuri de date și trei copii ale ...
Porc latin în programele porcului Hadoop - dummies
Porcul latin este limba pentru programele de porc. Porcul traduce scriptul Pig Latin în sarcinile MapReduce care pot fi executate în cadrul clusterului Hadoop. Când veniți cu Pig Latin, echipa de dezvoltare a urmărit trei principii cheie de proiectare: Păstrați-l simplu. Pig Latin oferă o metodă simplificată pentru interacțiunea cu Java MapReduce. E un ...
Magazinele de date noSQL versus Hadoop - dummies
Stocările de date noSQL au subscris inițial noțiunii "Just Say No to SQL" pentru a paraframa dintr-o campanie de publicitate anti-drog în anii 1980), și au fost o reacție la limitările percepute ale bazelor de date relaționale (bazate pe SQL). Nu este faptul că acești oameni urau SQL, dar s-au săturat să forțeze cuțite pătrate în găuri rotunde de ...
Replicarea blocurilor de date în sistemul distribuit de fișiere Hadoop - dummies
Hadoop Distributed File System (HDFS) concepute pentru a stoca date pe echipamente ieftine și mai puțin fiabile. Ieftin are un inel atrăgător, dar ridică îngrijorări cu privire la fiabilitatea sistemului în ansamblu, în special pentru asigurarea disponibilității ridicate a datelor. Planificând înainte pentru dezastru, creierul din spatele HDFS a făcut ...
Gestionarea fișierelor cu sistemul de fișiere Hadoop File - dummies
HDFS este una dintre cele două componente principale ale Cadru Hadoop; cealaltă este paradigma computațională cunoscută sub numele de MapReduce. Un sistem de fișiere distribuit este un sistem de fișiere care gestionează stocarea într-un grup de mașini în rețea. HDFS stochează datele în blocuri, unitățile ale căror dimensiuni implicite sunt de 64MB. Fișierele pe care doriți să le stocați în ...
R pe Hadoop și R Language - dummies
Disciplina de învățare a mașinilor are un catalog bogat și extins de tehnici . Mahout aduce o serie de instrumente statistice și algoritmi la masă, dar captează doar o fracțiune din acele tehnici și algoritmi, deoarece sarcina de a transforma aceste modele într-un cadru MapReduce este o provocare. În decursul timpului, Mahout este sigur ...
Regiuni din HBase - manechine
RegiunileServicii sunt un lucru, dar trebuie să aruncați o privire la modul în care funcționează regiunile individuale. În HBase, un tabel este răspândit în mai multe regiuni și este alcătuit din regiuni individuale. Pe măsură ce tabelele sunt împărțite, divizările devin regiuni. Regiunile stochează o serie de perechi cheie-valoare și fiecare ...
Mașină Învățarea cu Mahout în Hadoop - manechine
ÎNvățarea automată se referă la o ramură a tehnicilor de inteligență artificială, computere pentru a-și îmbunătăți analiza pe baza evenimentelor anterioare. Aceste sisteme informatice utilizează date istorice din încercările anterioare de rezolvare a unei sarcini pentru a îmbunătăți performanțele viitoarelor încercări în sarcini similare. În ceea ce privește rezultatele așteptate, învățarea automată ...
Care rulează Aplicații Înainte de Hadoop 2 - dummies
Deoarece multe implementări Hadoop existente încă nu utilizează încă un alt Negotiator de Resurse YARN), aruncați o privire rapidă asupra modului în care Hadoop a reușit să proceseze datele sale înainte de zilele lui Hadoop 2. Concentrați-vă pe rolul pe care demnitarul master JobTracker și daemonii slave TaskTracker au jucat în procesarea procesării MapReduce. Întregul punct de utilizare a sistemelor distribuite ...
Modelarea riscului cu Hadoop - manechine
Modelarea riscului este un alt caz major de utilizare care este alimentat de Hadoop. Veți observa că acesta se potrivește foarte bine cazului de detectare a fraudei prin faptul că este o disciplină bazată pe model. Cu cât aveți mai multe date și cu atât mai mult puteți "conecta punctele", cu atât mai des rezultatele obținute vor oferi modele mai bune de predicție a riscurilor. Cuvântul atotcuprinzător ...
Noduri principale în clustere Hadoop - dummies
Nodurile principale din clusterele distribuite Hadoop găzduiesc diverse servicii de gestionare a stocării și procesării, descrise în această listă, pentru întregul cluster Hadoop. Redundanța este esențială pentru evitarea punctelor unice de eșec, așa că vedeți două comutatoare și trei noduri principale. NumeNod: Gestionează stocarea HDFS. Pentru a vă asigura disponibilitatea ridicată, aveți atât un ...
Funcționarea modelelor statistice în Hadoop's MapReduce - dummies
Convertirea modelelor statistice în paralel este o sarcină dificilă. În paradigma tradițională pentru programarea paralelă, accesul la memorie este reglementat prin utilizarea sub-proceselor create de sistemul de operare pentru a distribui o singură memorie partajată pe mai multe procesoare. Factori precum condițiile de cursă între firele concurente - atunci când două sau ...
După ce ați creat un set de fluxuri de lucru, puteți să programați și să coordonați fluxurile de lucru Oozie în Hadoop - dummies
Utilizați o serie de sarcini de coordonator Oozie pentru a programa atunci când sunt executate. Aveți două opțiuni de planificare pentru execuție: un anumit timp și disponibilitatea datelor împreună cu un anumit timp. Programarea bazată pe timp pentru joburile coordonatorului Oozie Joburile coordonatorului Oozie pot fi programate să ...
Scripting cu Pig Latin în Hadoop - dummies
Hadoop este un ecosistem bogat și rapid, aplicații. Mai degrabă decât să încercați să respectați toate cerințele pentru noi capabilități, Pig este proiectat să fie extensibil prin funcții definite de utilizator, cunoscute și ca UDF-uri. UDF-urile pot fi scrise într-un număr de limbi de programare, inclusiv Java, Python și ...
Slave Node and Disk Failures în HDFS - dummy
, Chiar și eșecuri de nod sau rack), sunt inevitabile în Hadoop Distributed File System (HDFS). În exemplul prezentat, chiar dacă un rack ar eșua, clusterul ar putea continua să funcționeze. Performanța ar avea de suferit deoarece ați pierdut jumătate din resursele dvs. de procesare, dar sistemul este încă online ...
Dimensionarea Hadoop Cluster - dummies
Dimensionarea oricărui sistem de prelucrare a datelor este la fel de multă știință ca și artă. Cu Hadoop, considerați aceleași informații ca și dvs. cu o bază de date relațională, de exemplu. În mod semnificativ, trebuie să știți cât de multe date aveți, să estimați ratele de creștere așteptate și să stabiliți o politică de reținere (cât timp să ...
Configurați mediul Hadoop cu Apache Bigtop - dummies
Dacă sunteți confortabil să lucrați cu VM și Linux , nu ezitați să instalați Bigtop pe un alt VM decât ceea ce este recomandat. Dacă sunteți cu adevărat îndrăzneț și aveți hardware-ul, mergeți mai departe și încercați să instalați Bigtop pe un grup de mașini în mod complet distribuit! Pasul 1: Descărcarea unui VM Hadoop rulează pe toate Linux-urile populare ...
Apache-ul Apache - Aplicații
Apache Hive este indiscutabil cea mai răspândită interfață de interogare a datelor din comunitatea Hadoop. Inițial, obiectivele de proiectare pentru Hive nu erau pentru compatibilitate completă cu SQL și pentru performanțe ridicate, ci pentru a oferi o interfață ușoară, oarecum familiară pentru dezvoltatorii care ar fi trebuit să lanseze interogări batch împotriva lui Hadoop. Această abordare destul de fragmentată nu mai funcționează, deci ...
Noduri slave în clustere Hadoop
ÎNtr-un univers Hadoop, nodurile slave sunt unde sunt stocate datele Hadoop și unde datele procesarea are loc. Următoarele servicii permit nodurilor slave să stocheze și să proceseze date: NodeManager: Coordonează resursele pentru un nod secundar individual și raportează înapoi către Managerul de resurse. ApplicationMaster: Urmări progresul tuturor sarcinilor care rulează pe ...