Finanțe personale

Detectarea fraudelor cu Hadoop - dummies

Detectarea fraudelor cu Hadoop - dummies

Volumul mare de tranzacții face mai dificilă detectarea fraudelor din cauza volumului de date, ironic, această provocare poate ajuta la crearea unor modele predictive de fraudă mai bune - o zonă în care strălucește Hadoop. În lumea interconectată de astăzi, volumul mare și complexitatea tranzacțiilor o face mai greu ca oricând să găsească fraudă. Ceea ce a folosit ...

Grafic Procesarea în Hadoop - manechine

Grafic Procesarea în Hadoop - manechine

Una dintre cele mai interesante tehnologii NoSQL emergente implică stocarea și prelucrarea datelor grafice. S-ar putea să credeți că această afirmație este o veste veche, deoarece oamenii de știință din domeniul calculatoarelor au dezvoltat tehnici de analiză grafică de zeci de ani. Ceea ce spuneți ar putea fi adevărat, dar ceea ce este nou este că prin utilizarea lui Hadoop puteți face un grafic ...

Federația Federației Fise Distribuite (HDFS) - dummies

Federația Federației Fise Distribuite (HDFS) - dummies

NumeNod. Înainte ca Hadoop 2 să intre în scenă, clusterele Hadoop trebuiau să trăiască cu faptul că NameNode plasa limite asupra gradului în care puteau să scadă. Puține clustere au reușit să scadă peste 3 000 sau 4 000 de noduri. NameNode trebuie să mențină înregistrări pentru ...

Hadoop ca motor de prelucrare a datelor - manechine

Hadoop ca motor de prelucrare a datelor - manechine

Unul dintre primele cazuri de utilizare pentru Hadoop în întreprindere a fost program de transformare motor folosit pentru preprocesarea datelor legate de un depozit de date. În esență, acest caz de utilizare utilizează puterea ecosistemului Hadoop pentru a manipula și a aplica transformări la date înainte de a fi încărcat într-un depozit de date. Deși transformarea reală ...

Ca o arhivă interogabilă a datelor depozitului rece - dummies

Ca o arhivă interogabilă a datelor depozitului rece - dummies

O multitudine de studii arată că majoritatea datelor într-un antrepozit de date al întreprinderii este rar întrebat. Furnizorii de baze de date au răspuns la astfel de observații prin implementarea propriilor metode de sortare a datelor pe care le-au plasat acolo. O metodă comandă universul de date în denumirile de date fierbinți, calde sau reci, unde datele fierbinți (numite uneori active ...

Program de < < ca o destinație de date arhivă - dummies

Program de < < ca o destinație de date arhivă - dummies

Costul ieftin de stocare pentru Hadoop plus capacitatea de interogare a datelor Hadoop cu SQL face Hadoop destinația principală pentru datele de arhivă. Acest caz de utilizare are un impact redus asupra organizației dvs., deoarece puteți începe să construiți setul de calificări Hadoop pe date care nu sunt stocate pe sistemele critice de performanță. Mai mult, nu ...

Administratori hadoop - manechine

Administratori hadoop - manechine

Orice administrator Hadoop care merită sarea sa trebuie să stăpânească un set cuprinzător de comenzi pentru administrarea clusterului. Următoarea listă rezumă cele mai importante comenzi, indicând ce are comanda, precum și sintaxa și exemplele. Cunoașteți-i și veți avansa pe drumul spre înțelepciunea lui Hadoop. balancer: execută utilitarul de echilibrare a clusterului. ...

Hadoop MapReduce pentru Big Data - dummies

Hadoop MapReduce pentru Big Data - dummies

Pentru a înțelege pe deplin capabilitățile Hadoop MapReduce, este important să se facă diferența între MapReduce algoritmul) și o implementare a MapReduce. Hadoop MapReduce este o implementare a algoritmului dezvoltat și menținut de proiectul Apache Hadoop. Este util să vă gândiți la această implementare ca pe un motor MapReduce, pentru că exact așa se face ...

Hadoop Integration with R - dummies

Hadoop Integration with R - dummies

La inceput, date mari si R nu erau prieteni naturali. Programarea R necesită încărcarea tuturor obiectelor în memoria principală a unei singure mașini. Limitările acestei arhitecturi sunt realizate rapid atunci când datele mari devin o parte a ecuației. În schimb, sistemele de fișiere distribuite, cum ar fi Hadoop, lipsesc puternic ...

Cum să obțineți Apache Oozie Configurați în Hadoop - manechine

Cum să obțineți Apache Oozie Configurați în Hadoop - manechine

Apache Oozie este inclus în fiecare Hadoop major inclusiv Apache Bigtop. În clusterul dvs. Hadoop, instalați serverul Oozie pe un nod de margine, unde puteți rula și alte aplicații client împotriva datelor din cluster, după cum se arată. Edge nodurile sunt proiectate să fie o poartă de acces pentru rețeaua externă către clusterul Hadoop. Acest ...

Importul de date cu Sqoop - manechine

Importul de date cu Sqoop - manechine

Gata să se scufunde în importul de date cu Sqoop? Începeți prin a arunca o privire la figura, care ilustrează pașii dintr-o operație tipică de import Sqoop dintr-un sistem RDBMS sau dintr-un sistem de stocare de date. Nimic prea complicat aici - doar un tabel de produse tipic de date de la o companie (tipic) fictiv fiind importate într-un tipic ...

Imagine Clasificarea cu Hadoop

Imagine Clasificarea cu Hadoop

Clasificarea imaginii necesită o cantitate semnificativă de resurse de procesare a datelor, ceea ce a limitat scara de implementări. Clasificarea imaginilor este un subiect fierbinte în lumea Hadoop, deoarece nici o tehnologie de masă nu a fost capabilă - până la apariția lui Hadoop - să deschidă ușile pentru o astfel de prelucrare scumpă pe o astfel de masivă și eficientă ...

Moduri locale și distribuite ale scripturilor de porc care rulează în Hadoop - dummies

Moduri locale și distribuite ale scripturilor de porc care rulează în Hadoop - dummies

Pig script în Hadoop, trebuie să aveți un mâner cu privire la modul în care programele Pig pot fi ambalate cu serverul Pig. Porcul are două moduri de a rula scripturi: Modul local: Toate scripturile sunt difuzate pe o singură mașină fără a fi nevoie de Hadoop MapReduce și HDFS. Acest lucru poate fi util pentru ...

Diviziune de intrare în Hadoop MapReduce - dummies

Diviziune de intrare în Hadoop MapReduce - dummies

Modul HDFS a fost configurat, blochează (de exemplu, 128 MB) și stochează trei copii ale acestor blocuri pe noduri diferite din cluster. HDFS nu cunoaște conținutul acestor fișiere. În YARN, atunci când o lucrare MapReduce este pornită, Managerul resurselor (...

Gestionarea resurselor mari de date și aplicații cu Hadoop YARN - manechine

Gestionarea resurselor mari de date și aplicații cu Hadoop YARN - manechine

Parte integrantă a Hadoop MapReduce și poate fi utilizat pentru a gestiona resursele și aplicațiile. Versiunile inițiale ale lui Hadoop au susținut un sistem de urmărire a locurilor de muncă și a sarcinilor rudimentare, dar, odată cu schimbarea lucrării susținute de Hadoop, planificatorul nu a putut ține pasul. În special, vechiul ...

Care unește tabelele cu stupi

Care unește tabelele cu stupi

Probabil știți deja că experții în modelarea și designul bazelor de date relaționale petrec de obicei o mulțime de proiectarea de baze de date normalizate sau scheme. Baza de date este o tehnică care protejează împotriva pierderii de date, a redundanței și a altor anomalii, deoarece datele sunt actualizate și preluate. Experții respectă o serie de reguli pentru a ajunge la un ...

Rețelele și clusterile Hadoop - dummies

Rețelele și clusterile Hadoop - dummies

Ca în orice sistem distribuit; "Mergi ieftin. "O mulțime de chatter are loc între nodurile principale și nodurile slave într-un cluster Hadoop, care este esențial pentru păstrarea funcționării cluster-ului, deci comutatoarele de clasă de întreprindere sunt cu siguranță recomandate. Pentru fiecare rack din cluster, tu ...

Log Analiza datelor cu Hadoop - dummies

Log Analiza datelor cu Hadoop - dummies

Analiza log este un caz comun de utilizare pentru un proiect inaugural Hadoop. Într-adevăr, cele mai timpurii utilizări ale lui Hadoop au fost pentru analiza pe scară largă a jurnalelor clickstream - jurnale care înregistrează date despre paginile web pe care oamenii le vizitează și în ce ordine le vizitează. Toate jurnalele de date generate de infrastructura dvs. IT ...

Datele din jurnal cu Flume în HDFS - dummies

Datele din jurnal cu Flume în HDFS - dummies

Unele date care se termină în Hadoop Distributed File System HDFS) ar putea ajunge acolo prin operațiuni de încărcare a bazei de date sau alte tipuri de procese batch, dar ce se întâmplă dacă doriți să capturați datele care circulă în fluxuri de date de mare viteză, cum ar fi datele din jurnalul de aplicații? Apache Flume este metoda standard actuală de a ...

Păstrați urmărirea blocurilor de date cu numeNode în HDFS - dummies

Păstrați urmărirea blocurilor de date cu numeNode în HDFS - dummies

NameNode acționează ca adresă pentru Hadoop Distributed File System (HDFS), deoarece știe nu numai ce blocuri alcătuiesc fișiere individuale, ci și unde fiecare dintre aceste blocuri și replicile lor sunt stocate. Când un utilizator stochează un fișier în HDFS, fișierul este împărțit în blocuri de date și trei copii ale ...

Porc latin în programele porcului Hadoop - dummies

Porc latin în programele porcului Hadoop - dummies

Porcul latin este limba pentru programele de porc. Porcul traduce scriptul Pig Latin în sarcinile MapReduce care pot fi executate în cadrul clusterului Hadoop. Când veniți cu Pig Latin, echipa de dezvoltare a urmărit trei principii cheie de proiectare: Păstrați-l simplu. Pig Latin oferă o metodă simplificată pentru interacțiunea cu Java MapReduce. E un ...

Magazinele de date noSQL versus Hadoop - dummies

Magazinele de date noSQL versus Hadoop - dummies

Stocările de date noSQL au subscris inițial noțiunii "Just Say No to SQL" pentru a paraframa dintr-o campanie de publicitate anti-drog în anii 1980), și au fost o reacție la limitările percepute ale bazelor de date relaționale (bazate pe SQL). Nu este faptul că acești oameni urau SQL, dar s-au săturat să forțeze cuțite pătrate în găuri rotunde de ...

Replicarea blocurilor de date în sistemul distribuit de fișiere Hadoop - dummies

Replicarea blocurilor de date în sistemul distribuit de fișiere Hadoop - dummies

Hadoop Distributed File System (HDFS) concepute pentru a stoca date pe echipamente ieftine și mai puțin fiabile. Ieftin are un inel atrăgător, dar ridică îngrijorări cu privire la fiabilitatea sistemului în ansamblu, în special pentru asigurarea disponibilității ridicate a datelor. Planificând înainte pentru dezastru, creierul din spatele HDFS a făcut ...

Gestionarea fișierelor cu sistemul de fișiere Hadoop File - dummies

Gestionarea fișierelor cu sistemul de fișiere Hadoop File - dummies

HDFS este una dintre cele două componente principale ale Cadru Hadoop; cealaltă este paradigma computațională cunoscută sub numele de MapReduce. Un sistem de fișiere distribuit este un sistem de fișiere care gestionează stocarea într-un grup de mașini în rețea. HDFS stochează datele în blocuri, unitățile ale căror dimensiuni implicite sunt de 64MB. Fișierele pe care doriți să le stocați în ...

R pe Hadoop și R Language - dummies

R pe Hadoop și R Language - dummies

Disciplina de învățare a mașinilor are un catalog bogat și extins de tehnici . Mahout aduce o serie de instrumente statistice și algoritmi la masă, dar captează doar o fracțiune din acele tehnici și algoritmi, deoarece sarcina de a transforma aceste modele într-un cadru MapReduce este o provocare. În decursul timpului, Mahout este sigur ...

Regiuni din HBase - manechine

Regiuni din HBase - manechine

RegiunileServicii sunt un lucru, dar trebuie să aruncați o privire la modul în care funcționează regiunile individuale. În HBase, un tabel este răspândit în mai multe regiuni și este alcătuit din regiuni individuale. Pe măsură ce tabelele sunt împărțite, divizările devin regiuni. Regiunile stochează o serie de perechi cheie-valoare și fiecare ...

Mașină Învățarea cu Mahout în Hadoop - manechine

Mașină Învățarea cu Mahout în Hadoop - manechine

ÎNvățarea automată se referă la o ramură a tehnicilor de inteligență artificială, computere pentru a-și îmbunătăți analiza pe baza evenimentelor anterioare. Aceste sisteme informatice utilizează date istorice din încercările anterioare de rezolvare a unei sarcini pentru a îmbunătăți performanțele viitoarelor încercări în sarcini similare. În ceea ce privește rezultatele așteptate, învățarea automată ...

Care rulează Aplicații Înainte de Hadoop 2 - dummies

Care rulează Aplicații Înainte de Hadoop 2 - dummies

Deoarece multe implementări Hadoop existente încă nu utilizează încă un alt Negotiator de Resurse YARN), aruncați o privire rapidă asupra modului în care Hadoop a reușit să proceseze datele sale înainte de zilele lui Hadoop 2. Concentrați-vă pe rolul pe care demnitarul master JobTracker și daemonii slave TaskTracker au jucat în procesarea procesării MapReduce. Întregul punct de utilizare a sistemelor distribuite ...

Modelarea riscului cu Hadoop - manechine

Modelarea riscului cu Hadoop - manechine

Modelarea riscului este un alt caz major de utilizare care este alimentat de Hadoop. Veți observa că acesta se potrivește foarte bine cazului de detectare a fraudei prin faptul că este o disciplină bazată pe model. Cu cât aveți mai multe date și cu atât mai mult puteți "conecta punctele", cu atât mai des rezultatele obținute vor oferi modele mai bune de predicție a riscurilor. Cuvântul atotcuprinzător ...

Noduri principale în clustere Hadoop - dummies

Noduri principale în clustere Hadoop - dummies

Nodurile principale din clusterele distribuite Hadoop găzduiesc diverse servicii de gestionare a stocării și procesării, descrise în această listă, pentru întregul cluster Hadoop. Redundanța este esențială pentru evitarea punctelor unice de eșec, așa că vedeți două comutatoare și trei noduri principale. NumeNod: Gestionează stocarea HDFS. Pentru a vă asigura disponibilitatea ridicată, aveți atât un ...

Funcționarea modelelor statistice în Hadoop's MapReduce - dummies

Funcționarea modelelor statistice în Hadoop's MapReduce - dummies

Convertirea modelelor statistice în paralel este o sarcină dificilă. În paradigma tradițională pentru programarea paralelă, accesul la memorie este reglementat prin utilizarea sub-proceselor create de sistemul de operare pentru a distribui o singură memorie partajată pe mai multe procesoare. Factori precum condițiile de cursă între firele concurente - atunci când două sau ...

După ce ați creat un set de fluxuri de lucru, puteți să programați și să coordonați fluxurile de lucru Oozie în Hadoop - dummies

După ce ați creat un set de fluxuri de lucru, puteți să programați și să coordonați fluxurile de lucru Oozie în Hadoop - dummies

Utilizați o serie de sarcini de coordonator Oozie pentru a programa atunci când sunt executate. Aveți două opțiuni de planificare pentru execuție: un anumit timp și disponibilitatea datelor împreună cu un anumit timp. Programarea bazată pe timp pentru joburile coordonatorului Oozie Joburile coordonatorului Oozie pot fi programate să ...

Scripting cu Pig Latin în Hadoop - dummies

Scripting cu Pig Latin în Hadoop - dummies

Hadoop este un ecosistem bogat și rapid, aplicații. Mai degrabă decât să încercați să respectați toate cerințele pentru noi capabilități, Pig este proiectat să fie extensibil prin funcții definite de utilizator, cunoscute și ca UDF-uri. UDF-urile pot fi scrise într-un număr de limbi de programare, inclusiv Java, Python și ...

Slave Node and Disk Failures în HDFS - dummy

Slave Node and Disk Failures în HDFS - dummy

, Chiar și eșecuri de nod sau rack), sunt inevitabile în Hadoop Distributed File System (HDFS). În exemplul prezentat, chiar dacă un rack ar eșua, clusterul ar putea continua să funcționeze. Performanța ar avea de suferit deoarece ați pierdut jumătate din resursele dvs. de procesare, dar sistemul este încă online ...

Dimensionarea Hadoop Cluster - dummies

Dimensionarea Hadoop Cluster - dummies

Dimensionarea oricărui sistem de prelucrare a datelor este la fel de multă știință ca și artă. Cu Hadoop, considerați aceleași informații ca și dvs. cu o bază de date relațională, de exemplu. În mod semnificativ, trebuie să știți cât de multe date aveți, să estimați ratele de creștere așteptate și să stabiliți o politică de reținere (cât timp să ...

Configurați mediul Hadoop cu Apache Bigtop - dummies

Configurați mediul Hadoop cu Apache Bigtop - dummies

Dacă sunteți confortabil să lucrați cu VM și Linux , nu ezitați să instalați Bigtop pe un alt VM decât ceea ce este recomandat. Dacă sunteți cu adevărat îndrăzneț și aveți hardware-ul, mergeți mai departe și încercați să instalați Bigtop pe un grup de mașini în mod complet distribuit! Pasul 1: Descărcarea unui VM Hadoop rulează pe toate Linux-urile populare ...

Apache-ul Apache - Aplicații

Apache-ul Apache - Aplicații

Apache Hive este indiscutabil cea mai răspândită interfață de interogare a datelor din comunitatea Hadoop. Inițial, obiectivele de proiectare pentru Hive nu erau pentru compatibilitate completă cu SQL și pentru performanțe ridicate, ci pentru a oferi o interfață ușoară, oarecum familiară pentru dezvoltatorii care ar fi trebuit să lanseze interogări batch împotriva lui Hadoop. Această abordare destul de fragmentată nu mai funcționează, deci ...

Noduri slave în clustere Hadoop

Noduri slave în clustere Hadoop

ÎNtr-un univers Hadoop, nodurile slave sunt unde sunt stocate datele Hadoop și unde datele procesarea are loc. Următoarele servicii permit nodurilor slave să stocheze și să proceseze date: NodeManager: Coordonează resursele pentru un nod secundar individual și raportează înapoi către Managerul de resurse. ApplicationMaster: Urmări progresul tuturor sarcinilor care rulează pe ...

Alegerea editorilor

Administrator de rețea: Zone de căutare inversă - dummies

Administrator de rețea: Zone de căutare inversă - dummies

Interogări DNS obișnuite sunt interogări de căutare înainte corespunde unui nume de domeniu complet calificat. O căutare inversă este opusul unei căutări forward: returnează numele de domeniu complet calificat al unei gazde pe baza adresei sale IP. Căutările inverse sunt posibile din cauza unui domeniu special numit ...

Rețea Elemente de bază: Clienți și servere - manechine

Rețea Elemente de bază: Clienți și servere - manechine

Computerul de rețea care conține hard disk-urile, imprimantele și alte resurse care sunt partajate cu alte calculatoare de rețea se numește un server. Acest termen vine în repetate rânduri, deci trebuie să-l amintiți. Scrie-o pe spatele mâinii tale stângi. Orice computer care nu este un server este numit client. Aveți ...

Retea Bazele: Poduri - dummies

Retea Bazele: Poduri - dummies

O punte este un dispozitiv care conecteaza doua retele astfel incat sa actioneze ca si cum ar fi o rețea. Podurile sunt utilizate pentru a împărți o rețea mare în două rețele mai mici din motive de performanță. Vă puteți gândi la un pod ca pe un repetor inteligent. Repetoarele ascultă semnale care coboară pe un cablu de rețea, amplifică ...

Alegerea editorilor

ÎMprumuta și tweak idei de la alte comunități online - dummies

ÎMprumuta și tweak idei de la alte comunități online - dummies

, Mai degrabă decât să ia ideile altcuiva complet pentru dvs. comunitate online, încercați să riffați pe aceeași idee, dar nu atât de mult încât este evident că nu sunteți creierul din spatele brainstorming-ului. Idei sunt acolo pentru a lua, dar nu ar fi mai degrabă văzute ca cineva inovatoare, nu cineva care scours pe web ...

Branding Blogul tău

Branding Blogul tău

Branding blog-ul tău merge mult spre a face dacă este ușor de recunoscut pentru cititorii tăi. Când vedeți un punct roșu în interiorul unui cerc roșu, ce magazin vine în minte? Ce zici de acele arcuri de aur? Un nume de marcă apare în minte atunci când vedeți simbolul swoosh? La fel ca magazinele populare, restaurantele și încălțămintea ...

Construiți un Blog Mama care este Sellable - dummies

Construiți un Blog Mama care este Sellable - dummies

Dacă obiectivul pe termen lung este de a vinde blogul dvs. ar trebui să o construiască cu acest scop în minte. Evitați asocierea prea intensă a blogului cu marca dvs. personală. Un blog care poate fi valoros cu orice scriitor la cârma trebuie să îndeplinească majoritatea, dacă nu toate, următoarele criterii: Blogul este concentrat ...

Alegerea editorilor

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

LinkedIn oferă servicii de publicitate pentru afacerea dvs. Dacă vă decideți să utilizați LinkedIn ca instrument de marketing, va trebui doar să obțineți o nouă campanie de anunțuri în lucrări. Când sunteți gata să începeți o nouă campanie, urmați acești pași:

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Ce opțiuni de filtrare aveți pentru anunțul dvs. LinkedIn? Alte rețele de publicitate vă permit să filtrați publicul vizat de câteva atribute cunoscute ale persoanei care vă va vedea anunțul, sexul și locația membrilor din public. LinkedIn vă permite să faceți un pas mai departe permițându-vă ...

Oferind și primind viziuni pe LinkedIn - manechine

Oferind și primind viziuni pe LinkedIn - manechine

Deși mulți oameni cred că "Nu este ceea ce știi, știi, "care este unul dintre principalele motive pentru care LinkedIn este atât de valoros, mulți oameni (recrutorii, angajații, directorii executivi, investitorii și altele) sunt foarte interesați de ceea ce știi. În mod logic, oamenii care vă cunosc cel mai bine sunt oamenii din rețeaua dvs., care ...