Acasă Finanțe personale Hadoop Integration with R - dummies

Hadoop Integration with R - dummies

Cuprins:

Video: Apache Hadoop Tutorial | Hadoop Tutorial For Beginners | Big Data Hadoop | Hadoop Training | Edureka 2024

Video: Apache Hadoop Tutorial | Hadoop Tutorial For Beginners | Big Data Hadoop | Hadoop Training | Edureka 2024
Anonim

La început, datele mari și R nu erau prieteni naturali. Programarea R necesită încărcarea tuturor obiectelor în memoria principală a unei singure mașini. Limitările acestei arhitecturi sunt realizate rapid atunci când datele mari devin o parte a ecuației.

În contrast, sistemele de fișiere distribuite, cum ar fi Hadoop, lipsesc tehnicile statistice puternice, dar sunt ideale pentru scalarea operațiilor și sarcinilor complexe. Soluțiile verticale de scalare - care necesită investiții în hardware-ul supercomputer costisitor - adesea nu pot concura cu rentabilitatea oferită de grupurile distribuite de hardware.

Pentru a se conforma limitărilor în memorie, de o singură mașină a limbajului R, oamenii de știință de date trebuiau adesea să restrângă analiza numai la un subset din datele de probă disponibile. Înainte de o integrare mai profundă cu Hadoop, programatorii de limbaj R au oferit o strategie de scalare pentru depășirea provocărilor în memorie generate de seturi de date mari pe mașini unice.

Acest lucru a fost realizat folosind sisteme de transmitere a mesajelor și paginare. Această tehnică este capabilă să faciliteze lucrul cu seturi de date prea mari pentru a fi stocate simultan în memoria principală; cu toate acestea, abordarea programării la nivel scăzut prezintă o curbă abruptă de învățare pentru cei care nu cunosc paradigmele programării paralele.

Abordările alternative urmăresc integrarea capabilităților statistice ale R cu clusterele distribuite de Hadoop în două moduri: interfața cu limbile de interogare SQL și integrarea cu Hadoop Streaming. Cu primul, scopul este de a pârghii existente platforme SQL de stocare a datelor, cum ar fi stup și porc. Aceste scheme simplifică programarea de lucru Hadoop utilizând declarații în stil SQL pentru a oferi programare la nivel înalt pentru efectuarea de activități statistice pe baza datelor Hadoop.

Pentru programatorii care doresc să programeze locații de lucru MapReduce în limbi (inclusiv R), altele decât Java, oa doua opțiune este de a utiliza API-ul Streaming al Hadoop. Lucrările MapReduce trimise de utilizator sunt supuse transformărilor de date cu ajutorul fluxurilor standard și serializării UNIX, garantând intrarea în conformitate cu Java a lui Hadoop - indiferent de limba inițială introdusă de programator.

Dezvoltatorii continuă să exploreze diferite strategii pentru a mobiliza capacitatea de calcul distribuită a MapReduce și capacitatea de stocare aproape nelimitată a HDFS în moduri care pot fi exploatate de R.

Integrarea Hadoop cu R este în curs de desfășurare, ofertele fiind disponibile de la IBM (Big R ca parte a BigInsights) și Revolution Analytics (Revolution R Enterprise). Soluțiile de corelare care integrează programarea la nivel înalt și limbile de interogare cu Hadoop, cum ar fi RHive și RHadoop, sunt, de asemenea, disponibile.

În mod fundamental, fiecare sistem își propune să furnizeze capacitățile analitice profunde ale limbajului R la seturi mult mai mari de date.

RHive

Cadrul RHive servește ca o punte între limbajul R și stup. RHive livrează bibliotecile statistice bogate și algoritmii lui R la datele stocate în Hadoop prin extinderea limbajului de interogare Hive SQL (HiveQL) cu funcții specifice R. Prin intermediul funcțiilor RHive, puteți utiliza HiveQL pentru a aplica modele statistice R la datele din clusterul dvs. Hadoop pe care le-ați catalogat folosind Hive.

RHadoop

Un alt cadru open source disponibil programatorilor R este RHadoop, o colecție de pachete destinate să ajute la gestionarea distribuției și analizei datelor cu Hadoop. Trei pachete de note - rmr2, rhdfs și rhbase - asigură cea mai mare parte a funcționalității RHadoop:

  • rmr2: Pachetul rmr2 acceptă traducerea limbajului R în joburile MapReduce compatibile cu Hadoop (producătoare de cod MapReduce de la codul R de nivel superior).

  • rhdfs: Pachetul rhdfs oferă un API pentru limbajul R pentru gestionarea fișierelor în magazinele HDFS. Utilizând rhdfs, utilizatorii pot citi din magazinele HDFS un cadru de date R (matrice) și, în mod similar, pot scrie date din aceste matrice R înapoi în spațiul de stocare HDFS.

  • rhbase: pachetele rhbase oferă și un limbaj AP API, dar scopul lor în viață este de a gestiona gestionarea bazelor de date pentru magazinele HBase, mai degrabă decât fișierele HDFS.

Revoluția R

Revoluția R (de Revolution Analytics) este o ofertă comercială R cu suport pentru integrarea R pe sistemele distribuite Hadoop. Revoluția R promite să producă performanțe îmbunătățite, funcționalitate și utilizare pentru R on Hadoop. Pentru a oferi analize profunde asemănătoare cu R, Revolution R folosește biblioteca ScaleR a companiei - o colecție de algoritmi de analiză statistică dezvoltați special pentru colecții mari de date la scară industrială.

ScaleR își propune să asigure executarea rapidă a codului de program R pe clusterele Hadoop, permițând dezvoltatorului R să se concentreze exclusiv asupra algoritmilor statistici și nu pe MapReduce. Mai mult, gestionează numeroase sarcini de analiză, cum ar fi pregătirea datelor, vizualizarea și testele statistice.

IBM BigInsights Big R

Big R oferă o integrare end-to-end între R și oferta IBM Hadoop, BigInsights, care permite dezvoltatorilor R să analizeze datele Hadoop. Scopul este să exploateze sintaxa de programare a R și paradigmele de codificare, asigurând în același timp că datele funcționează la șederea în HDFS. Datele de tip R servesc drept proxy pentru aceste stocări de date, ceea ce înseamnă că dezvoltatorii R nu trebuie să se gândească la construcțiile MapReduce de nivel inferior sau la orice limbaj de scripting specifice Hadoop (cum ar fi Pig).

Tehnologia BigInsights Big R suportă mai multe surse de date - inclusiv fișierele plate, formatele de stocare HBase și Hive - oferind în același timp paralel și partiționat execuția codului R în grupul Hadoop. Acesta ascunde multe dintre complexitățile din cadrele HDFS și MapReduce care stau la baza, permițând funcțiilor Big R să efectueze analize de date comprehensive - atât pe date structurate cât și nestructurate.

În cele din urmă, scalabilitatea motorului statistic Big R permite dezvoltatorilor R să utilizeze tehnicile statistice predefinite, precum și algoritmii noi de autor.

Hadoop Integration with R - dummies

Alegerea editorilor

Administrator de rețea: Zone de căutare inversă - dummies

Administrator de rețea: Zone de căutare inversă - dummies

Interogări DNS obișnuite sunt interogări de căutare înainte corespunde unui nume de domeniu complet calificat. O căutare inversă este opusul unei căutări forward: returnează numele de domeniu complet calificat al unei gazde pe baza adresei sale IP. Căutările inverse sunt posibile din cauza unui domeniu special numit ...

Rețea Elemente de bază: Clienți și servere - manechine

Rețea Elemente de bază: Clienți și servere - manechine

Computerul de rețea care conține hard disk-urile, imprimantele și alte resurse care sunt partajate cu alte calculatoare de rețea se numește un server. Acest termen vine în repetate rânduri, deci trebuie să-l amintiți. Scrie-o pe spatele mâinii tale stângi. Orice computer care nu este un server este numit client. Aveți ...

Retea Bazele: Poduri - dummies

Retea Bazele: Poduri - dummies

O punte este un dispozitiv care conecteaza doua retele astfel incat sa actioneze ca si cum ar fi o rețea. Podurile sunt utilizate pentru a împărți o rețea mare în două rețele mai mici din motive de performanță. Vă puteți gândi la un pod ca pe un repetor inteligent. Repetoarele ascultă semnale care coboară pe un cablu de rețea, amplifică ...

Alegerea editorilor

ÎMprumuta și tweak idei de la alte comunități online - dummies

ÎMprumuta și tweak idei de la alte comunități online - dummies

, Mai degrabă decât să ia ideile altcuiva complet pentru dvs. comunitate online, încercați să riffați pe aceeași idee, dar nu atât de mult încât este evident că nu sunteți creierul din spatele brainstorming-ului. Idei sunt acolo pentru a lua, dar nu ar fi mai degrabă văzute ca cineva inovatoare, nu cineva care scours pe web ...

Branding Blogul tău

Branding Blogul tău

Branding blog-ul tău merge mult spre a face dacă este ușor de recunoscut pentru cititorii tăi. Când vedeți un punct roșu în interiorul unui cerc roșu, ce magazin vine în minte? Ce zici de acele arcuri de aur? Un nume de marcă apare în minte atunci când vedeți simbolul swoosh? La fel ca magazinele populare, restaurantele și încălțămintea ...

Construiți un Blog Mama care este Sellable - dummies

Construiți un Blog Mama care este Sellable - dummies

Dacă obiectivul pe termen lung este de a vinde blogul dvs. ar trebui să o construiască cu acest scop în minte. Evitați asocierea prea intensă a blogului cu marca dvs. personală. Un blog care poate fi valoros cu orice scriitor la cârma trebuie să îndeplinească majoritatea, dacă nu toate, următoarele criterii: Blogul este concentrat ...

Alegerea editorilor

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

LinkedIn oferă servicii de publicitate pentru afacerea dvs. Dacă vă decideți să utilizați LinkedIn ca instrument de marketing, va trebui doar să obțineți o nouă campanie de anunțuri în lucrări. Când sunteți gata să începeți o nouă campanie, urmați acești pași:

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Ce opțiuni de filtrare aveți pentru anunțul dvs. LinkedIn? Alte rețele de publicitate vă permit să filtrați publicul vizat de câteva atribute cunoscute ale persoanei care vă va vedea anunțul, sexul și locația membrilor din public. LinkedIn vă permite să faceți un pas mai departe permițându-vă ...

Oferind și primind viziuni pe LinkedIn - manechine

Oferind și primind viziuni pe LinkedIn - manechine

Deși mulți oameni cred că "Nu este ceea ce știi, știi, "care este unul dintre principalele motive pentru care LinkedIn este atât de valoros, mulți oameni (recrutorii, angajații, directorii executivi, investitorii și altele) sunt foarte interesați de ceea ce știi. În mod logic, oamenii care vă cunosc cel mai bine sunt oamenii din rețeaua dvs., care ...