Video: Gogea, porcul 2024
Pig Latin este limba pentru programele Pig. Porcul traduce scriptul Pig Latin în sarcinile MapReduce care pot fi executate în cadrul clusterului Hadoop. Când veniți cu Pig Latin, echipa de dezvoltare a urmat trei principii de proiectare cheie:
-
Mențineți-o simplu . Pig Latin oferă o metodă simplificată pentru interacțiunea cu Java MapReduce. Este o abstracție, cu alte cuvinte, care simplifică crearea de programe paralele pe clusterul Hadoop pentru fluxuri de date și analize. Sarcinile complexe pot necesita o serie de transformări de date interdependente - astfel de serii sunt codificate ca secvențe de fluxuri de date .
Scrierea transformărilor și fluxurilor de date ca scripturi latine Pig în loc de programele Java MapReduce face ca aceste programe să fie mai ușor de scris, înțeleg și menținut deoarece a) nu trebuie să scrieți lucrarea în Java, b) nu trebuie să gândiți în termeni de MapReduce și c) nu trebuie să veniți cu cod personalizat pentru a sprijini tipuri de date bogate.
Porcul latin oferă o limbă mai simplă pentru a exploata clusterul dvs. Hadoop, facilitând astfel mai multor oameni să profite de puterea lui Hadoop și să devină mai productivi mai devreme.
-
Faceți-o inteligentă. Poți să-ți amintești că Pig Latin Compiler face lucrarea de transformare a unui program Pig Latin într-o serie de lucrări Java MapReduce. Trucul este să vă asigurați că compilatorul poate optimiza automat executarea acestor sarcini Java MapReduce, permițând utilizatorului să se concentreze mai degrabă pe semantică decât pe modul de optimizare și accesare a datelor.
Pentru dvs. tipurile SQL acolo, această discuție va suna familiar. SQL este configurat ca o interogare declarativă pe care o utilizați pentru a accesa datele structurate stocate într-o RDBMS. Motorul RDBMS traduce mai întâi interogarea într-o metodă de acces la date și apoi analizează statisticile și generează o serie de abordări privind accesul la date. Optimizatorul bazat pe costuri alege cea mai eficientă abordare pentru execuție.
-
Nu limitați dezvoltarea. Asigurați-Pig extensibil, astfel încât dezvoltatorii pot adăuga funcții pentru a aborda problemele lor de afaceri specifice.
e extrageți datele din surse externe, t transformați-o astfel încât să se potrivească nevoilor dvs. operaționale și apoi > l o faceți în ținta finală, fie că este vorba despre un magazin de date operațional, un depozit de date sau o altă variantă a bazei de date. Cu toate acestea, cu date mari, de obicei, doriți să reduceți cantitatea de date pe care ați deplasat-o, astfel încât să ajungeți la aducerea procesării la datele în sine.
E extrageți datele din diverse surse, l oad în HDFS și apoi t transformați-o după cum este necesar pentru a pregăti datele pentru o analiză ulterioară.