Video: PowerPivot Curs Excel | Importul datelor dintr-o baza de date Microsoft Sql server 2024
Gata să se scufunde în importul de date cu Sqoop? Începeți prin a arunca o privire la figura, care ilustrează pașii dintr-o operație tipică de import Sqoop dintr-un sistem RDBMS sau dintr-un sistem de stocare de date. Nimic nu este prea complicat aici - doar un tabel tipic al produselor dintr-o companie (tipică) fictivă fiind importat într-un cluster tipic Apache Hadoop dintr-un sistem tipic de gestionare a datelor (DMS).
În timpul etapei 1, Sqoop utilizează conectorul corespunzător pentru a prelua metadatele din tabelul Produse din DMS destinație. (Metadatele este folosit pentru a mapa tipurile de date din tabelul de produse pentru tipurile de date în limbajul Java.)
Pasul 2 utilizează apoi aceste metadate pentru a genera și compila o clasă Java care vor fi utilizate de către una sau mai multe sarcini hartă pentru a importați rândurile reale din tabelul Produse. Sqoop salvează clasa Java generată în spațiul temp sau într-un director pe care îl specificați, astfel încât să îl puteți folosi pentru procesarea ulterioară a înregistrărilor de date.
Sqoop-ul generat cod Java care este salvat pentru tine este ca un cadou care continua sa dea! Cu acest cod, Sqoop importă înregistrările de la DMS și le stochează în HDFS folosind unul din cele trei formate pe care le puteți alege: date binare Avro, fișiere de secvențe binare sau fișiere text delimitate. Ulterior, acest cod este disponibil pentru prelucrarea ulterioară a datelor.
fișiere de secvență sunt o alegere naturală, dacă importați tipuri de date binare și veți avea nevoie de clasa Java generate de serializat și deserializati datele mai târziu - probabil pentru prelucrare MapReduce sau exportatoare. Datele Avro - bazate pe propriul cadru de serializare Apache - sunt utile dacă trebuie să interacționați cu alte aplicații după importul în HDFS.
Dacă alegeți să stocați datele importate în format text delimitat, este posibil să găsiți codul Java generat mai târziu pe parcursul parcurgerii și efectuării conversiilor formatelor de date pe noile date. Veți vedea că și codul generat vă ajută să îmbinați seturile de date după operațiile de import Sqoop, iar codul Java generat poate ajuta la evitarea ambiguității atunci când procesați date de text delimitate.
În sfârșit, în etapa 3, Sqoop împarte înregistrările de date din tabelul produse într-o serie de sarcini hartă (cu numărul de cartografii opțional specificate de utilizator) și importă datele din tabel în HDFS, Stup sau HBase.