Video: Kenneth Cukier: Big data is better data 2024
Ideea motoarelor ETL inspirată de Hadoop a câștigat multă tracțiune în ultimii ani. La urma urmei, Hadoop este o platformă flexibilă de stocare și procesare a datelor care poate suporta cantități uriașe de date și operații pe aceste date. În același timp, este tolerant la erori și oferă posibilitatea reducerii costurilor de capital și software.
În ciuda popularității lui Hadoop ca motor ETL, totuși, mulți oameni (inclusiv o firmă cunoscută de analiști) nu recomandă Hadoop ca singura tehnologie pentru strategia dvs. ETL. Acest lucru se datorează în mare parte faptului că dezvoltarea fluxurilor de ETL necesită o vastă experiență în ceea ce privește sistemele de baze de date existente ale organizației dvs., natura datelor în sine și rapoartele și aplicațiile care depind de acestea.
Trebuie să codificați elemente cum ar fi depanarea paralelă, serviciile de gestionare a aplicațiilor (cum ar fi verificarea punctajului și eroare și tratarea evenimentelor). De asemenea, luați în considerare cerințele întreprinderii, cum ar fi glosarea și posibilitatea de a vă arăta linia de date.
Chiar și pentru sistemele de baze de date relaționale, ETL este destul de complexă încât există produse populare specializate care oferă interfețe pentru gestionarea și dezvoltarea fluxurilor ETL. Unele dintre aceste produse ajută acum la dezvoltarea bazată pe Hadoop ETL și la alte dezvoltări bazate pe Hadoop. Cu toate acestea, în funcție de cerințele dvs., este posibil să aveți nevoie să scrieți câteva coduri proprii pentru a vă susține logica transformării.