Video: Rethinking Big Data Analytics with Google Cloud (Cloud Next '18) 2024
Pentru majoritatea oamenilor, termenul Dremel vă aduce în minte un instrument la îndemână, de mare viteză și cu cuplu redus, care funcționează bine pentru o varietate de locuri de muncă în jurul casei. Dar știați că Google a creat un Dremel? În loc să producă un alt instrument mecanic portabil , Google a ales un instrument software rapid destinat analizei interactive a datelor mari.
Ca și în cazul altor tehnologii Google care au inspirat părți din ecosistemul Hadoop, cum ar fi MapReduce, Google File System (HDFS) și BigTable (a se vedea HBase), Google a dezvoltat Dremel pentru utilizare internă și apoi a publicat o lucrare care descrie scopul și designul a tehnologiei. (Cu alte cuvinte, Dremel nu este ceva ce poți descărca și utiliza pe clusterul tău Hadoop.)
Google utilizează Dremel pentru o varietate de activități, inclusiv analizarea documentelor crawlere pe internet, detectarea mesajelor de e-mail spam, lucrul în rapoartele de impact ale aplicațiilor și multe altele. Serviciul Google BigQuery utilizează de fapt Dremel.
Google a proiectat tehnologia MapReduce pentru prelucrarea în serie pe seturi masive de date. Pe măsură ce nevoile lor au evoluat, tehnologia lor a făcut-o, iar Google a decis să creeze Dremel pentru a îmbunătăți performanța pentru interogări interactive împotriva seturilor mari de date.
Abordarea MapReduce oferă scalabilitate și toleranță la erori de interogare, dar este fundamental un sistem pe bază de loturi, deci timpii de răspuns pentru interogări mai mici (interogări care implică doar o mică parte dintr-un întreg set de date, de exemplu) nu sunt adesea ceea ce așteaptă utilizatorii.
Deci, Google a dezvoltat o tehnologie de executare a interogărilor concepute pentru interogări interactive, care rulează pe servere intermediare în partea de sus a Sistemului de fișiere Google (GFS). (Rețineți că GFS a fost inspirația pentru Apache HDFS, sistem de fișiere al lui Hadoop.)
Similar cu Hive, Dremel folosește un limbaj asemănător cu SQL (familiar pentru majoritatea programatorilor) și folosește o structură de date coloană. Dremel oferă răspuns interogatoriu rapid, interactiv, păstrând în același timp scalabilitatea și toleranța la erori găsită în Apache Hive. În documentul Dremel, Google explică modul în care poate efectua interogări de agregare în câteva secunde peste mese cu trilioane de rânduri - nu este deloc rău.
Google are tehnologia Dremel, pe care o folosește intern, dar toate tehnologiile sunt "inspirate de" Dremel (un fel de parfumuri inspirat de "Drakkar Noir").