Performanță și Big Data - dummies - Finanțe personale 2024

Video: Modular Data Center Supports Ground Breaking Genome Research Analytics | Schneider Electric 2024

Doar un calculator mai rapid nu este suficient pentru a asigura nivelul corect de performanță pentru a gestiona datele mari. Trebuie să puteți distribui componente ale serviciului dvs. mare de date într-o serie de noduri. În calculul distribuit, un nod este un element conținut într-un grup de sisteme sau într-un rack.

Un nod include de obicei CPU, memorie și un fel de disc. Cu toate acestea, un nod poate fi, de asemenea, un procesor blade și o memorie care se bazează pe stocarea în apropiere într-un rack.

Într-un mediu mare de date, aceste noduri sunt în mod obișnuit grupate pentru a oferi scară. De exemplu, este posibil să începeți o analiză importantă a datelor și să continuați să adăugați mai multe surse de date. Pentru a face față creșterii, o organizație adaugă pur și simplu mai multe noduri într-un grup astfel încât să poată fi adaptat cerințelor în creștere.

Totuși, nu este suficient să extindeți pur și simplu numărul de noduri din cluster. Mai degrabă, este important să puteți trimite o parte din analiza mare a datelor către medii fizice diferite. În cazul în care trimiteți aceste sarcini și cum le gestionați, faceți diferența între succes și eșec.

În unele situații complexe, poate doriți să executați alți algoritmi în paralel, chiar și în cadrul aceluiași grup, pentru a atinge viteza de analiză necesară. De ce ați executa algoritmi diferiți de date în paralel în același rack? Cu cât sunt mai aproape de distribuțiile funcțiilor, cu atât mai repede se pot executa.

Deși este posibilă distribuirea unei analize de date de mari dimensiuni în cadrul rețelelor pentru a profita de capacitatea disponibilă, trebuie să faceți acest tip de distribuție pe baza cerințelor de performanță. În unele situații, viteza de procesare are loc pe bancheta din spate. Cu toate acestea, în alte situații, obținerea rapidă a rezultatelor este cerința. În această situație, doriți să vă asigurați că funcțiile de rețea se află în imediata apropiere unul față de celălalt.

În general, mediul de date mare trebuie optimizat pentru tipul de activitate de analiză. Prin urmare, scalabilitatea este linia mare de a face datele mari să funcționeze cu succes. Deși ar fi teoretic posibil să se folosească un mediu mare de date într-un singur mediu mare, nu este practic.

Pentru a înțelege nevoile de scalabilitate în datele mari, trebuie doar să analizăm scalabilitatea cloud și să înțelegem atât cerințele, cât și abordarea. Ca și cloud computing, datele importante necesită includerea de rețele rapide și clustere ieftine de hardware care pot fi combinate în rafturi pentru a crește performanța. Aceste clustere sunt susținute de automatizarea software-ului care permite scalarea dinamică și echilibrarea încărcării.

Designul și implementările MapReduce sunt exemple excelente ale modului în care calculul distribuit poate face din datele operaționale vizibile și accesibile. În esență, companiile se află la unul dintre punctele unice de cotitură în domeniul calculului în care conceptele tehnologice se întâlnesc la momentul potrivit pentru a rezolva problemele corecte. Combinând computerele distribuite, sistemele hardware îmbunătățite și soluțiile practice precum MapReduce și Hadoop schimba gestionarea datelor în moduri profunde.