Gestionarea Big Data Technologies într-un cloud hibrid - dummies

Termenul date mari este folosit adesea în lumea tehnologiilor cloud hibride din cauza necesității continue de a procesa cantități tot mai mari de date. Faptul cheie privind datele importante este că există la punctul de vârf al soluțiilor pe care organizațiile le-au pus în practică în trecut pentru a gestiona volume mari de date complexe. Tehnologiile de date mari permit oamenilor să analizeze și să utilizeze efectiv aceste date în mod eficient.

Datele mari au în general trei caracteristici - volum, varietate și viteză:

Volum:

Datele mari sunt mari în volum. Se referă, în general, la cel puțin mai multe terabyte de date. Multe implementări de date mari încearcă să analizeze câțiva kilograme de informații. Nume

Valoare	byte
10	0 ^Gigabyte
10	9 ^bytes Teraoctet
10	12 > octeți ^{Petaoctet> 10} 15
bytes	Exabyte ¹⁰ 18
bytes	^Varietate: Datele mari provin în diferite forme și dimensiuni. Acestea includ aceste tipuri de date:

Datele structurate

reprezintă tipul tipic de date pe care analiștii îl folosesc pentru a face față. Acesta include veniturile și numărul de vânzări - tipul de date despre care vă gândiți inclusiv într-o bază de date. Datele structurate sunt, de asemenea, produse în moduri noi în produse precum senzorii și etichetele RFID.
- Datele semistructurate au o anumită structură, dar nu în modul în care vă gândiți la tabele într-o bază de date. Acesta include formate EDI și XML.
  Datele nestructurate
- includ text, imagine și audio, inclusiv orice document, mesaj e-mail, tweet sau blog intern al unei companii sau pe Internet. Datele nestructurate reprezintă aproximativ 80% din toate datele. Viteza:
- Aceasta este viteza cu care se mută datele. Gândiți-vă la senzorii capturați date la fiecare milisecundă sau la fluxurile de date provenite de la echipamentul medical. Datele mari sunt adesea aduse la tine într-un flux, deci are o relație în timp real asociată cu ea. Norul este un loc ideal pentru date mari datorită stocării scalabile, a puterii de calcul și a resurselor elastice. Modelul nor este pe scară largă; distribuite de calculatoare și o serie de cadre și tehnologii au apărut pentru a sprijini acest model, inclusiv
Apache Hadoop: O platformă de calcul distribuită open source scrisă în Java. Este o bibliotecă software care permite procesarea distribuită pe grupuri de computere. Este un sistem de fișiere distribuit. Creează un bazin de calculatoare, fiecare cu un sistem de fișiere Hadoop. Hadoop a fost conceput pentru a face față unor cantități mari de date complexe.Datele pot fi structurate, nestructurate sau semistructurate. Hadoop poate rula peste o mulțime de servere care nu împart memoria sau discul. Vedeți Hadoop pentru mai multe informații.

MapReduce:

Un cadru de software introdus de Google pentru a sprijini calculul distribuit pe seturi mari de date. Este în centrul a ceea ce face Hadoop cu date mari și analize de date mari. Este conceput pentru a profita de resursele nor. Acest calcul se face pe numeroase computere, numite clustere
, iar fiecare cluster este denumit nod . MapReduce poate face față atât datelor structurate, cât și celor nestructurate. Utilizatorii specifică o funcție de hartă care procesează o pereche cheie / valoare pentru a genera un set de perechi intermediare și o funcție de reducere care combină aceste perechi. Baze de date mari de date Unul dintre aprecierile importante ale lui Hadoop este că poate gestiona diferite tipuri de date. Sistemele de gestionare a bazelor de date paralele au fost pe piață de zeci de ani. Ele pot sprijini execuția paralelă deoarece majoritatea tabelelor sunt împărțite peste nodurile unui cluster și pot traduce comenzi SQL într-un plan împărțit între nodurile din cluster. Cu toate acestea, ele se ocupă în mare parte de date structurate, deoarece este greu să se potrivească datelor nestructurate, în formă liberă, în coloane și rânduri într-un model relațional. Hadoop a început o mișcare în ceea ce a fost numit

NoSQL,

care înseamnă nu numai SQL. Termenul se referă la un set de tehnologii diferite de sistemele de baze de date relaționale. O diferență majoră este că nu utilizează SQL. Ele sunt, de asemenea, concepute pentru stocarea datelor distribuite.

NoSQL nu înseamnă că oamenii nu ar trebui să utilizeze SQL. Mai degrabă, ideea este că, în funcție de problema dvs., bazele de date relaționale și bazele de date NoSQL pot coexista într-o organizație. Există numeroase exemple de astfel de baze de date, incluzând următoarele: Apache Cassandra: Un sistem de gestionare a datelor distribuite cu sursă deschisă inițial dezvoltat de Facebook. Nu are cerințe stricte de structură, astfel încât să poată gestiona toate tipurile diferite de date. Experții susțin că excelează la procesarea în timp real a tranzacțiilor în timp real. Alte baze de date open source includ MongoDB, Apache CouchDB și Apache HBase.

Amazon Simple DB:

Amazon simulează această bază de date într-o foaie de calcul în sensul că are coloane și rânduri cu atribute și articole stocate în fiecare. Spre deosebire de o foaie de calcul, totuși, fiecare celulă poate avea mai multe valori și fiecare element poate avea propriul set de atribute asociate. Amazon apoi indexează automat datele. Recent, Amazon a anunțat Amazon Dynamo DB ca o modalitate de a aduce noștri mari date NoSQL la nor. Google BigTable:
Acest hibrid este un fel de masă mare. Deoarece tabelele pot fi mari, ele sunt împărțite la limitele rândului în tabele, care ar putea fi sute de megabiți sau cam așa ceva. MapReduce este adesea folosit pentru generarea și modificarea datelor stocate în BigTable.