Acasă Finanțe personale Gestionarea Big Data Technologies într-un cloud hibrid - dummies

Gestionarea Big Data Technologies într-un cloud hibrid - dummies

Cuprins:

Video: 4D4F-Data Management 2024

Video: 4D4F-Data Management 2024
Anonim

Termenul date mari este folosit adesea în lumea tehnologiilor cloud hibride din cauza necesității continue de a procesa cantități tot mai mari de date. Faptul cheie privind datele importante este că există la punctul de vârf al soluțiilor pe care organizațiile le-au pus în practică în trecut pentru a gestiona volume mari de date complexe. Tehnologiile de date mari permit oamenilor să analizeze și să utilizeze efectiv aceste date în mod eficient.

Datele mari au în general trei caracteristici - volum, varietate și viteză:

Volum:

  • Datele mari sunt mari în volum. Se referă, în general, la cel puțin mai multe terabyte de date. Multe implementări de date mari încearcă să analizeze câțiva kilograme de informații. Nume

    Valoare byte
    10 0 Gigabyte
    10 9 bytes Teraoctet
    10 12 > octeți Petaoctet> 10 15
    bytes Exabyte 10 18
    bytes
    Varietate: Datele mari provin în diferite forme și dimensiuni. Acestea includ aceste tipuri de date:
    Datele structurate
  • reprezintă tipul tipic de date pe care analiștii îl folosesc pentru a face față. Acesta include veniturile și numărul de vânzări - tipul de date despre care vă gândiți inclusiv într-o bază de date. Datele structurate sunt, de asemenea, produse în moduri noi în produse precum senzorii și etichetele RFID.

    • Datele semistructurate au o anumită structură, dar nu în modul în care vă gândiți la tabele într-o bază de date. Acesta include formate EDI și XML.

      Datele nestructurate
    • includ text, imagine și audio, inclusiv orice document, mesaj e-mail, tweet sau blog intern al unei companii sau pe Internet. Datele nestructurate reprezintă aproximativ 80% din toate datele. Viteza:

    • Aceasta este viteza cu care se mută datele. Gândiți-vă la senzorii capturați date la fiecare milisecundă sau la fluxurile de date provenite de la echipamentul medical. Datele mari sunt adesea aduse la tine într-un flux, deci are o relație în timp real asociată cu ea. Norul este un loc ideal pentru date mari datorită stocării scalabile, a puterii de calcul și a resurselor elastice. Modelul nor este pe scară largă; distribuite de calculatoare și o serie de cadre și tehnologii au apărut pentru a sprijini acest model, inclusiv

  • Apache Hadoop: O platformă de calcul distribuită open source scrisă în Java. Este o bibliotecă software care permite procesarea distribuită pe grupuri de computere. Este un sistem de fișiere distribuit. Creează un bazin de calculatoare, fiecare cu un sistem de fișiere Hadoop. Hadoop a fost conceput pentru a face față unor cantități mari de date complexe.Datele pot fi structurate, nestructurate sau semistructurate. Hadoop poate rula peste o mulțime de servere care nu împart memoria sau discul. Vedeți Hadoop pentru mai multe informații.

MapReduce:

  • Un cadru de software introdus de Google pentru a sprijini calculul distribuit pe seturi mari de date. Este în centrul a ceea ce face Hadoop cu date mari și analize de date mari. Este conceput pentru a profita de resursele nor. Acest calcul se face pe numeroase computere, numite clustere

  • , iar fiecare cluster este denumit nod . MapReduce poate face față atât datelor structurate, cât și celor nestructurate. Utilizatorii specifică o funcție de hartă care procesează o pereche cheie / valoare pentru a genera un set de perechi intermediare și o funcție de reducere care combină aceste perechi. Baze de date mari de date Unul dintre aprecierile importante ale lui Hadoop este că poate gestiona diferite tipuri de date. Sistemele de gestionare a bazelor de date paralele au fost pe piață de zeci de ani. Ele pot sprijini execuția paralelă deoarece majoritatea tabelelor sunt împărțite peste nodurile unui cluster și pot traduce comenzi SQL într-un plan împărțit între nodurile din cluster. Cu toate acestea, ele se ocupă în mare parte de date structurate, deoarece este greu să se potrivească datelor nestructurate, în formă liberă, în coloane și rânduri într-un model relațional. Hadoop a început o mișcare în ceea ce a fost numit

NoSQL,

care înseamnă nu numai SQL. Termenul se referă la un set de tehnologii diferite de sistemele de baze de date relaționale. O diferență majoră este că nu utilizează SQL. Ele sunt, de asemenea, concepute pentru stocarea datelor distribuite.

NoSQL nu înseamnă că oamenii nu ar trebui să utilizeze SQL. Mai degrabă, ideea este că, în funcție de problema dvs., bazele de date relaționale și bazele de date NoSQL pot coexista într-o organizație. Există numeroase exemple de astfel de baze de date, incluzând următoarele: Apache Cassandra: Un sistem de gestionare a datelor distribuite cu sursă deschisă inițial dezvoltat de Facebook. Nu are cerințe stricte de structură, astfel încât să poată gestiona toate tipurile diferite de date. Experții susțin că excelează la procesarea în timp real a tranzacțiilor în timp real. Alte baze de date open source includ MongoDB, Apache CouchDB și Apache HBase.

Amazon Simple DB:

  • Amazon simulează această bază de date într-o foaie de calcul în sensul că are coloane și rânduri cu atribute și articole stocate în fiecare. Spre deosebire de o foaie de calcul, totuși, fiecare celulă poate avea mai multe valori și fiecare element poate avea propriul set de atribute asociate. Amazon apoi indexează automat datele. Recent, Amazon a anunțat Amazon Dynamo DB ca o modalitate de a aduce noștri mari date NoSQL la nor. Google BigTable:

  • Acest hibrid este un fel de masă mare. Deoarece tabelele pot fi mari, ele sunt împărțite la limitele rândului în tabele, care ar putea fi sute de megabiți sau cam așa ceva. MapReduce este adesea folosit pentru generarea și modificarea datelor stocate în BigTable.

Gestionarea Big Data Technologies într-un cloud hibrid - dummies

Alegerea editorilor

Social Media Design: Twitter Opțiuni imagine - dummy

Social Media Design: Twitter Opțiuni imagine - dummy

Jonglați constrângerile legate de spațiu și modul cel mai bun de a poziționa cele trei imagini separate pe care vi se permite să le utilizați în profilul dvs. Twitter.

Social Media Design: Inspirând exemplele de afaceri pe Facebook - manechine

Social Media Design: Inspirând exemplele de afaceri pe Facebook - manechine

ÎNainte de scufundări în elementele de bază ale proiectării o pagină solidă Facebook, aruncați o privire asupra unor branduri care profită din plin de Facebook cu pagini proprii. Persoanele fizice și organizațiile de la bloggeri la proprietarii de magazine Etsy de la domiciliu la branduri internaționale folosesc Facebook pentru a se conecta cu clienții și fanii existenți, precum și cu potențialul lor ...

Social Media Optimization: Publicarea Tweets automat la profilul dvs. Facebook - dummies

Social Media Optimization: Publicarea Tweets automat la profilul dvs. Facebook - dummies

Lucrurile noi pe care să le postați pe Facebook pot fi o adevărată corvoadă. Din fericire, există un truc pe care îl puteți optimiza pe acest site media social. Dacă puteți atinge postarea încrucișată a conținutului între servicii, vă puteți salva ceva timp. Twitter vă oferă posibilitatea de a vă conecta profilul cu alte servicii. Există, ...

Alegerea editorilor

Cum se verifică performanța sistemului cu AWS - dummies

Cum se verifică performanța sistemului cu AWS - dummies

AWS (Amazon Web Services) metode pentru monitorizarea serviciilor specifice AWS. Cu toate acestea, este posibil să aveți probleme de performanță a sistemului sau probleme de aplicare non-AWS care trebuie abordate, ceea ce înseamnă că aveți instrumente care pot funcționa în afara AWS. Pachetul de grupuri de instrumente de performanță conține un număr de instrumente specifice pentru realizarea acestei sarcini ...

Cum să alegeți serviciile AWS de care aveți nevoie - dummies

Cum să alegeți serviciile AWS de care aveți nevoie - dummies

Amintiți-vă că aveți doar 12 luni de libertate proces în care să se ia decizii privind serviciile AWS (Servicii Amazon Web) pe care să le utilizați în afacerea dvs. Douăsprezece luni pot părea mult timp, dar veți descoperi că se evaporă înaintea ochilor dvs. în timp ce încercați să vă jonglați responsabilitățile zilnice, întâlnirile ...

Probleme de securitate aWS - dummy

Probleme de securitate aWS - dummy

Pentru a utiliza AWS (Amazon Web Services) cale. Administratorii și profesioniștii în domeniul securității se pot răzbuna rapid, încercând să păstreze aceste computere interconectate în siguranță, dar aceasta face parte din descrierea postului. Trebuie să urmați cele mai bune practici în securizarea sistemelor informatice, a datelor pe care le conțin, ...

Alegerea editorilor

Cum se asamblează o Circuit de organe color - dummies

Cum se asamblează o Circuit de organe color - dummies

După ce ați strâns toate materialele de care aveți nevoie construiți un organ de culoare, sunteți gata să asamblați proiectul. Vedeți ce aveți nevoie pentru a construi un circuit de organe color. Veți avea nevoie de următoarele instrumente: Sârma de lipit, de preferință cu setări de 20 și 40 W Solder Utilizați lipire mai groasă pentru firele de tensiune și subțire ...

Construirea unui Circuit Dead-Bug Style - dummies

Construirea unui Circuit Dead-Bug Style - dummies

) Sunt montate cu capul în jos pe placa de circuit imprimat (PC), majoritatea picioarelor lipindu-se în aer! Arata ca multe. . . morți bug-uri! Un alt nume pentru acest tip de construcție este "circuitele de aer", deoarece componentele sunt atașate direct la ...

Aplicarea RFID în lumea reală - dummies

Aplicarea RFID în lumea reală - dummies

Capacitatea de a urmări și de a urmări, de a urmări și de a găsi, peek sunt toate îmbunătățite prin utilizarea RFID. Unii avocați de confidențialitate vă faceți griji că aparatele vor atașa în mod magic etichetele RFID la îmbrăcăminte sau pantofi pe măsură ce vă plimbați prin magazin sau în jurul unui birou, dar acest lucru este foarte puțin probabil. Limitele ...