Acasă Finanțe personale Gestionarea fișierelor cu sistemul de fișiere Hadoop File - dummies

Gestionarea fișierelor cu sistemul de fișiere Hadoop File - dummies

Video: Cursuri de Utilizare PC / Windows 10 pentru incepatori - 6 / 11- File Explorer, gestiunea fisierelor 2024

Video: Cursuri de Utilizare PC / Windows 10 pentru incepatori - 6 / 11- File Explorer, gestiunea fisierelor 2024
Anonim

HDFS este una dintre cele două componente principale ale cadrului Hadoop; cealaltă este paradigma computațională cunoscută sub numele de MapReduce. Un sistem de fișiere distribuit este un sistem de fișiere care gestionează stocarea într-un grup de mașini în rețea. HDFS stochează date în

blocuri , unități a căror dimensiune implicită este de 64MB. Fișierele pe care doriți să le stocați în HDFS trebuie să fie împărțite în bucăți de dimensiune bloc care sunt apoi stocate independent în întregul grup. Puteți folosi comanda liniei fsck pentru a lista blocurile care alcătuiesc fiecare fișier în format HDFS, după cum urmează:

% hadoop fsck / -files -blocks
Deoarece Hadoop este scris în Java, toate interacțiunile cu HDFS sunt gestionate prin Java API. Rețineți, totuși, că nu trebuie să fiți un guru Java pentru a lucra cu fișiere în HDFS. Mai multe interfețe Hadoop construite pe partea de sus a API-ului Java sunt acum utilizate în comun (și ascund Java), dar cea mai simplă este interfața de linie de comandă; utilizați linia de comandă pentru a interacționa cu HDFS în exemplele furnizate.

Accesați shell-ul sistemului de fișiere Hadoop executând o formă a comenzii hadoop. Toate comenzile hadoop sunt invocate de scriptul bin / hadoop. (Pentru a prelua o descriere a tuturor comenzilor hadoop, rulați scriptul hadoop fără a specifica argumente.) Comanda hadoop are sintaxa hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS]

opțiunea config confdir suprascrie directorul de configurare implicit ($ HADOOP_HOME / conf), astfel încât să puteți ușor personaliza configurația de mediu Hadoop. Opțiunile generice și opțiunile de comandă reprezintă un set comun de opțiuni care sunt acceptate de mai multe comenzi.

Comenzile shell-ului sistemului de fișiere Hadoop (pentru interfețele de linie de comandă) iau identifi- catori de resurse uniformi (URI) ca argumente. Un

URI este un șir de caractere care se utilizează pentru a identifica un nume sau o resursă web. Șirul poate include un nume de sistem

- un calificativ pentru natura sursei de date. Pentru HDFS, numele schemei este hdfs, iar pentru sistemul de fișiere local, numele schemei este fișier. Dacă nu specificați un nume de schemă, implicit este numele schemei specificat în fișierul de configurare. Un fișier sau un director în HDFS poate fi specificat într-un mod complet calificat, cum ar fi în acest exemplu: hdfs: // namenodehost / parent / child

Sau poate fi simplu / parent / child la hdfs: // namenodehost.

Comenzile shell-ului sistemului de fișiere Hadoop, care sunt similare cu comenzile de fișiere Linux, au următoarea sintaxă generală:

hadoop hdfs dfs -

file_cmd Cititorii cu o experiență anterioară Hadoop ar putea întreba: despre comanda hasoop fs?"Comanda fs este depreciată în seria de lansări Hadoop 0. 2, dar nu funcționează încă în Hadoop 2. Utilizați hdfs dfs în schimb.

Așa cum v-ați putea aștepta, utilizați comanda mkdir pentru a crea un director în HDFS, la fel cum ați face pe Linux sau pe sistemele de operare bazate pe Unix. Deși HDFS are un director de lucru implicit, / user / $ USER, unde

$ USER este numele dvs. de utilizator de autentificare, trebuie să îl creați singur folosind sintaxa $ hadoop hdfs dfs -mkdir /

login_user_name De exemplu, pentru a crea un director numit "joanna", executați această comandă mkdir:

$ hadoop hdfs dfs -mkdir / user / joanna

sistemul de fișiere local la HDFS:

$ hadoop hdfs dfs -put

numele fișierului / user / login_user_name De exemplu, pentru a copia un fișier numit date. txt la acest nou director, executați următoarea comandă pus:

$ hadoop hdfs dfs -put data. txt / user / joanna

Rulați comanda ls pentru a obține o listă de fișiere HDFS:

$ hadoop hdfs dfs -ls. S-au găsit 2 articole drwxr-xr-x - joanna supergroup 0 2013-06-30 12: 25 / user / joanna -rw-r- r-- 1 joanna supergroup 118 2013-06-30 12: 15 / user / joanna / date.

Coloana 1 afișează modul

fișier

  • ("d" pentru director și "-" pentru fișierul normal, urmat de permisiuni). Cele trei tipuri de permisiuni - citiți (r), scrieți (w) și executați (x) - sunt aceleași pe care le găsiți pe sistemele Linux și Unix. Permisiunea de executare pentru un fișier este ignorată, deoarece nu puteți executa un fișier pe HDFS. Permisiunile sunt grupate după proprietar, grup și public (toți ceilalți). Coloana 2 prezintă factorul de replicare pentru fișiere. (Conceptul de replicare nu se aplică directoarelor.) Blocurile care compun un fișier în HDFS sunt replicate pentru a asigura toleranța la erori. Factorul de replicare

  • , sau numărul de replici care sunt păstrate pentru un anumit fișier, este configurabil. Puteți specifica factorul de replicare atunci când fișierul este creat sau mai târziu, prin intermediul aplicației. Coloanele 3 și 4 prezintă fișierul proprietar

  • și grup . Supergroup este numele grupului de superuseri, iar un superuser este utilizatorul cu aceeași identitate ca procesul NameNode. Dacă începeți NameNode, sunteți superutilizator deocamdată. Acesta este un grup special - utilizatorii obișnuiți vor avea utilizatorii săi aparțin unui grup fără caracteristici speciale - un grup care este pur și simplu definit de un administrator Hadoop. Coloana 5 arată dimensiunea fișierului, în octeți sau 0 dacă este un director. Coloanele 6 și 7 indică data și ora ultimei modificări, respectiv.

  • Coloana 8 indică numele necalificat (ceea ce înseamnă că numele schemei nu este specificat) al fișierului sau al directorului.

  • Utilizați comanda Hadoop get pentru a copia un fișier din HDFS în sistemul de fișiere local:

  • $ hadoop hdfs dfs -get

numele fișierului

/ user / login_user_name comanda pentru a șterge un fișier sau un director gol: $ hadoop hdfs dfs -rm

numele fișierului

/ user / login_user_name Utilizați comanda hdfs dfs -help pentru a obține ajutor detaliat pentru fiecare opțiune. 

Gestionarea fișierelor cu sistemul de fișiere Hadoop File - dummies

Alegerea editorilor

Administrator de rețea: Zone de căutare inversă - dummies

Administrator de rețea: Zone de căutare inversă - dummies

Interogări DNS obișnuite sunt interogări de căutare înainte corespunde unui nume de domeniu complet calificat. O căutare inversă este opusul unei căutări forward: returnează numele de domeniu complet calificat al unei gazde pe baza adresei sale IP. Căutările inverse sunt posibile din cauza unui domeniu special numit ...

Rețea Elemente de bază: Clienți și servere - manechine

Rețea Elemente de bază: Clienți și servere - manechine

Computerul de rețea care conține hard disk-urile, imprimantele și alte resurse care sunt partajate cu alte calculatoare de rețea se numește un server. Acest termen vine în repetate rânduri, deci trebuie să-l amintiți. Scrie-o pe spatele mâinii tale stângi. Orice computer care nu este un server este numit client. Aveți ...

Retea Bazele: Poduri - dummies

Retea Bazele: Poduri - dummies

O punte este un dispozitiv care conecteaza doua retele astfel incat sa actioneze ca si cum ar fi o rețea. Podurile sunt utilizate pentru a împărți o rețea mare în două rețele mai mici din motive de performanță. Vă puteți gândi la un pod ca pe un repetor inteligent. Repetoarele ascultă semnale care coboară pe un cablu de rețea, amplifică ...

Alegerea editorilor

ÎMprumuta și tweak idei de la alte comunități online - dummies

ÎMprumuta și tweak idei de la alte comunități online - dummies

, Mai degrabă decât să ia ideile altcuiva complet pentru dvs. comunitate online, încercați să riffați pe aceeași idee, dar nu atât de mult încât este evident că nu sunteți creierul din spatele brainstorming-ului. Idei sunt acolo pentru a lua, dar nu ar fi mai degrabă văzute ca cineva inovatoare, nu cineva care scours pe web ...

Branding Blogul tău

Branding Blogul tău

Branding blog-ul tău merge mult spre a face dacă este ușor de recunoscut pentru cititorii tăi. Când vedeți un punct roșu în interiorul unui cerc roșu, ce magazin vine în minte? Ce zici de acele arcuri de aur? Un nume de marcă apare în minte atunci când vedeți simbolul swoosh? La fel ca magazinele populare, restaurantele și încălțămintea ...

Construiți un Blog Mama care este Sellable - dummies

Construiți un Blog Mama care este Sellable - dummies

Dacă obiectivul pe termen lung este de a vinde blogul dvs. ar trebui să o construiască cu acest scop în minte. Evitați asocierea prea intensă a blogului cu marca dvs. personală. Un blog care poate fi valoros cu orice scriitor la cârma trebuie să îndeplinească majoritatea, dacă nu toate, următoarele criterii: Blogul este concentrat ...

Alegerea editorilor

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

LinkedIn oferă servicii de publicitate pentru afacerea dvs. Dacă vă decideți să utilizați LinkedIn ca instrument de marketing, va trebui doar să obțineți o nouă campanie de anunțuri în lucrări. Când sunteți gata să începeți o nouă campanie, urmați acești pași:

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Ce opțiuni de filtrare aveți pentru anunțul dvs. LinkedIn? Alte rețele de publicitate vă permit să filtrați publicul vizat de câteva atribute cunoscute ale persoanei care vă va vedea anunțul, sexul și locația membrilor din public. LinkedIn vă permite să faceți un pas mai departe permițându-vă ...

Oferind și primind viziuni pe LinkedIn - manechine

Oferind și primind viziuni pe LinkedIn - manechine

Deși mulți oameni cred că "Nu este ceea ce știi, știi, "care este unul dintre principalele motive pentru care LinkedIn este atât de valoros, mulți oameni (recrutorii, angajații, directorii executivi, investitorii și altele) sunt foarte interesați de ceea ce știi. În mod logic, oamenii care vă cunosc cel mai bine sunt oamenii din rețeaua dvs., care ...