Cuprins:
- Pasul 1: Descărcarea unui VM
- Pasul 2: Descărcarea Bigtop
- Pasul 3: Instalarea Bigtop
- Pasul 4: Pornirea Hadoop
- Pasul 5: Descărcarea setului de date eșantion
- Pasul 6: Copierea eșantionului de date în HDFS
Video: Introduction to Amazon Web Services by Leo Zhadanovsky 2024
Dacă sunteți confortabil să lucrați cu VM și Linux, aveți grijă să instalați Bigtop pe un alt VM decât ceea ce este recomandat. Dacă sunteți cu adevărat îndrăzneț și aveți hardware-ul, mergeți mai departe și încercați să instalați Bigtop pe un grup de mașini în mod complet distribuit!
Pasul 1: Descărcarea unui VM
Hadoop rulează pe toate distribuțiile Linux populare, deci aveți nevoie de un Linux VM. Există o imagine liberă (și legală!) CentOS 6 disponibilă.
Veți avea nevoie de un sistem de operare pe 64 de biți pe laptop pentru a rula acest VM. Hadoop are nevoie de un mediu pe 64 de biți.
După ce ați descărcat VM, extrageți-l din fișierul Zip descărcat în directorul destinație. Asigurați-vă că aveți aproximativ 50GB de spațiu disponibil ca Hadoop și datele dvs. de probă vor avea nevoie de el.
Dacă nu aveți deja un player VM, puteți descărca unul gratuit.
După ce ați instalat playerul VM, deschideți playerul, mergeți la File → Open, apoi mergeți la directorul unde ați extras Linux VM. Căutați un fișier numit și selectați-l. Veți vedea informații despre numărul de procesoare și cantitatea de memorie pe care o va utiliza. Aflați cât de mult are memoria calculatorului dvs. și alocați jumătate din acesta pentru a putea utiliza VM. Hadoop are nevoie de o mulțime de memorie.
Odată ce sunteți gata, faceți clic pe butonul Redare și instanța dvs. Linux va porni. Veți vedea o mulțime de mesaje zboară ca Linux este bootarea și veți ajunge la un ecran de login. Numele de utilizator este deja setat la "Tom. "Specificați parola ca" tomtom "și conectați-vă.
Pasul 2: Descărcarea Bigtop
Din interiorul Linux VM, faceți clic dreapta pe ecran și selectați Open in Terminal din meniul contextual care apare. Aceasta deschide un terminal Linux, unde puteți rula comenzi. Faceți clic în interiorul terminalului astfel încât să puteți vedea cursorul care clipește și introduceți următoarea comandă: su -
Veți fi solicitat parola, așa că tastați "tomtom" ca și cum ați făcut mai devreme. Această comandă comută utilizatorul la root, care este contul principal pentru un computer Linux - veți avea nevoie de acest lucru pentru a instala Hadoop.
Cu accesul rădăcină (nu lăsați puterea să ajungă la cap), executați următoarea comandă:
wget -O / etc / yum. operațiuni repo. d / BigTop. repo// www. apache. org / dist / BigTop / bigtop-
0. 7. 0 / repo / centos6 / bigtop. repo
Comanda este în esență o solicitare web, care solicită un fișier specific în URL-ul pe care îl puteți vedea și îl scrie într-o anumită cale - în acest caz, acesta este /.
Pasul 3: Instalarea Bigtop
Geniile din spatele Linuxului au făcut viața destul de ușoară pentru persoanele care au nevoie să instaleze pachete mari de software cum ar fi Hadoop.Ce ați descărcat în ultimul pas nu a fost întregul pachet Bigtop și toate dependențele acestuia. A fost doar un fișier de depozitare (cu extensia), care spune unui program de instalare care pachete software sunt necesare pentru instalarea Bigtop.
Ca orice produs software mare, Hadoop are o mulțime de premise, dar nu trebuie să vă faceți griji. Un fișier bine conceput va indica orice dependență, iar programul de instalare este suficient de inteligent pentru a vedea dacă acestea lipsesc pe computerul dvs. și apoi să le descărcați și să le instalați.
Programul de instalare pe care îl folosiți aici se numește yum, pe care îl puteți vedea acum în acțiune:
yum install hadoop * mahout * oozie * hbase * hive * hue * pig * zookeeper *
alegerea și alegerea componentelor Hadoop pe care să le instalați. Există o serie de alte componente disponibile în Bigtop, dar acestea sunt singurele pe care le veți folosi aici. Deoarece VM este o instalare Linux proaspătă, veți avea nevoie de multe dependențe, deci va trebui să așteptați un pic.
Programul de instalare yum este destul de verbos, astfel încât să puteți viziona exact ceea ce este descărcat și instalat pentru a trece timpul. Când procesul de instalare este terminat, ar trebui să vedeți un mesaj care spune "Completați! "
Pasul 4: Pornirea Hadoop
Înainte de a începe să rulați aplicații pe Hadoop, există câteva setări de bază și setări de lucru pe care trebuie să le faceți. Aici sunt în ordine:
-
Descărcați și instalați Java:
yum install java-1. 7. 0-openjdk-devel. x86_64
-
Formați numeleNode:
sudo / etc / init. d / hadoop-hdfs-namenode init
-
Porniți serviciile Hadoop pentru clusterul dvs. pseudodistribuit:
pentru i în hadoop-hdfs-namenode hadoop-hdfs-datanode; face serviciul sudo $ i începe; făcut
-
Creați o structură de sub-director în HDFS:
sudo / usr / lib / hadoop / libexec / init-hdfs. sh
-
Porniți daemonii YARN:
serviciul sudo hadoop-yarn-resourcemanager startudo service hadoop-yarn-nodemanager start
Și cu asta ați terminat. Felicitări! Ai instalat o implementare Hadoop de lucru!
Pasul 5: Descărcarea setului de date eșantion
Pentru a descărca setul de date eșantion, deschideți browserul Firefox din interiorul VM și accesați pagina de date expo.
Nu veți avea nevoie de întregul set de date, așa că începeți cu un singur an, 1987. Când sunteți pe punctul de a descărca, selectați opțiunea Open with Archive Manager.
După ce fișierul a fost descărcat, extrage fișierul în directorul de acasă unde îl vei găsi cu ușurință. Faceți clic pe butonul Extract, apoi selectați directorul Desktop.
Pasul 6: Copierea eșantionului de date în HDFS
Amintiți-vă că programele dvs. Hadoop pot funcționa numai cu date după ce sunt stocate în HDFS. Ceea ce veți face acum este să copiați fișierul de date de zbor pentru 1987 în HDFS. Introduceți următoarea comandă:
hdfs dfs -copyFromLocal 1987. csv / user / root