Acasă Finanțe personale Cum se utilizează Apache Mahout pentru predictive Analytics - dummies

Cum se utilizează Apache Mahout pentru predictive Analytics - dummies

Video: Utilizare rulota Elddis 2024

Video: Utilizare rulota Elddis 2024
Anonim

Un instrument open source care este unic util în analiza predictivă este Apache Mahout. Această bibliotecă de învățare automată include versiuni pe scară largă ale clusterizării, clasificării, filtrarea colaborativă și alți algoritmi de extragere a datelor care pot suporta un model de analiză predictivă pe scară largă.

Un mod foarte recomandat de procesare a datelor necesare unui astfel de model este de a rula Mahout într-un sistem care rulează deja Hadoop. Hadoop desemnează o mașină master care orchestrează celelalte mașini (cum ar fi mașinile Map și mașinile Reduce) folosite în procesarea distribuită a acestora. Mahout ar trebui instalat pe mașina principală.

Imaginați-vă că aveți o cantitate mare de date în flux - Articole de știri Google - și doriți să vă grupați după subiect, utilizând unul dintre algoritmii de grupare. După ce instalați Hadoop și Mahout, puteți executa unul dintre algoritmi - cum ar fi K-means - pe datele dvs.

Implementarea metodei K-under Mahout folosește o abordare MapReduce, care o face diferită de implementarea normală a mijloacelor K. Mahout subdivide algoritmul K-mean în aceste sub-proceduri:

  • KmeansMapper citește setul de date de intrare și va atribui fiecare punct de intrare celui mai apropiat mijloc selectat inițial (reprezentanți ai grupului).

  • Procedura KmeansCombiner va prelua toate înregistrările - perechi - produse de KmeansMapper și va produce sume parțiale pentru a ușura calculul reprezentanților clusterului ulterior.

  • KmeansReducer primește valorile produse de toate subtaskele (combinatorii) pentru a calcula centroizii reali ai clusterelor care reprezintă rezultatul final al mijloacelor K.

  • KmeansDriver gestionează iterațiile procesului până când toate grupurile s-au convertit. Ieșirea unei iterații date, o ieșire parțială de grupare, este utilizată ca intrare pentru următoarea iterație. Procesul de mapare și reducere a setului de date până la alocarea înregistrărilor și clusterelor nu indică alte modificări.

  • Apache Mahout este un proiect recent dezvoltat; funcționalitatea acestuia încă mai are mult spațiu pentru a se potrivi extensiilor. Între timp, Mahout utilizează deja MapReduce pentru a implementa clasificarea, gruparea și alte tehnici de învățare a mașinilor - și poate face acest lucru la scară largă.

    Cum se utilizează Apache Mahout pentru predictive Analytics - dummies

    Alegerea editorilor

    Evaluarea Vizualizărilor de date - dummies

    Evaluarea Vizualizărilor de date - dummies

    Vizualizările de date pot fi foarte colorate și impresionante. Dar amintiți-vă că cheia pentru crearea unor vizualizări eficiente de date nu depinde de faptul dacă este interesantă, ci mai degrabă de faptul dacă descoperă problemele reale de afaceri care trebuie abordate. O foaie de lucru vă ajută să creați propriile vizualizări de date sau să evaluați creațiile altora. Aici ...

    Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

    Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

    Să lucreze mai bine decât celălalt. În timp, veți dezvolta un sentiment dacă Illustrator sau Photoshop se potrivesc mai bine pentru diverse sarcini. Până atunci, iată un exemplu despre modul în care fiecare program gestionează diferite elemente ale lucrării de design grafic. Graphing Photoshop nu este un program de grafic. Tu ...

    Infografice nevergreen: Închirierea obiectelor Build - dummies

    Infografice nevergreen: Închirierea obiectelor Build - dummies

    Infografics evergreen nu sunt legate de niciun eveniment sau persoană în știri . Ele nu au o componentă sezonieră și nu sunt legate de ceva în timp util. O infographic despre cum se fac CD-urile se va aplica pentru că este vorba de muzică, dar nu este specifică nici unui artist sau gen. Cu infografiile veșnic verzi, ignorați complet evenimentele curente și explorați ideile ...

    Alegerea editorilor

    Utilizați Zoom în Adobe Photoshop CS5 - manechine

    Utilizați Zoom în Adobe Photoshop CS5 - manechine

    Adobe Creative Suite 5 oferă scurtături pentru Zooming în Photoshop. Imaginile care arată bine la un nivel de zoom pot părea extrem de proaste la altul. Veți mări și micșora destul de des în timp ce lucrați la imagini în Photoshop. Puteți găsi opțiuni de meniu pentru zoom în meniul Vizualizare; o modalitate mai rapidă de a mări este ...

    Text în Photoshop CC - dummies

    Text în Photoshop CC - dummies

    Când editați o imagine cu text în Photoshop CC, puteți schimba linia care fluxul dvs. de tip fie folosind funcția Warp Text sau tastând pe o cale. Tipul de deformare utilizează forme predefinite la care se formează tipul dvs. (și poate fi utilizat atât cu tipul de punct, cât și cu paragraful) și tastând ...

    Alegerea editorilor

    Cum se adaugă Biblioteca RegEx în C ++ - dummies

    Cum se adaugă Biblioteca RegEx în C ++ - dummies

    Cea mai mare parte a bibliotecii Boost funcționează bine adăugând la codul aplicației. Cu toate acestea, câteva componente, cum ar fi RegEx, necesită o bibliotecă. Înainte de a putea folosi o bibliotecă, trebuie să o construiți. După ce ați construit biblioteca, trebuie să o adăugați în aplicație. Există două tehnici de adăugare a ...

    Cum Heap Works în C ++ - dummies

    Cum Heap Works în C ++ - dummies

    Halda este un bloc amorf de memorie pe care programul C ++ îl poate accesa după cum este necesar. Aflați de ce există și cum se utilizează. Așa cum este posibil să treci un pointer la o funcție, este posibil ca o funcție să returneze un pointer. O funcție care returnează adresa ...

    Cum să evitați codul de injectare în C ++ - dummies

    Cum să evitați codul de injectare în C ++ - dummies

    Prima regulă de evitare a codului injectat în programele C ++ , permiterea prelucrării datelor de către un interpret de limbă cu scop general. O eroare obișnuită cu SQL-injectarea este că programul acceptă intrarea utilizatorului ca și cum ar fi fost întotdeauna acceptabilă și îl inserează într-o interogare SQL pe care o trimite apoi la ...