Video: Utilizare rulota Elddis 2024
Un instrument open source care este unic util în analiza predictivă este Apache Mahout. Această bibliotecă de învățare automată include versiuni pe scară largă ale clusterizării, clasificării, filtrarea colaborativă și alți algoritmi de extragere a datelor care pot suporta un model de analiză predictivă pe scară largă.
Un mod foarte recomandat de procesare a datelor necesare unui astfel de model este de a rula Mahout într-un sistem care rulează deja Hadoop. Hadoop desemnează o mașină master care orchestrează celelalte mașini (cum ar fi mașinile Map și mașinile Reduce) folosite în procesarea distribuită a acestora. Mahout ar trebui instalat pe mașina principală.
Imaginați-vă că aveți o cantitate mare de date în flux - Articole de știri Google - și doriți să vă grupați după subiect, utilizând unul dintre algoritmii de grupare. După ce instalați Hadoop și Mahout, puteți executa unul dintre algoritmi - cum ar fi K-means - pe datele dvs.
Implementarea metodei K-under Mahout folosește o abordare MapReduce, care o face diferită de implementarea normală a mijloacelor K. Mahout subdivide algoritmul K-mean în aceste sub-proceduri:
KmeansMapper citește setul de date de intrare și va atribui fiecare punct de intrare celui mai apropiat mijloc selectat inițial (reprezentanți ai grupului).
Procedura KmeansCombiner va prelua toate înregistrările - perechi - produse de KmeansMapper și va produce sume parțiale pentru a ușura calculul reprezentanților clusterului ulterior.
KmeansReducer primește valorile produse de toate subtaskele (combinatorii) pentru a calcula centroizii reali ai clusterelor care reprezintă rezultatul final al mijloacelor K.
KmeansDriver gestionează iterațiile procesului până când toate grupurile s-au convertit. Ieșirea unei iterații date, o ieșire parțială de grupare, este utilizată ca intrare pentru următoarea iterație. Procesul de mapare și reducere a setului de date până la alocarea înregistrărilor și clusterelor nu indică alte modificări.
Apache Mahout este un proiect recent dezvoltat; funcționalitatea acestuia încă mai are mult spațiu pentru a se potrivi extensiilor. Între timp, Mahout utilizează deja MapReduce pentru a implementa clasificarea, gruparea și alte tehnici de învățare a mașinilor - și poate face acest lucru la scară largă.