Funcționarea modelelor statistice în Hadoop's MapReduce - dummies

Video: Technology Stacks - Computer Science for Business Leaders 2016 2024

Convertirea modelelor statistice pentru a funcționa în paralel este o sarcină dificilă. În paradigma tradițională pentru programarea paralelă, accesul la memorie este reglementat prin utilizarea de fire - subprocesele create de sistemul de operare pentru a distribui o singură memorie partajată pe mai multe procesoare.

Factori precum condițiile de cursă între firele concurente - atunci când două sau mai multe fire încearcă să schimbe datele partajate în același timp - pot influența performanța algoritmului dvs. și pot afecta precizia rezultatelor statistice pe care le produce programul dvs. - în special pentru analize pe termen lung ale seturilor de eșantioane mari.

O abordare pragmatică a acestei probleme este aceea de a presupune că mulți statisticieni nu vor cunoaște insistențele și dezavantajele MapReduce (și invers) și nici nu vă puteți aștepta ca ei să fie conștienți de toate capcanele programarea paralelă presupune. Contribuitorii la proiectul Hadoop au (și continuă să dezvolte) instrumente statistice cu aceste realități în minte.

Rezultatul: Hadoop oferă multe soluții pentru implementarea algoritmilor necesari pentru a efectua modelarea și analiza statistică, fără a suprasolicita statisticianul cu considerente de programare paralelă nuanțate.