Acasă Finanțe personale Cum să căutați datele Analytics predictive - dummies

Cum să căutați datele Analytics predictive - dummies

Cuprins:

Video: Recommender Systems 2024

Video: Recommender Systems 2024
Anonim

datele de analiză predictivă trebuie să știți cum să găsiți informațiile pe care doriți să le găsiți. Există două concepte principale de căutare a datelor dvs. în pregătirea utilizării în analiza predictivă:

  • Pregătirea pentru depășirea căutării de bază a cuvintelor cheie

  • Efectuarea căutării semantic a datelor

Cum se utilizează căutarea pe bază de cuvinte în predicție Analytics

Imaginați-vă dacă ați fost însărcinat cu căutarea unor cantități mari de date. O modalitate de abordare a problemei este de a emite o interogare de căutare care constă (evident) de cuvinte. Instrumentul de căutare caută cuvinte potrivite în baza de date, în depozitul de date sau merge în căutarea prin orice text în care se află datele dvs.

Să presupunem că emiteți următoarea interogare de căutare: Președintele Statelor Unite vizitează Africa . Rezultatele căutării vor consta în text care conține exact una sau o combinație a cuvintelor Președinte, Statele Unite, vizite, Africa . S-ar putea să obțineți informațiile exacte pe care le căutați, dar nu întotdeauna.

->

Ce zici de documentele care nu conțin nici unul din cuvintele menționate anterior, ci o combinație a următoarelor: Călătoria lui Obama în Kenya .

Niciuna dintre cuvintele pe care le-ați căutat inițial nu este acolo - dar rezultatele căutării sunt semantic (util). Cum vă puteți pregăti datele pentru a fi recuperabile semantic? Cum puteți trece dincolo de căutarea tradițională a cuvintelor cheie? Răspunsurile dvs. pot fi găsite dacă continuați să citiți.

Cum se utilizează căutările semantice în analiza predictivă

O ilustrare a modului în care funcționează căutarea semantică este un proiect pe care Anasse Bari la condus la Grupul Băncii Mondiale, o organizație internațională a cărei misiune principală este lupta împotriva sărăciei în întreaga lume.

Proiectul a urmărit să investigheze existența căutării și analizei de întreprinderi pe scară largă pe piață și să construiască un prototip pentru un cadru de ultimă oră care să organizeze datele Băncii Mondiale - cea mai mare parte a cărții fiind o colecție nestructurată de documente, publicații, rapoarte de proiecte, pliante și studii de caz.

Această cunoaștere masivă valoroasă este o resursă utilizată în scopul îndeplinirii principalei misiuni a Băncii de reducere a sărăciei mondiale. Dar faptul că este nestructurat face dificilă accesul, capturarea, partajarea, înțelegerea, căutarea, data-mina și vizualizarea.

Banca Mondială este o organizație imensă, cu multe diviziuni din întreaga lume. Una dintre diviziile principale se străduia să aibă un cadru și era gata să aloce resurse pentru a ajuta echipa Bari a fost Rețeaua de Dezvoltare Umană din cadrul Băncii Mondiale.

Vicepreședintele Rețelei Dezvoltării Umane a subliniat o problemă care a izvorât din ambiguitate: diviziunea sa a folosit mai mulți termeni și concepte care aveau același înțeles general, dar nuanțe diferite.

De exemplu, termeni precum climatologia, schimbările climatice, epuizarea stratului de ozon de gaze, și emisiile de seră au fost toate legate semantic, dar nu identice în sens. El dorea o capacitate de căutare suficient de inteligentă pentru a extrage documente care conțineau concepte înrudite atunci când cineva căuta oricare dintre acești termeni. Cadrul prototip al acestei capacități pe care echipa Bari a selectat-o ​​a fost Arhitectura de management informatic nestructurată (UIMA), o soluție bazată pe software. Proiectat inițial de IBM Research, UIMA este disponibil în software-ul IBM, cum ar fi IBM Content Analytics, unul din instrumentele care au alimentat IBM Watson, computerul celebru care a câștigat jocul Jeopardy.

Echipa Bari și-a unit forțele cu o echipă foarte talentată din IBM Content Management și Enterprise Search, iar ulterior cu o echipă IBM Watson, pentru a colabora la acest proiect.

Soluția de gestionare a informațiilor nestructurate (UIM) este un sistem software care analizează volume mari de informații nestructurate (text, audio, video, imagini etc.) pentru a descoperi, organiza și furniza cunoștințe relevante clientul sau utilizatorul final al aplicației. Ontologia

a unui domeniu este o serie de concepte și termeni înrudiți, în special pentru un domeniu. O soluție bazată pe UIMA utilizează ontologii pentru a furniza etichetarea semantică, ceea ce permite căutarea îmbogățită independentă de formatul de date (text, vorbire, prezentare PowerPoint, e-mail, video etc.). UIMA adaugă un alt strat la datele capturate și apoi adaugă metadate pentru a identifica date care pot fi structurate și căutate semantic. Căutarea semantică se bazează pe semnificația contextuală a termenilor de căutare, așa cum apar în spațiul de date căutat de UIMA. Căutarea semantică este mai exactă decât căutarea obișnuită pe bază de cuvinte, deoarece o interogare a utilizatorului returnează rezultatele căutării nu numai a documentelor care conțin termenii de căutare, ci și a documentelor care sunt relevante din punct de vedere semantic pentru interogare.

Dacă căutați biodiversitatea în Africa, o căutare tipică (bazată pe cuvinte cheie) va întoarce documente care conțin cuvintele exacte biodiversitate și Africa

Cum să căutați datele Analytics predictive - dummies

Alegerea editorilor

Evaluarea Vizualizărilor de date - dummies

Evaluarea Vizualizărilor de date - dummies

Vizualizările de date pot fi foarte colorate și impresionante. Dar amintiți-vă că cheia pentru crearea unor vizualizări eficiente de date nu depinde de faptul dacă este interesantă, ci mai degrabă de faptul dacă descoperă problemele reale de afaceri care trebuie abordate. O foaie de lucru vă ajută să creați propriile vizualizări de date sau să evaluați creațiile altora. Aici ...

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Să lucreze mai bine decât celălalt. În timp, veți dezvolta un sentiment dacă Illustrator sau Photoshop se potrivesc mai bine pentru diverse sarcini. Până atunci, iată un exemplu despre modul în care fiecare program gestionează diferite elemente ale lucrării de design grafic. Graphing Photoshop nu este un program de grafic. Tu ...

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografics evergreen nu sunt legate de niciun eveniment sau persoană în știri . Ele nu au o componentă sezonieră și nu sunt legate de ceva în timp util. O infographic despre cum se fac CD-urile se va aplica pentru că este vorba de muzică, dar nu este specifică nici unui artist sau gen. Cu infografiile veșnic verzi, ignorați complet evenimentele curente și explorați ideile ...

Alegerea editorilor

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Adobe Creative Suite 5 oferă scurtături pentru Zooming în Photoshop. Imaginile care arată bine la un nivel de zoom pot părea extrem de proaste la altul. Veți mări și micșora destul de des în timp ce lucrați la imagini în Photoshop. Puteți găsi opțiuni de meniu pentru zoom în meniul Vizualizare; o modalitate mai rapidă de a mări este ...

Text în Photoshop CC - dummies

Text în Photoshop CC - dummies

Când editați o imagine cu text în Photoshop CC, puteți schimba linia care fluxul dvs. de tip fie folosind funcția Warp Text sau tastând pe o cale. Tipul de deformare utilizează forme predefinite la care se formează tipul dvs. (și poate fi utilizat atât cu tipul de punct, cât și cu paragraful) și tastând ...

Alegerea editorilor

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cea mai mare parte a bibliotecii Boost funcționează bine adăugând la codul aplicației. Cu toate acestea, câteva componente, cum ar fi RegEx, necesită o bibliotecă. Înainte de a putea folosi o bibliotecă, trebuie să o construiți. După ce ați construit biblioteca, trebuie să o adăugați în aplicație. Există două tehnici de adăugare a ...

Cum Heap Works în C ++ - dummies

Cum Heap Works în C ++ - dummies

Halda este un bloc amorf de memorie pe care programul C ++ îl poate accesa după cum este necesar. Aflați de ce există și cum se utilizează. Așa cum este posibil să treci un pointer la o funcție, este posibil ca o funcție să returneze un pointer. O funcție care returnează adresa ...

Cum să evitați codul de injectare în C ++ - dummies

Cum să evitați codul de injectare în C ++ - dummies

Prima regulă de evitare a codului injectat în programele C ++ , permiterea prelucrării datelor de către un interpret de limbă cu scop general. O eroare obișnuită cu SQL-injectarea este că programul acceptă intrarea utilizatorului ca și cum ar fi fost întotdeauna acceptabilă și îl inserează într-o interogare SQL pe care o trimite apoi la ...