Acasă Finanțe personale Tehnici de analiză și tehnici de extracție pentru date mari

Tehnici de analiză și tehnici de extracție pentru date mari

Cuprins:

Video: • Cum să Cauți AUR 2024

Video: • Cum să Cauți AUR 2024
Anonim

În general, soluțiile de analiză de text pentru date mari utilizează o combinație de tehnici statistice și de prelucrare a limbajului natural (NLP) pentru extragerea informațiilor din datele nestructurate. NLP este un domeniu amplu și complex care sa dezvoltat în ultimii 20 de ani.

Un obiectiv principal al NLP este de a obține semnificație din text. Procesarea limbajului natural utilizează în general concepte lingvistice, cum ar fi structuri gramaticale și părți de vorbire. Adesea, ideea din spatele acestui tip de analiză este de a determina cine a făcut ce, cine, când, unde, cum și de ce.

analizează textul la niveluri diferite:

  • Analiza lexicală / morfologică examinează caracteristicile unui cuvânt individual - inclusiv prefixe, sufixe, rădăcini și părți ale cuvântului (substantiv, verb, adjectiv etc.) - informații care vor contribui la înțelegerea a ceea ce înseamnă cuvântul în contextul textului furnizat. Analiza lexicală depinde de un dicționar, de tezaur sau de orice listă de cuvinte care oferă informații despre acele cuvinte.

  • Analiza sintactică folosește structura gramaticală pentru a diseca textul și a pune cuvintele individuale în context. Aici vă lărgi privirea de la un singur cuvânt la fraza sau la propoziția completă. Acest pas poate să diagrameze relația dintre cuvinte (gramatica) sau să caute secvențe de cuvinte care formează propoziții corecte sau pentru secvențe de numere care reprezintă date sau valori monetare.

  • Analiza semantică determină posibilele semnificații ale unei propoziții. Aceasta poate include examinarea ordinii de cuvinte și a structurii propoziției și a cuvintelor disambiguate prin legarea sintaxei găsite în fraze, propoziții și paragrafe.

  • Analiza nivelului de discuranță încearcă să determine sensul textului dincolo de nivelul propoziției.

Înțelegerea informațiilor extrase din datele mari

Anumite tehnici, combinate cu alte tehnici statistice sau lingvistice pentru a automatiza etichetarea și marcarea documentelor text, pot extrage următoarele tipuri de informații:

  • Termeni: nume pentru cuvinte cheie.

  • Entități: Deseori numite entități numite , acestea sunt exemple specifice de abstracții. Exemple sunt numele persoanelor, numele companiilor, locațiile geografice, informațiile de contact, datele, orele, monedele, titlurile și pozițiile și așa mai departe. De exemplu, software-ul de analiză text poate extrage entitatea Jane Doe ca persoană la care se face referire în textul analizat. Entitatea 03 martie 2007 poate fi extrasă ca dată și așa mai departe.

  • Fapte: De asemenea, numite relații , faptele indică relațiile care / ce / unde dintre două entități. John Smith este CEO al Companiei Y și Aspirina reduce febra sunt exemple de fapte.

  • Evenimente: În timp ce unii experți folosesc termenii fapt , relația , și declarând că evenimentele conțin, de obicei, o dimensiune a timpului și de multe ori fac ca faptele să se schimbe. Exemplele includ o schimbare a managementului în cadrul unei companii sau starea unui proces de vânzare. Concepte: Acestea sunt seturi de cuvinte și expresii care indică o anumită idee sau subiect cu care se referă utilizatorul. De exemplu, conceptul

  • client nefericit poate include cuvinte furios, dezamăgit, și confuz și risipa de bani - printre multe altele. Astfel, conceptul client nefericit poate fi extras fără să apară textul nefericit sau client . Sentimente: Analiza sentimentului este utilizată pentru a identifica punctele de vedere sau emoțiile din textul de bază. Unele tehnici fac acest lucru prin clasificarea textului ca, de exemplu, subiectiv (opinie) sau obiectiv (fapt), folosind tehnici de învățare sau NLP. Analiza sentimentului a devenit foarte populară în tipurile de aplicații ale "vocii clientului". Taxonomii mari de date

  • Taxonomiile sunt deseori critice pentru analizele de text. O taxonomie

este o metodă de organizare a informațiilor în relații ierarhice. Este uneori menționată ca o modalitate de organizare a categoriilor. Deoarece o taxonomie definește relațiile dintre termenii pe care o folosește o companie, este mai ușor să găsești și apoi să analizezi textul.

De exemplu, un furnizor de servicii de telecomunicații oferă atât servicii prin cablu, cât și fără fir. În cadrul serviciului wireless, compania poate sprijini telefoanele mobile și accesul la Internet. Compania poate avea apoi două sau mai multe moduri de clasificare a serviciului de telefonie celulară, cum ar fi planurile și tipurile de telefon. Taxonomia ar putea ajunge până la părțile unui telefon în sine. Taxonomiile pot utiliza, de asemenea, sinonime și expresii alternative, recunoscând că telefonul mobil, celularul și telefonul mobil sunt la fel. Aceste taxonomii pot fi destul de complexe și pot dura mult timp să se dezvolte.

Tehnici de analiză și tehnici de extracție pentru date mari

Alegerea editorilor

Evaluarea Vizualizărilor de date - dummies

Evaluarea Vizualizărilor de date - dummies

Vizualizările de date pot fi foarte colorate și impresionante. Dar amintiți-vă că cheia pentru crearea unor vizualizări eficiente de date nu depinde de faptul dacă este interesantă, ci mai degrabă de faptul dacă descoperă problemele reale de afaceri care trebuie abordate. O foaie de lucru vă ajută să creați propriile vizualizări de date sau să evaluați creațiile altora. Aici ...

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Să lucreze mai bine decât celălalt. În timp, veți dezvolta un sentiment dacă Illustrator sau Photoshop se potrivesc mai bine pentru diverse sarcini. Până atunci, iată un exemplu despre modul în care fiecare program gestionează diferite elemente ale lucrării de design grafic. Graphing Photoshop nu este un program de grafic. Tu ...

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografics evergreen nu sunt legate de niciun eveniment sau persoană în știri . Ele nu au o componentă sezonieră și nu sunt legate de ceva în timp util. O infographic despre cum se fac CD-urile se va aplica pentru că este vorba de muzică, dar nu este specifică nici unui artist sau gen. Cu infografiile veșnic verzi, ignorați complet evenimentele curente și explorați ideile ...

Alegerea editorilor

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Adobe Creative Suite 5 oferă scurtături pentru Zooming în Photoshop. Imaginile care arată bine la un nivel de zoom pot părea extrem de proaste la altul. Veți mări și micșora destul de des în timp ce lucrați la imagini în Photoshop. Puteți găsi opțiuni de meniu pentru zoom în meniul Vizualizare; o modalitate mai rapidă de a mări este ...

Text în Photoshop CC - dummies

Text în Photoshop CC - dummies

Când editați o imagine cu text în Photoshop CC, puteți schimba linia care fluxul dvs. de tip fie folosind funcția Warp Text sau tastând pe o cale. Tipul de deformare utilizează forme predefinite la care se formează tipul dvs. (și poate fi utilizat atât cu tipul de punct, cât și cu paragraful) și tastând ...

Alegerea editorilor

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cea mai mare parte a bibliotecii Boost funcționează bine adăugând la codul aplicației. Cu toate acestea, câteva componente, cum ar fi RegEx, necesită o bibliotecă. Înainte de a putea folosi o bibliotecă, trebuie să o construiți. După ce ați construit biblioteca, trebuie să o adăugați în aplicație. Există două tehnici de adăugare a ...

Cum Heap Works în C ++ - dummies

Cum Heap Works în C ++ - dummies

Halda este un bloc amorf de memorie pe care programul C ++ îl poate accesa după cum este necesar. Aflați de ce există și cum se utilizează. Așa cum este posibil să treci un pointer la o funcție, este posibil ca o funcție să returneze un pointer. O funcție care returnează adresa ...

Cum să evitați codul de injectare în C ++ - dummies

Cum să evitați codul de injectare în C ++ - dummies

Prima regulă de evitare a codului injectat în programele C ++ , permiterea prelucrării datelor de către un interpret de limbă cu scop general. O eroare obișnuită cu SQL-injectarea este că programul acceptă intrarea utilizatorului ca și cum ar fi fost întotdeauna acceptabilă și îl inserează într-o interogare SQL pe care o trimite apoi la ...