Cuprins:
- Înțelegerea informațiilor extrase din datele mari
- este o metodă de organizare a informațiilor în relații ierarhice. Este uneori menționată ca o modalitate de organizare a categoriilor. Deoarece o taxonomie definește relațiile dintre termenii pe care o folosește o companie, este mai ușor să găsești și apoi să analizezi textul.
Video: • Cum să Cauți AUR 2024
În general, soluțiile de analiză de text pentru date mari utilizează o combinație de tehnici statistice și de prelucrare a limbajului natural (NLP) pentru extragerea informațiilor din datele nestructurate. NLP este un domeniu amplu și complex care sa dezvoltat în ultimii 20 de ani.
Un obiectiv principal al NLP este de a obține semnificație din text. Procesarea limbajului natural utilizează în general concepte lingvistice, cum ar fi structuri gramaticale și părți de vorbire. Adesea, ideea din spatele acestui tip de analiză este de a determina cine a făcut ce, cine, când, unde, cum și de ce.
analizează textul la niveluri diferite:-
Analiza lexicală / morfologică examinează caracteristicile unui cuvânt individual - inclusiv prefixe, sufixe, rădăcini și părți ale cuvântului (substantiv, verb, adjectiv etc.) - informații care vor contribui la înțelegerea a ceea ce înseamnă cuvântul în contextul textului furnizat. Analiza lexicală depinde de un dicționar, de tezaur sau de orice listă de cuvinte care oferă informații despre acele cuvinte.
-
Analiza sintactică folosește structura gramaticală pentru a diseca textul și a pune cuvintele individuale în context. Aici vă lărgi privirea de la un singur cuvânt la fraza sau la propoziția completă. Acest pas poate să diagrameze relația dintre cuvinte (gramatica) sau să caute secvențe de cuvinte care formează propoziții corecte sau pentru secvențe de numere care reprezintă date sau valori monetare.
-
Analiza semantică determină posibilele semnificații ale unei propoziții. Aceasta poate include examinarea ordinii de cuvinte și a structurii propoziției și a cuvintelor disambiguate prin legarea sintaxei găsite în fraze, propoziții și paragrafe.
-
Analiza nivelului de discuranță încearcă să determine sensul textului dincolo de nivelul propoziției.
Înțelegerea informațiilor extrase din datele mari
Anumite tehnici, combinate cu alte tehnici statistice sau lingvistice pentru a automatiza etichetarea și marcarea documentelor text, pot extrage următoarele tipuri de informații:
-
Termeni: nume pentru cuvinte cheie.
-
Entități: Deseori numite entități numite , acestea sunt exemple specifice de abstracții. Exemple sunt numele persoanelor, numele companiilor, locațiile geografice, informațiile de contact, datele, orele, monedele, titlurile și pozițiile și așa mai departe. De exemplu, software-ul de analiză text poate extrage entitatea Jane Doe ca persoană la care se face referire în textul analizat. Entitatea 03 martie 2007 poate fi extrasă ca dată și așa mai departe.
-
Fapte: De asemenea, numite relații , faptele indică relațiile care / ce / unde dintre două entități. John Smith este CEO al Companiei Y și Aspirina reduce febra sunt exemple de fapte.
-
Evenimente: În timp ce unii experți folosesc termenii fapt , relația , și declarând că evenimentele conțin, de obicei, o dimensiune a timpului și de multe ori fac ca faptele să se schimbe. Exemplele includ o schimbare a managementului în cadrul unei companii sau starea unui proces de vânzare. Concepte: Acestea sunt seturi de cuvinte și expresii care indică o anumită idee sau subiect cu care se referă utilizatorul. De exemplu, conceptul
-
client nefericit poate include cuvinte furios, dezamăgit, și confuz și risipa de bani - printre multe altele. Astfel, conceptul client nefericit poate fi extras fără să apară textul nefericit sau client . Sentimente: Analiza sentimentului este utilizată pentru a identifica punctele de vedere sau emoțiile din textul de bază. Unele tehnici fac acest lucru prin clasificarea textului ca, de exemplu, subiectiv (opinie) sau obiectiv (fapt), folosind tehnici de învățare sau NLP. Analiza sentimentului a devenit foarte populară în tipurile de aplicații ale "vocii clientului". Taxonomii mari de date
-
Taxonomiile sunt deseori critice pentru analizele de text. O taxonomie
este o metodă de organizare a informațiilor în relații ierarhice. Este uneori menționată ca o modalitate de organizare a categoriilor. Deoarece o taxonomie definește relațiile dintre termenii pe care o folosește o companie, este mai ușor să găsești și apoi să analizezi textul.
De exemplu, un furnizor de servicii de telecomunicații oferă atât servicii prin cablu, cât și fără fir. În cadrul serviciului wireless, compania poate sprijini telefoanele mobile și accesul la Internet. Compania poate avea apoi două sau mai multe moduri de clasificare a serviciului de telefonie celulară, cum ar fi planurile și tipurile de telefon. Taxonomia ar putea ajunge până la părțile unui telefon în sine. Taxonomiile pot utiliza, de asemenea, sinonime și expresii alternative, recunoscând că telefonul mobil, celularul și telefonul mobil sunt la fel. Aceste taxonomii pot fi destul de complexe și pot dura mult timp să se dezvolte.