Video: SCP-1322 Glory Hole | Keter class | Hostile / Extradimensional / portal SCP 2024
Există numeroase metode de analiză a datelor nestructurate pentru inițiativa dvs. de date de mare anvergură. Din punct de vedere istoric, aceste tehnici au ieșit din domenii tehnice precum procesarea limbajului natural (NLP), descoperirea cunoștințelor, extragerea datelor, recuperarea informațiilor și statisticile. Analiza textului reprezintă procesul de analiză a textului nestructurat, extragerea informațiilor relevante și transformarea acestuia în informații structurate care pot fi apoi utilizate în diverse moduri.
Procesele de analiză și extracție au avantajul tehnicilor care au originea în lingvistică, statistică și alte discipline informatice.
Uneori, un exemplu poate ajuta la explicarea unui subiect complex. Să presupunem că lucrați pentru departamentul de marketing într-o companie de telefonie mobilă. Tocmai ați lansat două noi planuri de apelare - Planul A și Planul B - și nu obțineți absorbția pe care ați dorit-o în planul A. Textul nestructurat din notele din centrul de apel vă poate oferi o anumită perspectivă asupra motivului pentru care sa întâmplat acest lucru.
Cuvintele subliniate furnizează informațiile de care ar putea fi necesare pentru a înțelege de ce Planul A nu este adoptat rapid. De exemplu, planul entității A apare în notele centrului de apeluri, indicând faptul că rapoartele menționează planul.
Termenii minute de redirecționare, date de 4 GB, plan de date, și scumpe reprezintă o dovadă că există o problemă cu minutele de revizuire, planul de date și prețul. Cuvintele precum ridicole și stupide oferă o perspectivă asupra sentimentului apelantului, care în acest caz este negativ.
Procesul de analiză a textului utilizează algoritmi diferiți, cum ar fi înțelegerea structurii propoziției, pentru a analiza textul nestructurat și apoi a extrage informații și pentru a transforma informațiile în date structurate. Datele structurate extrase din textul nestructurat sunt ilustrate în Tabelul 13-1.
Identificatorul | Entitatea | Emisiunea | Sentimentul |
---|---|---|---|
Cust XYZ | Planul A | Minute | negativ |
XXXX | planul A | scump | neutru |
XXXX | planul A | planul de date | neutru |
cust XYT > Planul A | Planul de date | Negativ | Poți să te uiți la asta și să spui: "Dar aș fi putut să-mi dau seama că prin analizarea înregistrărilor call center-ului. "Cu toate acestea, acestea sunt doar un mic subset al informațiilor înregistrate de mii de agenți de call center. Fiecare agent individual nu poate sesiza o tendință largă în ceea ce privește problema cu fiecare plan care este oferit de companie. |
Agenții nu au timpul sau cerința de a împărtăși această informație tuturor celorlalți agenți ai centrului de apel care ar putea primi numere similare de apeluri despre planul A. Totuși, după ce aceste informații sunt agregate și procesate folosind algoritmi de analiză text, pot apărea din aceste date nestructurate. Asta face ca analizele de text să fie atât de puternice. | Căutarea este despre recuperarea unui document în funcție de ce utilizatori finali știu deja că căută. Analiza textului vizează descoperirea informațiilor. În timp ce analizele de text diferă de căutare, pot spori tehnicile de căutare. De exemplu, analizele de text combinate cu căutarea pot fi utilizate pentru a oferi o mai bună clasificare sau clasificare a documentelor și pentru a produce rezumate sau rezumate ale documentelor. | Există patru tehnologii: interogare, extragere de date, căutare și analiză de text. În partea stângă a tabelului se află interogarea și căutarea, care sunt atât despre recuperare. De exemplu, un utilizator final putea interoga o bază de date pentru a afla câte clienți au încetat să utilizeze serviciile companiei în ultima lună. | Interogarea va returna un singur număr. Doar prin solicitarea unor interogări mai multe și diferite, utilizatorul final va obține informațiile necesare pentru a determina motivul pentru care clienții pleacă. De asemenea, căutarea de cuvinte cheie permite utilizatorului final să găsească documentele care conțin numele concurenților unei companii. Căutarea va returna un grup de documente. Numai prin citirea documentelor, utilizatorul final va găsi răspunsuri relevante. |
Recuperare
Insight
Structurat
Interogare: Returnează datele
Explorare date: Insight din date structurate < Tehnologiile din stânga returnează informații și necesită interacțiune umană pentru a sintetiza și analiza aceste informații. Tehnologiile din dreapta - miniere de date și analize de text - oferă o perspectivă mult mai rapidă. Sperăm că valoarea analizelor de text pentru organizația dvs. devine clară.