<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=336490476836615&amp;ev=PageView&amp;noscript=1">

Smart Blog

Tecnologie utilizzate per il Data Mining: la Sentiment Analysis

Davide Avella,

Quali sono le domande più frequenti sui motori di ricerca?Di ricerche su Google se ne fanno tante, le più disparate. Non molto tempo fa è stata pubblicata la lista delle query sul motore di ricerca più famoso al mondo e i risultati sono davvero sorprendenti. Se ci si aspetta che gli utenti digitino sulla barra di ricerca domande complesse si è decisamente fuori strada. Domande del tipo "Quali sono le lingue ufficiali dei Paesi Bassi?" probabilmente non rientrano nemmeno tra le prime 100.

 

Scopri subito la guida completa di Pentaho dalla A alla Z!

 

Al primo posto abbiamo contro ogni pronostico "What is my ip?". Al secondo "What time is" seguito il più delle volte da un'indicazione geografica, alla ricerca dell'ora esatta sui diversi fusi del mondo. Mentre al terzo posto troviamo "How to register to vote", una tipica domanda che si pongono gli americani per iscriversi alle liste elettorali. La quarta, "How to tie a tie", non ha bisogno di commenti.

Le query di ricerca si possono suddividere in diverse tipologie. Una divisione tipicamente anglosassone segue le regole delle cinque "W": who, what, when, where, why. In tempi non sospetti, però, anche gli scarni e austeri giornalisti d'oltremanica hanno aggiunto dettagli ai pezzi. Pertanto alle 5W si è aggiunta un H, quella di How. Anche questo tipo di query è molto gettonato sui motori di ricerca. "How to tie a tie" come si è visto prima, oppure "How to do Sentiment Analysis".

E questa è proprio la domanda a cui proverò a rispondere nei prossimi paragrafi. La Sentiment Analysis studia i testi dei post, dei messaggi e di tutti gli altri testi online al fine di valutare l'impatto che questi possano avere sugli utenti del web: vediamo quindi tre possibili strade per andare a operare questo tipo di analisi.

Metodo I: scegli il linguaggio di programmazione

La Sentiment Analysis nasce nell'ambito del Text Mining. Pertanto un linguaggio di programmazione è particolarmente adatto alla costruzione di modelli di apprendimento automatico per la previsione della positività o negatività di un testo. Con l'avvento della Data Science come disciplina si sono affermati due linguaggi su tutti: Python e R. Entrambi hanno a disposizione una serie di librerie per l'elaborazione del linguaggio naturale, risorse lessicali di diverso tipo. NLTK è la libreria di Python, mentre per R il modulo è TM che ha dei pacchetti nativi anche per la lettura di diversi formati di file PDF e XML.

Metodo II: scegli il software

Se non si ha dimestichezza con i linguaggi di programmazione, un'altra opzione è affidarsi a strumenti dotati di interfacce che consentano la costruzione di flussi. Fra i tanti a disposizione, di seguito un sottoinsieme con le principali caratteristiche.

1. Weka

È un software Open Source per il Data Mining incluso come componente all'interno di Pentaho che fornisce metodi per la pre-elaborazione di testo, come ad esempio il disegno informazioni da un database e la lettura di file CSV e un insieme di algoritmi di apprendimento automatico.

2. Knime

Piattaforma di riferimento nell'ambito dell'Open Source che mette a disposizione più di 100 moduli e un'ampia scelta di algoritmi avanzati. Limitato, però, nella versione open a dataset di piccole dimensioni.

3. Rapid

Miner Dotato di un'avanzata interfaccia utente grafica che aiuta nella visualizzazione delle informazioni in modi descrittivi, come istogrammi, e aiuta anche in fase di sviluppo del flusso di lavoro.

4. Qlik

In possesso di un connettore che consente di interrogare diverse API per fare analisi di tipo Sentiment. Punto di forza è la funzionalità batch, che mette in coda le chiamate e permette di lavorare in parallelo.

Metodo III: scegli il servizio

La terza possibilità è servirsi di un API, ossia un servizio collegato a un web server che, una volta interrogato, restituisca come output un valore di sentiment positivo o negativo del testo sottoposto. Molti di questi servizi sono accessibili facilmente via web o possono essere richiamati sia all'interno di software sia di linguaggi di programmazione. Entro un certo numero di chiamate questi servizi sono gratuiti, superata una certa soglia è necessario pagare una sottoscrizione.Sentiment Analysis sui social network Come anche ben documentato in letteratura, la Sentiment Analysis guadagna accuratezza nel momento in cui ha a che fare con testi molti lunghi, dato che è più facile ricostruire il contesto. Questa situazione ideale è molto lontana dalla realtà dei social network dove i testi sono prevalentemente molto brevi, con espressioni gergali, emoticon e abbreviazioni. Pertanto diversi prodotti si sono specializzati in analisi dei sentiment su testi web e social, anche in lingue molto diverse dalla nostra come il cinese!

La Sentiment Analysis è solo uno dei tanti aspetti di cui si può occupare la Business Intelligence nel settore Retail. Pentaho, la più completa e innovativa piattaforma di BI Open Source, utilizza Weka e molti altri strumenti utili all'analisi del proprio business. Scarica la guida gratuita di Pentaho e vedi come sia in grado di sostenere il tuo business con l'analisi dei dati e la Business Analytics! Ti basta un clic:
Pentaho dalla A alla Z: scarica la guida gratuita!

Condividi l'articolo

   

Commenti

New call-to-action

Iscriviti alla Newsletter

Condividi questo blog