<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=336490476836615&amp;ev=PageView&amp;noscript=1">

Stimare la fiducia dei consumatori arabi con la Sentiment Analysis su Twitter

Jadara
people

Il cliente

Jadara solutions è un'azienda Saudita che fornisce soluzioni di IT per il medio oriente. L'azienda ha sede a Riad, capitale dell'Arabia Saudita, con filiali operative in altri paesi. Prima di Jadara, i fondatori dell'azienda hanno lavorato per lungo tempo in grandi multinazionali IT (IBM, HP, BMC...) acquisendo un background sia in ambito tecnico che manageriale. 

Il vantaggio competitivo di Jadara è costituito dalla capacità di fornire soluzioni personalizzate e adattate alle necessità del singolo cliente.  Le grandi multinazionali infatti si focalizzano troppo sui prodotti che vendono e sono legate dai processi organizzativi interni, fattori che impediscono loro di fornire alla clientela soluzioni personalizzate.  L'azienda vanta partner di caratura internazionale quali QlikView, GDE, New Frontier Group, Inspur, ISYX.  L'obiettivo di Jadara è quello di costruire solide competenze in ambito IT e di sviluppare network di vendite tra Medio Oriente, Europa e Africa.

gps_fixed

La sfida

L'avvento dei Big Data, conseguente alla diffusione nella nostra quotidianità dei social media e delle nuove tecnologie, ha influenzato pesantemente ogni azienda il cui core business è l'analisi dei dati; in particolar modo, le aziende e gli istituti nazionali che si occupano di fornire le statistiche ufficiali, influendo quindi anche sulle politiche statali. In questo senso i Big Data sono molto interessanti: soprattutto in ottica di produzione delle statistiche, offrono numerose possibilità, possono essere combinati con fonti di dati tradizionali e offrono inoltre la possibilità di creare nuove statistiche. Ad esempio, la localizzazione del cellulare permette di indagare i flussi turistici, creando un nuovo indicatore di possibile interesse. L'obiettivo del progetto per Jadara era quello di studiare la correlazione tra il sentiment espresso dagli utenti arabi su Twitter e l'indice di fiducia dei consumatori, il CCI (Consumer Confidence Index). Questo indice misura la percezione delle famiglie riguardo lo stato dell'economia.
build

Le Tecnologie

Elasticsearch è un server di ricerca progettato con l'obiettivo di estrarre dati da qualsiasi fonte, analizzarli ed esaminarli. Open source e basato su Apache Lucene, risulta anche molto scalabile e integrabile.

Python è frutto dell'ingegno di Guido van Rossum, costituisce un linguaggio di programmazione flessibile, dinamico e semplice, soddisfa esigenze di programmazione generale

Kibana è un plugin di Elasticsearch che è stato sviluppato per compiti di data visualization. Fa parte dell'universo open source, garantisce rappresentazioni di dati in tempo reale e interattive. 

Discover la "dicovery page" aiuta a esplorare in maniera interattiva i risultati delle ricerche. Tra gli altri fornisce un istogramma che permette di vedere la distribuzione dei documenti nel corso del tempo.

Dashboard sono dei tool che offrono varie funzionalità di visualizzazione. Le visualizzazioni possono essere facilmente condivise, salvate o esportate e possono essere ordinate a proprio piacimento.

Descrizione del Progetto

Descrizione del progetto | Jadara e la Sentiment Analysis su Twitter

Descrizione sintetica

Il progetto è iniziato definendo gli obiettivi di data mining da raggiungere per soddisfare gli obbiettivi di Jadara e degli stakeholder coinvolti. Dopo aver definito gli obiettivi, si è passati a definire il tipo di dati più adatti per raggiungerli. Per quanto riguarda il Consumer Confidence Index, tra le altre opzioni disponibili è stato deciso di estrarre solo i messaggi social provenienti da Twitter.

A questo punto, nel progettare il modello di Sentiment Analysis sono state fronteggiate due sfide. La prima è stata quella di riuscire a classificare le opinioni personali; la seconda è stata riuscire a classificare non solo le opinioni dirette ma anche quelle indirette.

Quindi è stato sviluppato il modello per la Sentiment Analysis, in particolare quello lessicale. Il database di fonti lessicali è stato composto con:

  • parole arabe positive;
  • parole arabe negative;
  • emoticon positive e negative;
  • emoji positive e negative.

Jadara ha dato un fondamentale supporto al team di Extra Smart nella selezione delle parole arabe da inserire nel database, indicando quelle più utilizzate in relazione ai vari argomenti.

Le parole e le emoticon positive sono associate a +1 mentre quelle negative a -1, mentre le emoji variano in un range che va da -1 a +1.

Lo score del sentiment assegnato a ogni tweet viene calcolato sommando i punteggi di questi quattro punti e dividendo il tutto per il numero di parole nel tweet. Infine, tramite la tabella di contingenza, sono stati valutati i risultati: le categorie delle opinioni individuate sono state comparate con le vere categorie verificabili sul data set utilizzato per il progetto.

Le piattaforme utilizzate

Python: questo linguaggio di programmazione è stato utilizzato per scaricare il dati da Twitter tramite le rispettive API. 

Nell'ambio dell'applicazione del Lexicon-Based Approach.

SentiWordNet: è il dizionario utilizzato come fonte per le operazioni e gli strumenti di Sentiment Analysis, calibrato sulla lingua inglese.

MultiWordNet: è il dizionario multilingua che permette di fare le traduzioni da SentiWordNet con una buona approssimazione.

Elasticsearch: è il server di ricerca utilizzato per individuare informazioni legate al progetto.

Kibana: utilizzata per visualizzare le informazioni ricercate con Elasticsearch. Sono state progettate 4 dashboard:

  • dashboard generale con interfaccia Araba;
  • dashboard generale con interfaccia Inglese;
  • dashboard basata su dati relativi all'interfaccia Araba;
  • dashboard basata su dati relativi all'interfaccia Inglese.

Le quattro Dashboard sono collegate a un URL e un'icona che consente in un attimo di passare dall'interfaccia inglese a quella araba. 

I Risultati

Le Dashboard, che riassumono i risultati del più ampio lavoro fatto dal team di Extra Smart, mostrano informazioni sulle percezione ed emozioni della popolazione. Alcune delle informazioni raccolte nelle Dashboard sono il nome degli user più influenti su Twitter, il livello di sentimento medio nel tempo e gli hashtag più utilizzati nei vari giorni (per identificare gli argomenti di discussione).

 

3 casi d'uso della Sentiment Analysis su Twitter!

La testimonianza

  • Carlo Vaccari

    Questa è stata un'esperienza molto interessante, come potete immaginare. Lavorare su una lingua di cui non si conosce neanche l'alfabeto ha introdotto delle difficoltà impreviste all'inizio, però ci siamo trovati molto bene a lavorare insieme a Extra e abbiamo integrato bene le competenze più di tipo statistico e metodologico-organizzativo con le competenze degli amici di Extra Smart.

    Carlo Vaccari, Istat, International Cooperation

Sfida vinta con successo grazie a Extra Smart!

I numeri del gruppo Extra

people

80

persone

assignment_turned_in

97

certificazioni

thumb_up

5611

follower

directions_run

257

ore di ping pong all'anno

*Certificazioni in Hubspot, Openbravo, Pentaho, Red Hat, ISIPM, PRINCE2, ITIL, SCRUM