Analizza e ri-utilizza i dati di Mine2018

Analizza e ri-utilizza i dati di Mine2018

Mapping Italian News - Elezioni 2018 è stato concepito fin dall’inizio come un progetto aperto. Tutti i risultati del progetto (report intermedi e finale) saranno rilasciati sotto licenza creative-commons.

Data journalist e ricercatori possono però essere particolarmente interessati anche ai dati raccolti dal progetto che sono anch'essi resi disponibili sotto lo stessa licenza per favorire la replicazione e l’estensione delle analisi svolte. I dati del progetto sono resi disponibili su Harvard Dataverse e sono accessibili direttamente nella sezione Live Data del sito.

Al momento sono disponibili due dataset.

Il primo consiste in una raccolta di Twitter ids contenente gli id di tutti i re-tweet degli account dei principali partiti politici e politici italiani pubblicati durante il mese di Novembre 2017. Si tratta di 172.054 id corrispondenti ad altrettanti retweets pubblicati da 32.936 utenti unici. Purtroppo le policy della piattaforma Twitter non ci consentono di ri-pubblicare l’intero dataset dei tweet ma solo gli id. A partire da questi id è tuttavia possibile ricostruire l’intero dataset attraverso un processo chiamato “rehydration” (ovvero ricostruire i dati mandanti interrogando le API di Twitter a partire dall’id di un tweet). Per i più curiosi abbiamo anche pubblicato un semplice elenco degli utenti nel dataset con il rispettivo numero di re-tweet. Attraverso questo dataset effettueremo una stima della vicinanza di ciascun utente a ciascun partito politico. Al momento è in corso una raccolta di tutti i tweet prodotti dai 5000 utenti più attivi nel mese di gennaio. Osservando i link a fonti di informazione pubblicati da questi utenti stimeremo la vicinanza di ciascuna fonte a ciascun partito politico. La stessa procedura sarà inoltre ripetuta con i retweet pubblicati nel mese di gennaio (la cui raccolta è anche essa in corso) ed i tweet pubblicati da questo set di utenti da febbraio al giorno delle elezioni.

Il secondo dataset è invece aggiornato quotidianamento allo scoccare della mezzanotte e consente a data journalist e ricercatori di sfruttare in tempo “quasi reale” i dati raccolti da Mine2018 per ulteriori analisi e/o applicazioni interattive. L’infrastruttura informatica predisposta per il progetto ha raccolto (e continua a farlo), a partire dal primo settembre 2017, oltre 50.000 notizie sulla politica italiana provenienti da oltre 3.000 diverse fonti di informazione. Di queste notizie abbiamo seguito il ciclo di vita per una settimana dalla data di pubblicazione misurando ogni due ore il numero di commenti, condivisioni e reazioni ricevute da queste notizie su Facebook. Questo dataset contiene l’elenco completo di queste rilevazioni. Ciascuna osservazione contiene un id che identifica la notizia come oggetto nel Facebook Graph, il numero di reazioni, commenti, condivisioni e commenti da plugin osservati, la data di creazione dell’osservazione, l’indirizzo internet della notizia, la sua fonte, tipologia e data di pubblicazione. Il dataset è reso disponibile pubblicamente attraverso Google BigQuery a ni-ge2018:mine.archive. Per accedere ai dati è necessario seguire le istruzioni per l’accesso ai dataset pubblici disponibili sul sito di Google BigQuery. Un utile esempio pratico lo trovate nel post Analyzing 50 billion Wikipedia pageviews in 5 seconds (beginner tutorial) di Reddit (basta sostituire fh-bigquery:wikipedia.pagecounts_201505 con ni-ge2018:mine.archive).

Fateci sapere se e come pensate di utilizzare i dati di Mine2018 e seguite gli sviluppi del progetto su Facebook e Twitter