Mine2018 mira a creare una mappatura della copertura mediatica su temi politici prodotta dai media italiani in vista delle elezioni politiche del 2018 analizzando il livello di engagement prodotto intorno a queste notizie sui social media. In questo post, presentiamo le prime coordinate di riferimento di questa mappatura descrivendo nel dettaglio la metodologia seguita.
Parallelamente al dataset su cui si basano i live-data, il servizio di notizie di tendenza ed i report settimanali, abbiamo raccolto negli scorsi mesi altri due dataset fondamentali per costruire la nostra mappatura delle fonti. Il primo raccoglie tutti i retweet degli account dei principali partiti e attori politici italiani durante il mese di novembre 2017 (N=172.046). Il secondo include invece tutti i tweet pubblicati dai 5.000 utenti più attivi del primo dataset, durante il mese di gennaio 2018 (N=3.231.715 di cui 1.049.388 con url). La metodologia messa a punto per il progetto, prevede di classificare gli utenti in base alla loro vicinanza ai diversi partiti (basando questa stima sugli account retwittati e la distribuzione dei retweet) e di classificare, a cascata, le fonti analizzando i link pubblicati da questi utenti nel loro profili. In altri termini, utenti vicini ad un certo partito che linkano spesso nei loro tweet una certa fonte di informazione, rendono questa fonte vicina a quel partito partito.
Abbiamo utilizzato questi due dataset come banco di prova per sviluppare, testare e affinare la metodologia di mappatura che abbiamo progettato. I dati della mappatura che presenteremo nel report finale saranno basati su un dataset di retweet del mese di gennaio 2018 e di tweet dei 5.000 utenti più attivi in questo dataset dal primo di febbraio al 4 marzo 2018, giorno delle elezioni.
Anche se non siamo ancora in grado di fornire una mappatura su questi dati preliminari, abbiamo deciso di condividere alcune impressioni che emergono dalle relazioni fra utenti e fonti di informazione.
L’analisi delle fonti condivise dagli utenti durante Gennaio 2018 rivela diversi aspetti interessanti. Tabella 1 mostra le 15 fonti più condivise su Twitter nel periodo analizzato dagli utenti monitorati:
Occorre ricordare che questi numeri non tengono in considerazione le condivisioni di link alle pagine Facebook delle testate ma unicamente i link diretti ai siti delle varie testate.
Come osserviamo quotidianamente nei dati delle condivisioni, reazioni e commenti su Facebook, è interessante notare che anche su Twitter, a fianco delle maggiori testate nazionali compaiono anche siti di informazione problematica già inclusi nelle black list di siti come Bufale.net. I dati raccolti su Twitter ci permettono però di andare oltre e costruire una rete che unisce utenti e fonti condivise. Da questa rete, tecnicamente definita una rete bipartita, è possibile estrarne un’altra che presenta solo domini connessi qualora siano stati condivisi dagli stessi utenti. In questa nuova rete i domini che più di frequente sono condivisi dagli stessi utenti si troveranno quindi maggiormente connessi.
Un’analisi dei cluster presenti in questa seconda rete ci permette di esplorare i domini e le testate più condivise su Twitter osservando raggruppamenti di siti che vengono condivisi dagli stessi utenti.
Figura 1 mostra questa seconda rete e rivela alcune strutture interessanti. Innanzitutto è possibile individuare tre macro gruppi di domini (che da soli coprono il 77% di tutti i domini presenti). I colori sono stati attribuiti causalmente dall’algoritmo Modularity Class di Gephi.
Gruppo Rosa #1
Un primo gruppo – colore rosa - comprende i maggiori quotidiani nazionali (La Repubblica, Il Corriere della Sera, La Stampa, Il Messaggero, il Sole 24 Ore, ma anche testate online come l’Huffington Post).
Gruppo Azzurro #2
Un secondo gruppo – colore azzurro - si aggrega attorno al dominio de Il Fatto Quotidiano ma anche il dominio beppegrillo.it e dagospia.com.
Gruppo Verde #3
Il terzo gruppo – colore verde – si aggrega attorno a testate tradizionalmente associate alle forze politiche di destra come Il Giornale e Libero. In questo stesso cluster appaiono tuttavia anche diversi siti di informazione problematica (spesso di stampo razzista) quali ImolaOggi, DirettaNews, Tuttiicriminidegliimmigrati ed altri.
Esistono poi altri due cluster, numericamente molto inferiori, di cui può essere interessante notare l’esistenza.
Gruppo Nero #4
Il primo di questi due – colore nero – che include circa il 6% dei domini, presenta essenzialmente domini stranieri politicamente orientati a destra (Breitbart News, Russia Today, Voice of Europe). Queste fonti in lingua non italiana sono escluse dal progetto di mappatura, ma è comunque interessante notarne la vicinanza.
Gruppo Arancione #5
Il secondo di questi cluster minori – colore arancione – che copre il 4.5% dei domini condivisi è di più difficile etichettatura comprendendo siti quali la7.tv ma anche scenarieconomici.it, vocidallestero.it e sputniknews.