Segui le notizie di tendenza sulle elezioni

Segui le notizie di tendenza sulle elezioni

Mentre la campagna elettorale entra nel vivo, iniziamo con questo post a descrivere le diverse funzionalità che questo sito metterà a disposizione di giornalisti, ricercatori, addetti ai lavori e semplici appassionati.

Il sistema informatico sul quale il sito è basato ha raccolto, a partire dal primo settembre 2017, oltre 50.000 notizie sulla politica italiana provenienti da oltre 3.000 diverse fonti. Di ciascuna di queste notizie abbiamo seguito il ciclo di vita per una settimana dalla pubblicazione misurando ogni due ore il numero di commenti, condivisioni e reazioni ricevute da queste notizie su Facebook.

Grazie a questi dati, siamo in grado di misurare le performance delle notizie monitorate rispetto a quelle pubblicate in precedenza e di individuare le notizie di tendenza. Per farlo abbiamo adattato, sviluppato e testato quattro diversi algoritmi che producono ogni ora una classifica delle 10 notizie di tendenza in base a diversi criteri. Queste classifiche sono disponibili nella sezione Live Data del sito. Ogni nuova notizia che raggiunge il primo posto di una di queste classifiche viene automaticamente pubblicata sul canale Telegram Mapping Italian News - Elezioni 2018 - Trending News con il relativo punteggio. Per rimanere sempre aggiornati è dunque sufficiente iscrivervi a questo canale.

Come detto, gli algoritmi in uso sono quattro: reddit_hotness_score, hacker_news_score, url_trending_score e  source_trending_score. I primi due solo liberamente ispirati agli omonimi servizi Reddit e Hacker News. Entrambi i siti hanno sviluppato algoritmi per identificare le notizie più popolari. Per le versioni in uso per questo progetto ci siamo basati sulle descrizioni degli algoritmi fornite da Amir Salihefendic sul suo canale Medium Hacking and Gonzo (vedi rispettivamente i post su Reddit e Hacker News).

Più nello specifico:

  1. - reddit_hotness_score misura la performance di una notizia come differenza fra una rilevazione e l’altra rispetto alle differenze analoghe osservate per le notizie pubblicate in precedenza. Il punteggio è ponderato in base al tempo di pubblicazione;
  2. - hacker_news_score si basa sui valori massimi osservati per ciascuna notizia rispetto ai valori massimi osservati per le notizie pubblicate in precedenza. Il punteggio è ponderato in base al tempo di pubblicazione;
  3. - url_trending_score è simile a hacker_news_score, ma considera separatamente le tre metriche (commenti, condivisioni e reazioni). Anche in questo caso il punteggio è ponderato in base al tempo di pubblicazione;
  4. - source_trending_score è simile a url_trending_score ma misura le performance della notizia confrontandole con i dati osservati dalle notizie pubblicate in precedenza dalla stessa fonte. Il punteggio è ponderato in base al tempo di pubblicazione.

Gli algoritmi sono implementati in R ed il codice relativo a ciascuno di essi è disponibile sul GitHub del progetto rispettivamente a reddit_hotness_score, hacker_news_score, url_trending_score e source_trending_score.

Se avete commenti o suggerimenti non esitate a contattarci attraverso i profili del progetto su Facebook e Twitter.