Web tracking: 9 siti su 10 comunicano informazioni su di noi a terzi

BrowserErp e CrmSoftwareWorkspace

L’88 percento dei siti che visitiamo esegue richieste HTTP verso molte altre realtà, comunicando così qualche dato su noi. In cima ai “curiosi” c’è Google.

Timothy Libert, ricercatore della University of Pennsylvania, ha pubblicato sull’International Journal of Communication uno studio condotto in merito a quanto un sito web che visitiamo condivida con terze parti le informazioni che implicitamente riceve dal nostro browser quando accediamo a una sua pagina. Il fenomeno del web tracking ovviamente è noto da tempo ed è una delle basi fondanti della pubblicità online e in positivo della personalizzazione dei servizi online, lo studio di Libert ha cercato di darne una quantificazione identificando anche a quali realtà faccia capo maggiormente.

Dal punto di vista metodologico il lavoro di Libert si è basato sull’analisi delle third party request generate da un campione significativo di siti. Le third party request sono le chiamate HTTP che la pagina che stiamo visitando genera verso siti diversi da quello che abbiamo esplicitamente scelto, chiamate che servono a caricare nella pagina contenuti di vario tipo (immagini, video, fogli stile, script…) e che, secondo altri studi citati da Libert, sono uno strumento potente quanto i cookie per analizzare il nostro comportamento sul web. Una sola “difficilmente porterà a identificare un utente, ma migliaia possono essere correlate a un dato utente“, spiega Libert.

Un esempio di analisi di TrackerMap Live
Un esempio di analisi delle “chiamate” esterne a un sito eseguita da Ghostery

Chiaramente una pagina può generare richieste di contenuti per motivi assolutamente innocui, ma analizzando una grande quantità di siti e le richieste che generano è possibile – secondo Libert – evidenziare le third party request che avvengono con regolarità e che quindi sono associate a qualche meccanismo di identificazione. Per avere un campione di siti e un volume di richieste significativi Libert ha scelto di esaminare il primo milione circa di siti “top” secondo la classifica di Alexa dei più visitati.

Questo milione circa di siti è stato dato in pasto a un software open source (webXray) che simula il comportamento di un browser pur non avendo una parte di visualizzazione: carica il sito, ne raccoglie i cookie e rileva le richieste HTTP generate. Queste vengono poi immesse in un database, analizzate e classificate in base al dominio che hanno richiamato e il contenuto che hanno richiesto.

Lo scopo della classificazione era identificare le regolarità nei domini più richiamati e nei contenuti più richiesti. I primi 100 domini richiamati sono poi stati associati alle aziende che li hanno registrati usando whois o altri sistemi più “manuali”, cercando poi di collegare l’azienda risultante a una eventuale azienda capofila, se esistente. Entrambe queste operazioni sono servite a collegare il tracciamento alle aziende che davvero lo eseguono, molte delle quali utilizzano (lecitamente) più domini anche molto diversi fra loro e poco identificabili.

La distribuzione percentuale dei siti conttati per le third party request

La distribuzione percentuale dei siti contattati per le third party request

Il metodo di Libert è riuscito ad analizzare compiutamente 950.489 siti durante il mese di maggio del 2014. Le pagine analizzate hanno “distribuito” complessivamente 7.564.492 cookie unici e hanno attivato quasi tutte (88 percento) le third party request. Libert ha registrato 1.056.533 richieste HTTP distinte per un totale di 21.214.652 elementi caricati distinti. In media, secondo le analisi, un sito visitato che attivi third party request contatta 9,47 altri domini distinti. Segno che, secondo Libert, “non solo i dati dell’utente sono condivisi frequentemente, ma spesso lo sono con più parti contemporaneamente“.

Dal punto di vista della proprietà dei siti contattati nelle third party request Google batte largamente tutti con il 78 percento di attribuzione delle richieste. Seguono poi altri nomi noti del web come Facebook, Akamai, Twitter, comScore, Amazon e AppNexus. E una coda lunga di aziende meno significative.

Read also :
Clicca per leggere la biografia dell'autore  Clicca per nascondere la biografia dell'autore