Google Dataset Search, il ‘nuovo’ motore di ricerca delle banche dati

Data storageDatabaseProgetti

Editori, ricercatori e istituzioni possono rendere pubblici e facilmente ricercabili i propri dataset sulla scorta delle linee guida proposte da Google, ricercatori e gli studiosi potranno ricercarli sfruttando Dataset Search

Google Dataset Search è una sorta di motore di ricerca, ma assolutamente non è assimilabile a Google come lo utilizziamo tutti i giorni. Permette infatti di trovare gli archivi di dati sul Web, non i singoli risultati di una query, e per questo risulterà utilissimo a scienziati, studiosi, giornalisti, a tutti coloro che intendono approfondire, sulla scorta di dataset, i propri studi.

Il funzionamento di Google Dataset Search è ovviamente più articolato rispetto a quello del normale motore. I set di dati infatti possono essere ospitati sul sito di un editore, in una biblioteca digitale o su una semplice pagina.

Google ha stilato linee guida per i fornitori di dataset che consentisse di descrivere i propri dati, per esempio chi ha generato il set di dati, quando sono stati pubblicati, come sono stati raccolti, i termini di utilizzo e così via.

Google raccoglie e collega le informazioni, le analizza e cerca pubblicazioni che possano descriverli o argomentarli. L’approccio si basa sullo standard schema.org, chiunque pubblica dati può utilizzarlo e lasciarsi indicizzare, per farsi trovare più facilmente.

La ricercatrice scientifica Natasha Noy, che la settimana scorsa ha contribuito a diffondere la disponibilità della beta di Google Dataset Search sul blog di Google, spiega come la beta “permetta già di trovare riferimenti alla maggior parte dei set di dati delle scienze ambientali e sociali, così come i dati di altre discipline, compresi i dati governativi e i dati forniti da organizzazioni giornalistiche, come ProPublica. Con l’aumento degli archivi di dati che utilizzano lo standard schema.org per descrivere i loro set di dati, la varietà e la copertura dei set di dati che gli utenti troveranno in Dataset Search, continuerà a crescere”.

L’iniziativa di Google è tanto interessante ma merita anche una serie di riflessioni. Da un lato infatti la ricerca con il nuovo motore non restituisce i dati dell’indicizzazione Web, ma allo stesso tempo rende disponibili anche alla stessa Google dataset importanti finora non analizzabili dal gigante di Mountain View.

Chi detiene i dataset ovviamente può decidere di non aderire per nulla all’iniziativa, mantenendo la riservatezza sulle proprie banche dati, ma nel caso in cui volesse renderli disponibili ad un numero maggiore di esperti ora può farlo senza problemi. I dataset indicizzati non sono ospitati sui server Google, ma indubbiamente Google sulla scorta di schema.org ha piena possibilità di analisi sugli stessi dataset.

Le prime ricerche che abbiamo effettuato non sono risultate particolarmente significative per quanto riguarda almeno il nostro Paese, tutta da scoprire la volontà di istituzioni, università e ricercatori ad aderire all’iniziativa.

Clicca per leggere la biografia dell'autore  Clicca per nascondere la biografia dell'autore