Fork dati Istat

Da GfossWiki.

A seguito di un thread apparso sulla mailing list Gfoss, ecco una pagina Wiki per discutere dell'idea.

Indice

[modifica] L'idea

L'Istat, dietro richiesta, fornisce le coordinate dei centri abitati d'Italia con una licenza assimilabile ad una CC-By. La proposta è quella di effettuare un fork dei dati per consentire alla comunità di manutenere e migliorare questa base di dati, nonché renderla più accessibile.

Per quanto riguarda la licenza c'è il problema di formalizzare meglio quello che Istat concede, tuttavia questa mail di accompagnamento ai dati che ho ottenuto dall'Istat è abbastanza chiara:

Date: 13 Jul 2005

I dati che le ho trasmesso vengono diffusi dall'Istat senza
licenza d'uso e possono essere citati purché se ne indichi la
fonte Istat.

Cordiali saluti.

Istituto nazionale di statistica
Direzione centrale per la diffusione della cultura
e dell'informazione statistica
Servizio sistema informativo diffusione e servizi
all'utenza - Sid/b
Tel. +39 06 46733269
Fax +39 06 46733477
mail to richieste.dati@istat.it

[modifica] I dati disponibili

8100 record completi di toponimo, codice regione, codice provincia e coordinate corrispondenti all'incirca ai capiluogo comunali. Questi dati sono stati ripuliti e aggiornati da Niccolo Rigacci e sono disponibili per il download sul suo sito. Ci sono inoltre circa 51.000 centri abitati minori privi del numero di residenti, su questi record Guido Piazzi ha fatto un'operazione di aggiornamento e pulizia dei toponimi.

[modifica] Necessità del fork

  • Dati Istat aggiornati al 1991, gli (eventuali) aggiornamenti non sono disponibili in tempo reale. Mancano le nuove province, il numero dei residenti è quello del censimento 2001, le coordinate potrebbero essere molto più precise, ecc.
  • La comunità non può intervenire per migliorare i dati Istat. In caso di nuovo rilascio da parte di Istat gli interventi migliorativi vanno persi. Es. tutto il lavoro fatto per la correzione dei toponimi; l'Istat ha ancora dati in maiuscolo con gli apostrofi al posto dell'accento (es. VESTIGNE') oppure sconosce l'uso dell'accento acuto (Gressoney La Trinitè invece di Gressoney La Trinité).
  • I dati Istat non sono disponibili in download facile e rapido.

[modifica] Relazione con la categoria "Comuni italiani" di it.wikipedia.org

Valore aggiunto dell'eventuale progetto rispetto a Wikipedia (Categoria Comuni italiani, Province italiane):

  • Download del database facile e veloce
  • Visualizzazione su mappa (una libera e una Google map)
  • Accesso tramite WFS

E' immaginabile uno strumento automatico per verificare l'allineamento dei dati, segnalando i casi di differenza/incompletezza (con logica fuzzy?). Lo scambio di informazioni da e verso wikipedia potrebbe essere effettuato con strumenti semiautomatici.

[modifica] Relazione con www.geonames.org

Valore aggiunto dell'eventuale progetto rispetto a Geonames:

  • Dati non presenti in Geonames (appartenenza a provincia/regione, residenti, ...).
  • Base dati di partenza più completa e controllata.

E' immaginabile uno strumento automatico che verifichi la presenza del dato Istat su Geonames (un po' di fuzzy su toponimo e coordinate) e provveda a caricare su Geonames i dati mancanti. Non credo che sia immaginabile il viceversa: i dati di Geonames sono poco dettagliati per poter arricchire il database Istat.

[modifica] Organizzazione, proposte

  • Uno spazio Wiki per presentare i dati e discutere liberamente degli aggiornamenti.
  • Un database dove un gruppo ristretto di committer possono effettuare gli aggiornamenti.
  • Uno spazio per il download dei dati contenuti nel database.
  • Un server WFS libero.

[modifica] Progetti correlati

Strumenti personali
Namespace
Varianti
Azioni
menu principale
GFOSS
Strumenti