Fork dati Istat
A seguito di un thread apparso sulla mailing list Gfoss, ecco una pagina Wiki per discutere dell'idea.
Indice |
[modifica] L'idea
L'Istat, dietro richiesta, fornisce le coordinate dei centri abitati d'Italia con una licenza assimilabile ad una CC-By. La proposta è quella di effettuare un fork dei dati per consentire alla comunità di manutenere e migliorare questa base di dati, nonché renderla più accessibile.
Per quanto riguarda la licenza c'è il problema di formalizzare meglio quello che Istat concede, tuttavia questa mail di accompagnamento ai dati che ho ottenuto dall'Istat è abbastanza chiara:
Date: 13 Jul 2005 I dati che le ho trasmesso vengono diffusi dall'Istat senza licenza d'uso e possono essere citati purché se ne indichi la fonte Istat. Cordiali saluti. Istituto nazionale di statistica Direzione centrale per la diffusione della cultura e dell'informazione statistica Servizio sistema informativo diffusione e servizi all'utenza - Sid/b Tel. +39 06 46733269 Fax +39 06 46733477 mail to richieste.dati@istat.it
[modifica] I dati disponibili
8100 record completi di toponimo, codice regione, codice provincia e coordinate corrispondenti all'incirca ai capiluogo comunali. Questi dati sono stati ripuliti e aggiornati da Niccolo Rigacci e sono disponibili per il download sul suo sito. Ci sono inoltre circa 51.000 centri abitati minori privi del numero di residenti, su questi record Guido Piazzi ha fatto un'operazione di aggiornamento e pulizia dei toponimi.
[modifica] Necessità del fork
- Dati Istat aggiornati al 1991, gli (eventuali) aggiornamenti non sono disponibili in tempo reale. Mancano le nuove province, il numero dei residenti è quello del censimento 2001, le coordinate potrebbero essere molto più precise, ecc.
- La comunità non può intervenire per migliorare i dati Istat. In caso di nuovo rilascio da parte di Istat gli interventi migliorativi vanno persi. Es. tutto il lavoro fatto per la correzione dei toponimi; l'Istat ha ancora dati in maiuscolo con gli apostrofi al posto dell'accento (es. VESTIGNE') oppure sconosce l'uso dell'accento acuto (Gressoney La Trinitè invece di Gressoney La Trinité).
- I dati Istat non sono disponibili in download facile e rapido.
[modifica] Relazione con la categoria "Comuni italiani" di it.wikipedia.org
Valore aggiunto dell'eventuale progetto rispetto a Wikipedia (Categoria Comuni italiani, Province italiane):
- Download del database facile e veloce
- Visualizzazione su mappa (una libera e una Google map)
- Accesso tramite WFS
E' immaginabile uno strumento automatico per verificare l'allineamento dei dati, segnalando i casi di differenza/incompletezza (con logica fuzzy?). Lo scambio di informazioni da e verso wikipedia potrebbe essere effettuato con strumenti semiautomatici.
[modifica] Relazione con www.geonames.org
Valore aggiunto dell'eventuale progetto rispetto a Geonames:
- Dati non presenti in Geonames (appartenenza a provincia/regione, residenti, ...).
- Base dati di partenza più completa e controllata.
E' immaginabile uno strumento automatico che verifichi la presenza del dato Istat su Geonames (un po' di fuzzy su toponimo e coordinate) e provveda a caricare su Geonames i dati mancanti. Non credo che sia immaginabile il viceversa: i dati di Geonames sono poco dettagliati per poter arricchire il database Istat.
[modifica] Organizzazione, proposte
- Uno spazio Wiki per presentare i dati e discutere liberamente degli aggiornamenti.
- Un database dove un gruppo ristretto di committer possono effettuare gli aggiornamenti.
- Uno spazio per il download dei dati contenuti nel database.
- Un server WFS libero.
[modifica] Progetti correlati
- http://www.geonames.org/
- http://it.wikipedia.org/
- http://www.giscover.com/
- http://dbpedia.org/docs/ Extract structured information from Wikipedia
- http://wikimapia.org/