Scenarij 1: Obstoječa publikacija

5.1 Scenarij 1: Obstoječa publikacija

Kaj imamo?

Imamo publikacijo bodisi v tiskani ali elektronski obliki, ki vsebuje javno evidenco ali drugo obliko tabelaričnega ali strukturiranega zapisa in predstavlja vrednost za ponovno uporabo. To so lahko npr. brošure, letna poročila, končna poročila projektov, grafične predstavitve podatkov itd., in sicer v:

• nedigitalizirani obliki, kot npr. tiskovina v papirni obliki ali slika tabele v formatih JPEG, TIFF, GIF

• digitalizirani obliki, kot npr. DOC, DOCX, PDF, TXT, HTML.

Kaj naredimo?

V primeru nedigitalizirane oblike je treba tabele/razpredelnice najprej digitalizirati. Pri tem lahko digitaliziramo ročno (prepis podatkov v odprti format) ali strojno (optično odčitavanje in uporaba specializirane programske opreme za digitalizacijo). V primeru digitalizirane oblike najprej poskusimo s preprostim kopiranjem podatkov v odprti format ali pa z uporabo specializirane programske opreme (npr. za pretvorbo tabel v dokumentu PDF v dokumente XLS/CSV). Kadar zaradi kompleksnih ali slabo strukturiranih tabel navadno kopiranje ni možno, morate z dokumentom ravnati, kot da je nedigitaliziran (potreben ročni/strojni prepis). Tabele je pred pretvorbo v format CSV treba urediti, tako da vsak stolpec predstavlja posamezni atribut, vsaka vrstica vsebuje posamezni zapis – npr. odpraviti je treba združene vrstice. Vsak stolpec mora imeti poenoten format zapisa (npr. število, datum, besedilo ipd.) ter uporabljati poenoten zapis (število decimalnih mest, oblika datuma). Pri določitvi imena dokumenta in strukturi dokumenta CSV upoštevamo priporočila, ki so navedena v nadaljevanju. Primer Evidenca merilnih postaj s pripadajočo strojno opremo je na voljo v nedigitalizirani obliki, vključena je bila v brošuro, ki se je natisnila pred 10 leti. Digitalna oblika dokumenta ni na voljo, vseeno pa bi radi evidenco odprli za javnost, saj je seznam pogosto zahtevan kot informacija javnega značaja. V načrtu za odpiranje podatkov je predvideno, da se evidenca objavi v obliki dokumenta CSV. Pooblaščena oseba za odpiranje najprej preveri, ali je seznam merilnih postaj in pripadajoče strojne opreme še aktualen in ažuren in ga nato prepiše v ustrezen dokument CSV. Priporočila Ime datoteke CSV naj bo nedvoumno, kratko, vsebuje naj zgolj pojav, ki ga opisuje, dodatno tudi časovno obdobje in prostorski okvir. Ime naj ne vsebuje presledkov, uporabite podčrtaje. Obvezna je končnica csv (in ne txt, tsv, xls). V imenu uporabljajte velike in male črke (a-z, A-Z), ne uporabljajte sičnikov in šumnikov, posebnih znakov ali ločil. Priporočeno je, da uporabljate standardne slovarje, če obstajajo. Primer: Evidenca_merilnih_postaj_2016.csv

V dokumentu CSV upoštevajte naslednja priporočila:

1. Ločila (separator) so podpičja ";" (in ne tabulatorji, presledki, vejice ipd.), sicer se lahko zaradi uporabe teh ločil v tekstovnih poljih popači struktura dokumenta.

2. Decimalno mesto se označuje z decimalno piko (in ne z vejico).

3. Tekstovna polja so omejena z narekovaji: "tekst".

4. Kodiranje naj bo nastavljeno na UTF-8 (brez BOM) ali Windows-1250, drugi kodirni standardi imajo težave z nekaterimi črkami (ČŽŠčžš). 

Priporoča se, da se datoteke CSV urejajo v ustreznem brezplačnem programu (kot npr. Notepad++). Če se datoteke CSV izvozijo iz npr. MS Excela, jih je pogosto treba dodatno pretvoriti v ustrezen kodirni standard in prilagoditi prikazovanje decimalnih ločil.

Strukturna datotečna priporočila:

1. Prva vrstica dokumenta naj vsebuje imena stolpcev, ki naj bodo kratka in nedvoumna. Število zapisov, ločenih s separatorji, naj bo enako kot v vsaki naslednji vrstici s podatki.

2. Ne dodajajte dodatnih vrstic s pojasnili ali metapodatki. Če želite pojasniti vsebino in obliko zapisa posameznih stolpcev, naredite ločeno datoteko, v kateri navedete strukturne metapodatke.

3. Vrstice naj bodo zaključene z znakom LF (0x0A) ali CRLF (0x0D0A), znotraj podatkov naj se ne uporabljajo oznake za novo vrstico \n.