Публикувам предложение за Препоръки за публикуване на отворени правителствени данни. Това предложение е изготвено в процеса на работата на обществен съвет „Прозрачност“ към зам-министър Валери Борисов. Целта беше да се създадат общи насоки за базовите условия и изисквания, които трябва да се спазват при публикуване на отворени данни.
Тъй като от днес вече Валери Борисов не е на поста си, целта на тези препоръки може и да не се осъществи. Публикувам ги с надеждата да са нужни на някого някога и да може да ги използва. Искам да благодаря на Алекс Станев, Христо Трайков и Валери Борисов за бележките и коментарите по тях.
Препоръки за публикуване на отворени правителствени данни
Отчитайки:
- Политиката на Европейската комисия;
- Стандартизационните усилия и техническите препоръки на W3C;
- Обсъжданата Директива за повторно използване на информацията от обществения сектор и
- Опита на водещите държави в областта на отворените данни
изготвихме настоящите препоръки за публикуване на отворени правителствени данни:
Определения
За целите на настоящата препоръка:
- „Отворен формат“ е общодостъпен начин за възпроизвеждане на информация в цифров вид, който дава възможност на всеки да възприема, променя и създава информация, без да бъде обвързан с използвания софтуерен продукт или конкретен производител.
- „Машинно-читаем формат“ е формат, който позволява компютърна програма еднозначно и надеждно да идентифицира съдържащите се в електронния документ отделни данни, както и вътрешната им структура.
- „Преизползване“ или „повторна употреба“ е възможността за използването от страна на физически или юридически лица на документи за търговски или нетърговски цели, различни от първоначалната цел, за която са били създадени.
- „Свързаност“ е възможността между различните пакети от отворени данни да бъдат изграждани идентифициращи връзки на базата на еднозначни идентификатори като националните класификатори и идентификационни кодове.
- „Отворен лиценз“ е едностранно изявление от носителя на правата, с което разрешава свободната повторната употреба при равни и недискриминативни условия, по отношение на лицата и начина на ползване.
Формати за публикуване на данни
Препоръка:Данните да се публикуват както във вид, удобен за ползване от хора, така и в отворен, машинно-читаем формат, който да позволява тяхното преизползване и свързване. Следва да бъдат използвани общоприети, базирани на текст, формати за публикуване на данните в структуриран вид за да са готови за автоматична машинна обработка. Публикуваните отворени данни трябва да са придружени с описание на използваната структура.
Мотиви:Използването на отворени файлови формати гарантира осигуряването на оперативна съвместимост, премахва на технологичните ограничения и осигурява възможност за повторното използване от най-широк кръг лица. Публикуването в машинно-читаем формат способства и насърчава автоматизираната обработка, с което се позволява извличането на полза от повторното използване на данните.
Пример:Положителен пример от настоящата практика е публикуването на оригиналните файловете с имотните декларации на лицата, заемащи висши държавни длъжности. Използването на (X)HTML и стилови трансформации с помощта на CSS или XSLT, доказва, че публикуването в суровия „изходен“ формат често е най-бързият и ефективен начин да се публикуват данните.
Примери за общоприети, базирани на текст, формати за публикуване на данни в структуриран вид са:
- CSV (Comma Separated Values),
- XML (eXtensible Markup Language),
- JSON (JavaScript Object Notation) и
- RDF (Resource Description Framework).
Негативен пример: Следва да се избягва използването на файлови формати, които позволяват информацията да бъде видяна, без да бъде извлечена, обработена и използвана повторно. Практиката за публикуване на информация като изображения, Excel, Word, PDF и други двоични формати следва да бъде преустановена.
Описание на публикуваните данни
Препоръка:Публикуваните данни следва да се публикуват заедно с общо описание, правна информация, техническа документация и да са обогатени със семантични анотации и други мета-данни. За осигуряване на възможност за автоматизирано обновяване следва да се изгради схема за адресация и използване на непроменливи уникални ресурсни идентификатори (URI). Всяка логически обособена подсекция, следва да може да бъде адресирана отделно, чрез използване на отместване, anchor/id атрибути или XLINKs/XPointers връзки.
Мотиви: Доброто описание на данните улеснява възприемането на информацията, подпомага и насърчава повторното използване, и способства за реализиране на обществения и икономически потенциал. Поради тази причина всяка публикация следва да е придружавана от информация, която да позволява възприемането на съдържанието, предметната област, нивото на детайл, структурата и използваните конвенции за предаване на информацията. За създаване на правна сигурност, част от общото описание на данните следва да е и изричното изявление относно възможността им за повторното използване при условията на единен и общ Отворен лиценз.
Осигуряване на качество
Препоръка: Следва да бъдат предприети организационни мерки за осигуряването на високо качество на публикуваните данни, като се гарантира тяхната пълнота, истинност и актуалност. При проектирането и изграждането на информационните системи на администрацията, следва да се предвиди възможност за създаване на (ограничен) публичен интерфейс към хранилището на оригиналната информация. Следва да бъде разработен и наложен единен Отворен лиценз за публикуване на данни.
Мотиви:Предоставянето на (ограничен) достъп до данни, които се ползват за осъществяване на правомощията на държавните органи ще има за директен ефект намаляване на разходите, оптимизиране на процесите и осигуряване на качество на публикуваната информация.