Алгоритм извлечения открытых данных (Версия 1.1-dev-1)
.docx (147.5 КБ)
Данный документ является первой рабочей версией документации (Версия 1.1-dev-1) к библиотеке Opendata API, позволяющий определить важные особенности машиночитаемости метаинформации и данных, публикуемых на официальных сайтах и автоматизированных системах государственных органов в соответствии с Методическими рекомендациями.
Библиотека Opendata API разработана для извлечения открытых данных с сайтов, опубликовавших открытые данные по Методическим рекомендациям версии 2.3.
Комментарии
Обсуждение документа http://data.gov.ru/algoritm-izvlecheniya-otkrytyh-dannyh
Может быть стоит обновить до уровня методических рекомендаций 3.0?
Коллеги, а знаете ли вы сколько из сайтов органов госвласти соблюдают описанный здесь порядок размещения данных? По моему ощущению - не более 20% от общего количества. Файл opendata.csv лежит по этому адресу у 29 сайтов из 82. Еще у трех - там расположен opendata.xml. Структуры этих CSV разные. Где-то - ссылка на паспорта, где-то ссылки и на паспорта и на данные, где-то только на данные. Где-то разделитель - запятая, где-то точка с запятой. Выход на страницы с паспортами - отдельная история. Где-то - трехстолбцовая таблица, как у взрослых. У многих - там где должно быть имя файла (ссылка) - находится кнопка Скачать или ссылка БЕЗ имени. И т.д. и т.п.
К чему это я, коллеги? К тому, что алгоритмы - это хорошо. Но лучше было бы сделать так, чтобы ими можно было пользоваться ;(
Я тут заметил пару нестыковок:
1) Машиночитаемое представление реестра наборов ОД в методических рекомендациях (версия 3.0) должно соответствовать правилу
<адрес сайта>/opendata/list.<расширение формата>
, в то время как в этом документе описывается другое правило
<адрес сайта>/opendata/opendatalist.<расширение формата>
, т.е. различается имя файла.
2) Ссылка на паспорт набора (для машиночитаемого представление реестра наборов ОД в формате CSV) должна соответствовать формату
<адрес сайта>/opendata/1234567890-data1.<расширение формата>
, в то время как в этом документе описывается другое правило
<адрес сайта>/opendata/1234567890-data1
, т.е. отсутствует <расширение формата>