Уникальные идентификаторы полей
Аватар пользователя Парфентьев Михаил Владимирович
Автор: Парфентьев Михаил Владимирович (БЛОГ АВТОРА)
27.03.2015, 15:16

В АИС "Мониторинг Госсайтов" рассчитывается, в том числе, экспертный рейтинг открытых данных.
В данной заметке хочется поговорить об одном из параметров, а именно "Наличие уникальных идентификаторов полей (для связывания данных)".
Данный параметр оценивается экспертами по таким критериям как наличие, полнота и актуальность.

В настоящее время указание уникальных идентификаторов записей, содержащихся в наборах открытых данных является скорее исключением из правила. Вместе с тем, указание идентификаторов является важным шагом на пути к формированию связанных данных.

О каких уникальных идентификаторах записей идет речь?
Уникальный идентификатор, прежде всего, зависит от информации, содержащейся в наборе открытых данных. Так, например, когда в наборе содержится информация по тематике, предполагающей наличие единого (международного или всероссийского) классификатора или справочника его указание является очень ценным для реализации дальнейшего связывания данных.

В качестве небольшого примера можно вспомнить об уникальных обозначениях названий аэропортов. Таким образом, представим у нас есть набор открытых данных с информацией об аэропортах России. В данном случае уникальным идентификатором Внуково будет атрибут VKO (в классификации IATA) или UUWW (в классификации ICAO). Какой из классификаторов следует указывать в наборе? При ответе на данный вопрос следует руководствоваться правилом "чем больше, тем лучше".

А какие государственные справочники и классификаторы знаете-используете вы?

Войдите или зарегистрируйтесь, чтобы отправлять комментарии
Аватар пользователя a.minin
Минин Алексей Александрович
Возможно ли и следует ли использовать негосударственные, коммерческие классификаторы?
Аватар пользователя parfentievmihail_mail.ru
Парфентьев Михаил Владимирович
Хороший вопрос. Когда речь идет о международных стандартах, то использование классификаторов, в том случае, если они являются открытыми, обосновано. Вместе с тем, следует учитывать вопрос ответственности за предоставляемые данные.
Аватар пользователя a.minin
Минин Алексей Александрович
Хотелось бы также увидеть живые примеры того, где это реализовано? В посте описаны суть и смысл явления, а методических рекомендаций по практическому применению идентификаторов как-то нет. В каких случаях такие идентификаторы могут появиться, например, в тех наборах, которые необходимо публиковать по 1187-р? Что делать, если во всём многообразии публикуемых наборов нет данных, которые могли бы быть привязаны к каким-либо справочникам? Являются ли географические координаты таким идентификатором?
Аватар пользователя parfentievmihail_mail.ru
Парфентьев Михаил Владимирович
http://data.mos.ru/opendata/7710145589-reestr-soglasovannyh-dizayn-proektov-razmeshcheniya-vyvesok - номер уведомления
Аватар пользователя nike3200
Никитина Елена Геннадьевна
Алексей, такие идентификаторы могли бы появиться в наборах, содержащих какой-то общий для всех идентификатор. например, код ИНН, находящийся в ведении ФНС. если присвоить полю, содержащему ИНН, уникальный идентификатор (например, INN) и договориться, что все без исключения публикаторы используют именно это наименование поля, можно было бы однозначно связывать данные различных ФОИВ по этому полю. то же самое относится к ОГРН, ОКПО и т.п. они все содержатся в стандартных справочниках. в Вашем наборе "Реестр лицензий на фармацевтическую деятельность в Архангельской области" это может быть и номер лицензии (вида "ЛО-02-29-000093-15"). по нему можно было бы, например, агрегировать данные по лицензиям Архангельской области с данными других регионов. что делать - определять первичные источники данных (первичные справочники), стандартизировать наименования уникальных полей (переходить к онтологиям). пока этот процесс только начинается. не так много можно заимствовать из зарубежного опыта. географические координаты (опять же, если все согласились с каким-то общепринятым форматом координат) могут служить полем для связывания различных наборов данных.
Аватар пользователя nike3200
Никитина Елена Геннадьевна
если хотите, можем разобрать переход к связанным данным на примере Вашего набора - с созданием простой онтологии и отсылкой к базовым справочникам. с чего-то ведь надо начинать процесс стандартизации