расположение страницы : bookresearch.ru / IT-менеджеру / Подходы к идентификации книжной продукции /

Подходы к идентификации книжной продукции

[ Вадим Беркович Вадим Беркович, Пышняк В. Е. ]

Введение

В данной статье кратко рассмотрены основные проблемы, возникающие при идентификации издательской продукции, и предложены подходы и методы к решению данных проблем на основе эвристических методов теории принятия решений. Также представлен краткий словарь используемых в статье терминов.

Терминология

  • Описание книжного издания - совокупность лингвистических, символьных, числовых и др. характеристик издания предназначенных для описания сущности и содержания книжного издания.
  • Атрибут описания книжного издания - лингвистическая, символьная, числовая и др. характеристика издания, предназначенная для описания сущности и содержания книжного издания.
  • Четкий атрибут описания издания - атрибут описания издания, однозначно характеризующий издание.
  • Нечеткий атрибут описания издания - атрибут описания издания, неоднозначно характеризующий издание.
  • Новое описание издания - описание издания, поступившее из внешнего источника в информационную систему предприятия.
  • Существующее описание издания - описание книжного издания, хранящееся в информационной системе предприятия.
  • Под идентификацией издания будем понимать процесс сопоставления атрибутов нового описания издания с атрибутами существующих описаний изданий для принятия решения об идентичности или различии описаний книжных изданий.
  • Первоисточник описания издания - предприятие, впервые составившее описание издания.
  • Значимый атрибут описания - атрибут описания который участвует в идентификации издания.

Проблемы идентификации

При идентификации книжной продукции возникают следующие проблем:
  1. Проблема идентификации первоисточника описания книжного издания. Т. е. невозможно определить, кто первоначально составил описание книжного издания, что существенно уменьшает возможности по отслеживанию движения книжных изданий как товара.
  2. Проблема нечеткости библиографических атрибутов книжного издания. Различные контрагенты используют различные наборы атрибутов и правила их заполнения при библиографическом описании книжных изданий, что существенно усложняется процесс идентификации книжных изданий.
  3. Человеческий фактор - в связи с тем, что в большинстве предприятий нет профессиональных библиографов, нередко возникают ошибки как при заполнений четких, так при заполнении нечетких атрибутов описания издания.
  4. Проблема отсутствие единого российского стандарта обмена данными о книжной продукции между контрагентами, который был бы относительно прост в использовании и внедрении в информационные системы предприятий. На сегодняшний день на российском книжном рынке нет единого стандарта, который использовался бы предприятиями на практике и получил подавляющее распространение среди большинства субъектов книжного рынка (формат RUSMARC не поддержали предприятия книжного рынка за исключением крупнейших библиотек), что существенно понижает степень надежности получаемой информации и повышает издержки на ввод данных в автоматизированные информационные системы предприятий книжного рынка.
  5. Недостаточная полнота получаемой информации. Как следствие невозможность однозначно идентифицировать издание

Примеры практических проблем идентификации

- Поставка партий тиража одного и того же издания разными поставщиками.

Существующий формат предоставления прайс листа оптовика не содержит информации, кроме кода ISBN об издании. Вся работа по прайс листу проводится на основе артикула поставщика. Это приводит к тому, что одно и то же издания, приходящее от различных поставщиков сложно идентифицировать как единое издание в связи с широкой практикой дублирования ISBN. Кроме того, не все оптовики проставляют в своем прайс листе эти коды.

- Использование одних и тех же значений артикула для кодирования различных изданий.

Отдельные мелкие издатели и дистрибьюторы, имеющие небольшой перечень изданий используют практику повторного использования артикула. Другими ловами, артикул распроданного издания присваивают новому изданию.

Подходы к идентификации изданий

На сегодняшний день существуют следующие подходы к идентификации описаний изданий:
  1. Ручная идентификация описаний изданий. Подразумевает под собой сопоставление человеком всех новых описаний книжных изданий с существующими, т.е. человек принимает решение о совпадении или различии описаний изданий. При данном подходе степень безошибочности идентификации напрямую зависит от квалификации сотрудника сопоставляющего издания. При большом объеме данных необходимы целые отделы библиографии, что существенно повышает издержки предприятия и все же не дает приемлемой гарантии качества, так как человечек склонен совершать ошибки.
  2. Автоматическая идентификация описаний изданий. Данный подход исключает участие человека в процессе идентификации описаний изданий. Однако нечеткость библиографических атрибутов описания и отсутствие единых стандартов не позволяют реализовать данный подход на практике в связи с его громоздкостью, трудностью реализацией в программном.
  3. Автоматизированная идентификация описаний изданий. Подразумевает под собой идентификацию издания в два этапа. На первом этапе производится автоматическая идентификация описаний книжных изданий и отсев однозначно совпавших и однозначно различных описаний изданий. А на втором этапе "проблемные" описания изданий (не распознанных автоматически) представляются оператору и он уже принимает окончательное решение. Данный подход является компромиссом между стоимостью идентификации и ее эффективностью.

Методики идентификации описаний изданий

В основу методики идентификации описаний изданий может быть положен следующий эвристический подход.

Пусть
Ai, i = 1..l - описания изданий, предназначенные для идентификации;
an, n = 1..N - значимые четкие (товарные) атрибуты описания i-ого издания (например: артикул поставщика, ИНН поставщика);
bm, m = 1..M - значимые нечеткие (библиографические) атрибуты описания i-ого издания (например: ISBN, автор, название, количество страниц и т.д.);
Г - степень предпочтительности группы частных атрибутов a, соответственно 1-Г - степень предпочтительности группы частных атрибутов b;
- субъективная степень уверенности в важности каждого конкретного атрибута. Нормированные величины рассчитываются с использованием выражений

При сравнении двух описаний изданий Ai и Aj ( i != j ) представляется возможным использовать величину, характеризующую степень уверенности в идентичности данных описаний Ф e 0..1, рассчитываемую с использованием зависимости

где
Qa и Qb - бинарные индикаторные функции вида

Для вынесения суждения о идентичности описаний изданий необходимо ввести пороговые значения величины , задаваемые экспертным путем, использование которых проиллюстрировано на рис. 1.
Рис. 1. Использование характеристики уверенности в идентичности описаний

Рис. 1. Использование характеристики уверенности в идентичности описаний

Таким образом критерий вынесения суждения о идентичности описаний изданий может быть записан следующим образом


где
K1 - описания изданий не совпадают (в автоматическом режиме);
K2 - зона неопределенности, идентичность описаний изданий должна быть установлена оператором АИС в ручном режиме;
K3 - описания изданий идентичны (в автоматическом режиме).
Примечание: идентификация описаний изданий, принятая в международном стандарте ONIX XML представляет собой частный случай рассматриваемой методики при .

Дополнительно необходимо рассмотреть методы реализации процедур сравнения ai и aj (bi и bj):

  1. Метод прямого сравнения атрибутов описания книжного издания. Атрибуты сравниваются по их значениям и суждение о равенстве выносится в случае полного совпадения их значений
  2. Метод сравнения хеш-кодов атрибутов описания изданий. Метод сравнения хеш-кодов атрибутов описания книжных изданий отличается от метода прямого сравнения тем, что вместо значений атрибутов описания используются их хеш-коды. Данный метод позволяет добиться снижения чувствительности алгоритма идентификации к нечеткости атрибутов описания.
  3. Метод SoundEx - аналогичен методу сравнения по хеш-кодам за исключением того, что преобразование значений атрибутов перед сравнением выполняется в соответствии со звучанием букв алфавита.

Заключение

В данной статье рассмотрен один из возможных подходов к идентификации издательской продукции. Хотелось бы отметить, что авторы не претендуют на "истину в последней инстанции" и предлагаем всем желающим присоединится к проведению дополнительных исследований по следующим направлениям:

  • разработка методов сравнения нечетких атрибутов;
  • отбору значимых атрибутов и оценки коэффициентов важности;
  • стандартизации электронного обмена данными;
  • поиск и апробирование различных функций для хеширования элементов описаний издательской продукции.




Весь материал, размещенный на сайте www.bookresearch.ru, является собственностью авторов соответствующих материалов. Любая перепечатка и перенос материалов на другие сайты возможны только с разрешения авторов и администратора сайта. Любой может предложить свой материал для публикации у нас. Пишите администратору сайта.
Home  Издателю и книготорговцу Библиографу Разработчику IT-менеджеру О проекте Форум Software - программное обеспечение для книжной отрасли

Этот сайт создан при помощи программы Globus SiteBuilder
Этот сайт создан при помощи программы Globus SiteBuilder