Торговый класс христианской европы

~ ~

ИПЯ предполагает применение двух методов:



• маскирование (или замена) произвольного числа рядом стоящих символов дескриптора (символы «*» или «$»);



• маскирование одного (непустого) символа дескриптора (символ «%»).



Символы маскирования могут использоваться вместо любого символа дескриптора, и их количество не ограничено.



Параметризированные символы маскирования произвольного количества символов (например, «*(N)») означают, что в дескрипторе на месте символа маскирования может стоять произвольная последовательность длиной не более чем N символов (где N изменяется от 0 до 255).



Нормализация. Для расширения возможностей дескрип-торного языка на этапе сопоставления ПОД и ПОЗ может быть использован аппарат нормализации дескрипторов.



Используются следующие правила нормализации дескриптора ПОЗ:



1. Три первые буквы дескриптора остаются без изменения.



2. Все следующие гласные буквы заменяются символом маскирования произвольного числа рядом стоящих букв.



3. Конечные буквы в, г, м, х в дескрипторе заменяются символом маскирования произвольного числа рядом стоящих букв.



4. В конце дескриптора проставляется символ маскирования произвольного числа рядом стоящих букв (если после всех преобразований конечный символ дескриптора не является символом маскирования).



Лингвистическое обоснование такой замены заключается в том, что смыслоразличительная роль согласных во много раз больше, чем гласных. Начальная часть слова включается в новый дескриптор без изменения, поскольку информативность первых трех букв в слове велика. Согласные в, г, м, х могут попадать в дескриптор из окончаний существительных и прилагательных, поэтому их исключение из дескриптора и замена символом маскирования ведет к отсечению окончаний.



Нормализованный таким образом дескриптор ПОЗа позволяет обеспечить более полный дескрипторный поиск с использованием только лишь частотного словаря БД.



Рассмотрим, например, запрос, который на естественном языке представляет собой предложение: «Частотный анализ терминов словаря». Такой запрос в системе (с применением правил нормализации) автоматически преобразуется в следующий ПОЗ:

0 коммент.:

Отправить комментарий