ИПЯ предполагает применение двух методов:
• маскирование (или замена) произвольного числа рядом стоящих символов дескриптора (символы «*» или «$»);
• маскирование одного (непустого) символа дескриптора (символ «%»).
Символы маскирования могут использоваться вместо любого символа дескриптора, и их количество не ограничено.
Параметризированные символы маскирования произвольного количества символов (например, «*(N)») означают, что в дескрипторе на месте символа маскирования может стоять произвольная последовательность длиной не более чем N символов (где N изменяется от 0 до 255).
Нормализация. Для расширения возможностей дескрип-торного языка на этапе сопоставления ПОД и ПОЗ может быть использован аппарат нормализации дескрипторов.
Используются следующие правила нормализации дескриптора ПОЗ:
1. Три первые буквы дескриптора остаются без изменения.
2. Все следующие гласные буквы заменяются символом маскирования произвольного числа рядом стоящих букв.
3. Конечные буквы в, г, м, х в дескрипторе заменяются символом маскирования произвольного числа рядом стоящих букв.
4. В конце дескриптора проставляется символ маскирования произвольного числа рядом стоящих букв (если после всех преобразований конечный символ дескриптора не является символом маскирования).
Лингвистическое обоснование такой замены заключается в том, что смыслоразличительная роль согласных во много раз больше, чем гласных. Начальная часть слова включается в новый дескриптор без изменения, поскольку информативность первых трех букв в слове велика. Согласные в, г, м, х могут попадать в дескриптор из окончаний существительных и прилагательных, поэтому их исключение из дескриптора и замена символом маскирования ведет к отсечению окончаний.
Нормализованный таким образом дескриптор ПОЗа позволяет обеспечить более полный дескрипторный поиск с использованием только лишь частотного словаря БД.
Рассмотрим, например, запрос, который на естественном языке представляет собой предложение: «Частотный анализ терминов словаря». Такой запрос в системе (с применением правил нормализации) автоматически преобразуется в следующий ПОЗ:
0 коммент.:
Отправить комментарий