Конфигурирование правил обработки текста
Формальные правила обработки текста можно представить следующим набором выражений: <TextFlags> ybreak = (xelem)* (, xelem.xattr)* (, xelem.xattr.xval)* </TextFlags> Где
ybreak - один из флагов обработки текста, перечисленных ниже |
xelem - имя XML-элемента |
xattr - имя XML-атрибута |
xval - значение XML-атрибута |
(...)* - ноль, один или несколько элементов |
Флажки обработки текста
BREAK_NONE, BREAK_WORD, BREAK_SENTENCE, BREAK_PARAGRAPHОпределяет, будет ли текст внутри XML-элемента отделен границами слова, предложения или абзаца в дополнение к обычным пунктуационным правилам.
Значение по умолчанию: BREAK_NONE
SPACE_DEFAULT, SPACE_PRESERVEОпределяет, значимы ли пробельные символы в тексте внутри XML-элемента.
Значение по умолчанию: SPACE_DEFAULT
WEIGHT_ZERO, WEIGHT_LOW, WEIGHT_NORMAL, WEIGHT_HIGH, WEIGHT_BESTОпределяет относительный вес слов в тексте внутри XML-элемента. В случае значения WEIGHT_ZERO текст проиндексирован не будет.
Значение по умолчанию: WEIGHT_NORMAL
Важно: Чтобы у найденного документа было определено свойство "заголовок документа", необходимо, чтобы в настройках парсера была определена зона title с флагом обработки текста BREAK_PARAGRAPH, и документ содержал не менее одного предолжения в этой зоне.