Яndex.Server 3.1 ДОКУМЕНТАЦИЯ

       

Директивы, определяющие формат документов Секция DocFormat


Конфигурационный файл может включать несколько секций DocFormat, каждая из которых описывает один из форматов подлежащих индексированию документов и используемый для его интерпретации парсер (анализатор содержимого документа). Более подробную информацию о документных форматах можно найти в разделе Форматы документов, зоны и атрибуты.

Каждая секция DocFormat должна включать обязательную директиву MimeType. Также могут присутствовать необязательные директивы Extensions, Module, Symbol и Config. Если в директиве MimeType указано значение, не перечисленное в списке медиа-типов таблицы Значения директив секции DocFormat по умолчанию, директивы Module и Symbol являются обязательными.

MimeType

Задает произвольное имя документного формата, уникально идентифицирующее этот формат. Обычно в качестве идентификатора формата используется т.н. медиа-тип, значения которого специфицированы для большого количества форматов. Медиа-типы, поддерживаемые по умолчанию, для которых не обязательно задавать директивы Module и Symbol, перечислены в таблице Значения директив секции DocFormat по умолчанию.

Extensions

Задает суффиксы (расширения) файлов данного формата. Если для получения содержимого документа используется файловая система, документы в файлах с заданными расширениями будут считаться имеющими медиа-тип, указанный в директиве MimeType. Тем не менее, если для получения содержимого документа используется веб-сервер, возвращающий заголовок Content-type, в качестве медиа-типа используется значение этого заголовка. Если директива задана с пустым значением, все файлы считаются принадлежащими данному медиа-типу, а все предыдущие секции DocFormat игнорируются. Если директива отсутствует, для медиа-типов, перечисленных в таблице Значения директив секции DocFormat по умолчанию, используются указанные там расширения, а для всех других медиа-типов по умолчанию используется пустое значение.

Module

Задает либо имя файла с библиотекой парсера, либо полный путь к этой библиотеке. Если задано имя файла, полный путь к библиотеке парсера будет определен операционной системой.
Для некоторых медиа- типов имеются значения по умолчанию, перечисленные в таблице Значения директив секции DocFormat по умолчанию, для остальных значений директивы MimeType данная директива должна быть задана.

Symbol Задает имя символа, который должен быть загружен из библиотеки парсера. Значения по умолчанию перечислены в таблице Значения директив секции DocFormat по умолчанию.

Config Задает локальный путь к конфигурационному файлу парсера для данного формата, абсолютный или относительно WorkDir. Форматы конфигурационных файлов описаны в документации к соответствующим парсерам. Например, настройка анализатора формата HTML описана в разделе Конфигурация HTML-парсера, а анализатор формата text/plain не является настраиваемым и для него значение данной директивы игнорируется. Если директива Config отсутствует, будет использована стандартная конфигурация парсера, описанная в документации к соответствующему парсеру.

Пример: <DocFormat> MimeType text/html Extensions .htm, .html, .asp Config attr.cfg </DocFormat>


Содержание раздела