Лингвистический
процессор AskNet
Лингвистический процессор AskNet
состоит из совокупности лингвистических модулей SDK и дополнительных модулей
лингвистического процессора.
В состав лингвистических модулей
SDK AskNet входят совокупности следующих модулей:
- AskNet Morphology - модули машинной морфологии;
- AskNet Syntax - модули синтаксического анализа текстов;
- AskNet Semantic - модули семантического анализа текстов.
Модули перечислены в порядке
повышения сложности задач лингвистического анализа. Наличие модуля машинной
морфологии AskNet Morphology является обязательным условием функционирования
лингвистического процессора AskNet. Реализация функций семантического анализа
текстов возможна при наличии в лингвистическом процессоре AskNet всех выше
перечисленных лингвистических модулей SDK.
Лингвистический процессор AskNet
содержит также следующие дополнительные модули лингвистического процессора:
- подсистему словарей (всего 13 словарей);
- модуль управления словарями в составе поисковой системы;
- модуль ведения словарей AskNet Linguist;
- подсистему лингвистических анализаторов и модуль управления анализаторами;
- модуль хранения характеристик, необходимых для лингвистического анализа;
- модуль управления анализаторами и хранения результатов лингвистического
анализа;
- модуль оценки лингвистической релевантности.
Лингвистический процессор
используется вопросно-ответной поисковой системой AskNet
при реализации вычислительного процесса как на этапе индексации, так и на этапе
поиска.
На этапе морфологического анализа,
который тесно связан с лексическим, в слове выделяется основа и окончание,
определяются морфологические характеристики слова, на которых основывается
последующий анализ. Особенностью морфологического анализатора является его
способность определять морфоформы и морфологические характеристики новых слов,
что позволяет производить поиск по всем формам слова, даже если его нет в
морфологическом словаре, и проводить более точный последующий анализ. Другой
отличительной чертой морфологического анализатора является возможность
сопоставлять римские и арабские цифры, что позволяет расширить область поиска.
Лексический анализ решает проблему
выделения отдельных лексем в тексте. В процессе лексического анализа наряду со
словами и словосочетаниями выделяются инициалы, акронимы, сокращения. Выделяются
также такие элементы текста, как e - mail адреса, даты, числительные.
Обеспечивается сопоставление семантического содержания числительных в различном
литеральном представлении (текстовом и цифровом) для обеспечения одновременного
поиска и по цифрам и по литеральному представлению.
Поскольку ответ на вопрос может
быть найден только в синтаксически и семантически связанном тексте, текст,
разбитый на предложения, подвергается синтаксическому и семантическому анализу.
Синтаксический анализ позволяет установить зависимости между словами в
предложении и тип зависимости. Отличительной особенностью синтаксического
анализатора AskNet Syntax является его гибкость и
минимальная зависимость от особенностей обрабатываемого национального языка, на
котором изложена индексируемая информация. Это является основой обеспечения
гибкости и универсальности вопросно-ответной поисковой системы
AskNet .
Главной функцией семантического
анализатора является вынесение решения на основе имеющейся синтаксической и
семантической информации о том, является ли предложение ответом на вопрос. Так,
например, при ответе на вопрос на основе синтаксического разбора в предложении
выделяется обстоятельство, но его семантическое значение, а именно определение
того, является ли это обстоятельство ответом на вопрос "где", "когда" или "каким
образом" происходит на этапе семантического анализа. Семантический анализатор
также выносит решение о существовании семантической связи между предложениями,
что позволяет выйти за рамки предложения и искать ответ на вопрос в параграфе и
тексте. Так, например, анализ анафорических местоимений позволяет выявить связи,
существующие в тексте между несколькими предложениями.
|