Алгоритмы поиска
информации AskNet
Вопросно-ответная
поисковая система AskNet обеспечивает поиск текстовой информации в базах
проиндексированных документов по запросу пользователя на естественном языке, при
этом:
-
из запроса автоматически
выделяются наиболее значимые по смыслу слова, (определяющие объект,
субъект поиска и предикат), а также синтезируется структура
потенциальных характеристик ответа системы (шаблон
поискового запроса);
-
окончательные ответы
системы на запрос пользователя упорядочиваются по степени смысловой
близости (релевантности) на основе комплексного учета
синтаксико-семантического соответствия результатов поиска смысловому
содержанию запроса;
-
пользователь самостоятельно
может настраивать процесс поиска с целью сужения или расширения области
поиска при помощи манипулирования следующими характеристиками: учет
синонимов и однокоренных слов; поиск с учетом синтаксиса вопроса и (или)
текстов.
Поиск по ключевым словам
осуществляется на основе выборки как русских и английских слов (с учетом
морфологии), так и любых иностранных слов, произвольных комбинаций букв и цифр (аббревиатур,
чисел, номеров телефонов, электронных адресов и т.д. – без учета морфологии).
Поиск может вестись по смежным предложениям, а также только среди текстов,
найденных в предыдущем поиске.
Интеллектуальный информационный
поиск с учетом синтаксиса и элементов семантики осуществляется для связных
русскоязычных текстов.
Учет синонимов и однокоренных слов
поддерживается для слов русского и английского языка. При интеллектуальном
поиске синонимы и однокоренные слова определяются с учетом их
синтаксико-семантического значения.
AskNet Search выводит результаты
поиска в виде упорядоченного списка наиболее релевантных предложений текстов,
найденных текстов со ссылками на абзацы этих текстов, а также сами тексты.
В выводимых результатах поиска для
удобства восприятия найденной информации автоматически выделяются лексемы слов,
содержавшихся в запросе пользователя, а также слова семантического объекта
поиска.
Отображение найденного текста
возможно двумя способами:
-
реконструирование
выбранного текста из индексной базы; вывод текста производится без
воспроизведения оригинального формата документа и внедренных объектов
(рисунков, таблиц);
-
вывод оригинала выбранного
текста с автоматическим позиционированием на найденный участок текста и
выделением слов запроса пользователя и семантического ответа системы;
пользователь может просмотреть оригинальный документ, содержащий искомую
выделенную текстовую информацию; для этого система хранит ссылки на
оригиналы документов.
Возможности по изменению и
совершенствованию функциональности
-
Простое наращивание
поддерживаемых форматов и кодировок текстовых файлов за счет использования
модульной структуры построения системы и подключения (отключения) модулей
обработки текстовых файлов (при этом обеспечивается индексирование файлов
данных форматов, а также отображение в оригинальном виде с позиционированием
на найденный фрагмент и выделением слов запроса и семантического ответа);
-
Настраиваемый интерфейс
пользователя и гибкие механизмы администрирования, обеспечивающие адаптацию
внешнего вида и настройку алгоритмов работы системы.
|