Сравнительный анализ технологий
лингвистического анализа, реализуемых в поисковых системах
Анализируемые характеристики |
Поисковые системы
|
|
Google |
AskNet (AQUA) |
|
Индексация слов текста ресурса и запроса
пользователя |
Морфологические индексы без разрешения омонимии. |
Учет морфологического изменения слов, учет
синтаксического и семантического значения слов. |
Этапы лингвистического анализа |
Лексический, морфологический. |
Лексический, морфологический, синтаксический,
семантический |
Типы запроса пользователя |
Ключевые слова или формализованный язык запросов
(расширенный поиск). |
Вопросительное предложение на естественном языке
или ключевые слова. |
Значение вопросительного слова в поисковом запросе |
Является обычным ключевым словом для поиска. |
Является основой шаблона поискового запроса,
определяет семантические характеристики слов ответа. |
Учет важности слов в запросе пользователя |
Нет. Все слова равнозначны. Стоп-слова не исключаются. |
Автоматически учитываются обязательные и
необязательные слова. Исключаются из поиска междометия, частицы (кроме "не" и
"ни"), вводные слова и вставные конструкции. |
Автоматический учет лингвистической структуры
текста |
Не реализован. В расширенном поиске вручную можно
указать группировку и обязательность слов запроса. |
Реализован. Шаблон поиска формируется автоматически
на основе синтактико-семантического анализа запроса. Определяет требования к
порядку и группировке слов в ответе, а также к семантике слова ответа. |
Принцип оценки релевантности текстовой информации |
Индекс цитируемости ресурса, количество найденных
ключевых слов. |
Оценка близости семантических сетей
предложений запроса пользователя и предварительно отобранных текстов,
соответствующих шаблону поискового запроса. |
Формы ответа поисковой системы |
Упорядоченный перечень ссылок на тексты (ресурсы),
содержащие ключевые слова. |
Предложения ответов на вопросы пользователя,
упорядоченные по степени семантического соответствия запросу. Упорядоченный по степени семантической,
синтаксической и морфологической близости перечень ссылок на тексты,
содержащие ключевые слова. |
Учет смысла многозначных слов |
Не реализован. |
Реализован1.
Автоматически определяются корректные значения многозначных слов за счет
разрешения омонимии. |
Поиск с учетом
синонимов и родственных слов |
Нет. |
Есть. Имеется возможность автоматического
использования системой синонимов и родственных слов для главных слов запроса
пользователя. |
Поиск по сокращенным и полным наименованиям |
Нет. |
Есть. Поиск проводится автоматически с учетом
полных и сокращенных наименований единиц измерения, аббревиатур и т.п. |
Поиск чисел в различном написании |
Не обеспечивается поиск по различным вариантам
написания чисел. |
Обеспечивается
поиск с сопоставлением различных вариантов написания чисел: цифровое
(римские, арабские) и литеральное представление. |
Поиск по датам |
Не обеспечивается распознавание формата даты. Ищет
последовательность чисел. |
Даты в различном варианте написания ищет с учетом
семантики и различных вариантов написания. При поиске ответа учитывается
точное или обобщенное указание даты (например, день, месяц, год
или только год). |
Поиск по неизвестным системе словам |
Без учета словоизменения. |
С учетом словоизменения. Реализована бессловарная морфология для русского языка. |
Основные разделы словаря |
Морфологические формы слов (лексемы). |
Основы слов, лексемы, синонимы, однокоренные слова,
семантические классы слов. |
Функциональные возможности
разрабатываемой аналитической вопросно-ответной поисковой системы AQUA |
||
Формирование точного ответа на вопрос пользователя |
Нет. |
Точность ответа проверяется по наличию
семантического и синтаксического соответствия ответа вопросу. При проверке
используется полный синтаксический разбор и детальная семантика, учитывающая
при анализе около 5000 семантических категорий. |
Проверка достоверности ответа на вопрос
пользователя |
Нет. |
Осуществляется на основе проверки
корректности семантических связей слов ответа по онтологиям или на
основе мажоритарной проверки (при отсутствии информации в онтологиях). |
Формирование ответа на вопрос пользователя при его
явном отсутствии в исходных текстах |
Нет. |
Осуществляется на основе логического вывода.
Логический вывод проводится системой автоматически по онтологиям и на основе
получения из Интернета ответов на автоматически формируемые системой
уточняющие запросы. Существенно повышается полнота поиска за счет
формирования ответа в случае его отсутствия в явном виде. |
Самообучаемость поисковой системы |
Нет. |
Автоматически формируются правила логического
вывода при обработке достоверной информации (вопросы и ответы).
Сформированные правила используются при последующем поиске информации. Автоматически формируются семантические словари по
заданной прикладной тематике. |
Сбор и формирование обобщенной аналитической
информации об объекте поиска |
Нет. |
Автоматически запрашивается в Интернете и
формируется обобщенная информация по объекту поиска на основе заполнения
разделов "информационного портрета" объекта поиска (например, по запросу Javier Solana из Интернета по шаблону будет отобрана и
сформирована обобщенная информация о генеральном секретаре НАТО). Найденная
информация представляется в виде заполненных данных об объекте поиска и о
связях объекта поиска с тематически родственными объектами. |
Примечание 1. Словарная база лингвистического процессора
составлена с учетом смысла многозначных слов. Это обеспечивает автоматическое
определение наличия неоднозначности в вопросе пользователя и возможность
проведения поиска с учетом семантики многозначных слов. Синтаксическая
индексация многозначных слов реализована в полуавтоматическом режиме.
Автоматическая синтаксическая индексация многозначных слов может быть
обеспечена при реализации полнофункционального семантического анализа текстовой
информации.