Сравнительный анализ технологий лингвистического анализа, реализуемых в поисковых системах

 

Анализируемые характеристики

Поисковые системы

Google

AskNet (AQUA)

Индексация слов текста ресурса и запроса пользователя

Морфологические индексы без разрешения омонимии.

Учет морфологического изменения слов, учет синтаксического и семантического значения слов.

Этапы лингвистического анализа

Лексический, морфологический.

Лексический, морфологический, синтаксический, семантический

Типы запроса пользователя

Ключевые слова или формализованный язык запросов (расширенный поиск).

Вопросительное предложение на естественном языке или ключевые слова.

Значение вопросительного слова в поисковом запросе

Является обычным ключевым словом для поиска.

Является основой шаблона поискового запроса, определяет семантические характеристики слов ответа.

Учет важности слов в запросе пользователя

Нет. Все слова равнозначны. Стоп-слова не исключаются.

Автоматически учитываются обязательные и необязательные слова. Исключаются из поиска междометия, частицы (кроме "не" и "ни"), вводные слова и вставные конструкции.

Автоматический учет лингвистической структуры текста

Не реализован. В расширенном поиске вручную можно указать группировку и обязательность слов запроса.

Реализован. Шаблон поиска формируется автоматически на основе синтактико-семантического анализа запроса. Определяет требования к порядку и группировке слов в ответе, а также к семантике слова ответа.

Принцип оценки релевантности текстовой информации

Индекс цитируемости ресурса, количество найденных ключевых слов.

Оценка близости семантических сетей предложений запроса пользователя и предварительно отобранных текстов, соответствующих шаблону поискового запроса.

Формы ответа поисковой системы

Упорядоченный перечень ссылок на тексты (ресурсы), содержащие ключевые слова.

Предложения ответов на вопросы пользователя, упорядоченные по степени семантического соответствия запросу.

Упорядоченный по степени семантической, синтаксической и морфологической близости перечень ссылок на тексты, содержащие ключевые слова.

Учет смысла многозначных слов

Не реализован.

Реализован1. Автоматически определяются корректные значения многозначных слов за счет разрешения омонимии.

Поиск с учетом  синонимов и родственных слов

Нет.

Есть. Имеется возможность автоматического использования системой синонимов и родственных слов для главных слов запроса пользователя.

Поиск по сокращенным и полным наименованиям

Нет.

Есть. Поиск проводится автоматически с учетом полных и сокращенных наименований единиц измерения, аббревиатур и т.п.

Поиск чисел в различном написании

Не обеспечивается поиск по различным вариантам написания чисел.

Обеспечивается поиск с сопоставлением различных вариантов написания чисел: цифровое (римские, арабские) и литеральное представление.

Поиск по датам

Не обеспечивается распознавание формата даты. Ищет последовательность чисел.

Даты в различном варианте написания ищет с учетом семантики и различных вариантов написания. При поиске ответа учитывается точное или обобщенное указание даты (например, день, месяц, год   или  только год).

Поиск по неизвестным системе словам

Без учета словоизменения.

С учетом словоизменения. Реализована бессловарная морфология для русского языка.

Основные разделы словаря

Морфологические формы слов (лексемы).

Основы слов, лексемы, синонимы, однокоренные слова, семантические классы слов.

Функциональные возможности разрабатываемой аналитической вопросно-ответной поисковой системы AQUA

Формирование точного ответа на вопрос пользователя

Нет.

Точность ответа проверяется по наличию семантического и синтаксического соответствия ответа вопросу. При проверке используется полный синтаксический разбор и детальная семантика, учитывающая при анализе около 5000 семантических категорий.

Проверка достоверности ответа на вопрос пользователя

Нет.

Осуществляется на основе проверки корректности семантических связей слов ответа по онтологиям или на основе мажоритарной проверки (при отсутствии информации в онтологиях).

Формирование ответа на вопрос пользователя при его явном отсутствии в исходных текстах

Нет.

Осуществляется на основе логического вывода. Логический вывод проводится системой автоматически по онтологиям и на основе получения из Интернета ответов на автоматически формируемые системой уточняющие запросы. Существенно повышается полнота поиска за счет формирования ответа в случае его отсутствия в явном виде.

Самообучаемость поисковой системы

Нет.

Автоматически формируются правила логического вывода при обработке достоверной информации (вопросы и ответы). Сформированные правила используются при последующем поиске информации.

Автоматически формируются семантические словари по заданной прикладной тематике.

Сбор и формирование обобщенной аналитической информации об объекте поиска

Нет.

Автоматически запрашивается в Интернете и формируется обобщенная информация по объекту поиска на основе заполнения разделов "информационного портрета" объекта поиска (например, по запросу Javier Solana из Интернета по шаблону будет отобрана и сформирована обобщенная информация о генеральном секретаре НАТО). Найденная информация представляется в виде заполненных данных об объекте поиска и о связях объекта поиска с тематически родственными объектами.

 

Примечание 1.  Словарная база лингвистического процессора составлена с учетом смысла многозначных слов. Это обеспечивает автоматическое определение наличия неоднозначности в вопросе пользователя и возможность проведения поиска с учетом семантики многозначных слов. Синтаксическая индексация многозначных слов реализована в полуавтоматическом режиме. Автоматическая синтаксическая индексация многозначных слов может быть обеспечена при реализации полнофункционального семантического анализа текстовой информации.