Сравнительный анализ технологий лингвистического анализа, реализуемых в информационно-аналитических системах

 

Анализируемые характеристики

Поисковые системы

Ontos

AskNet (прототип AQUA)

Функциональные возможности

Назначение системы

Разметка текста документов в соответствии со списками слов фактов и отношений.

Предоставление отчетов пользователю по выделенным фактам и связям.

Семантический поиск информации.

Поиск ответов на вопросы пользователя.

Поиск фактографической информации.

Возможности адаптации системы под прикладную тематику

Низкие. Системы настраиваются вручную за счет формирования онтологий.

Фактически существует только одна прикладная версия TAIS Ontos.

Высокие. Онтологии формируются автоматически с возможностью их корректировки лингвистом.

Базовая версия с универсальным словарем, подключаемые тематические словари.

Самообучение системы

Нет.

Есть. Реализовано определение словоформ для любых неизвестных системе слов. Автоматическое формирование онтологий (реализован прототип).

Диалог пользователя с системой

Указание фактов и отношений.

(Например: Освальд – стрелял – Кеннеди).

Предложения запроса на естественных языках. (Например: Когда Освальд стрелял в Кеннеди).

Требования к подготовке пользователя

Высокие. Требуется знание алгоритмов работы с системой.

Низкие. Диалог с системой на естественных языках.

Ответ системы

Подсвеченный  текст, граф связей фактов.

Ответ на вопрос пользователя, подсвеченный текст, граф связей фактов.

Полнота выявления фактов

Низкая ввиду отсутствия возможности автоматического выявления и классификации объектов, неизвестных системе.

Высокая ввиду автоматического выявления системой и классификации новых объектов (наименований организаций, городов, и т.п.).

Достоверность выявления связей

Низкая ввиду отсутствия синтаксического анализа.

Не реализовано разрешение омонимии, анафоры, активного и пассивного залогов.

Высокая ввиду реализации синтаксического анализа.

Реализовано разрешение омонимии, анафоры, активного и пассивного залогов.

Возможность обработки большого объема неформализованных текстов

Нет. Отсутствует обратный индекс. Средства стандартных СУБД не могут эффективно использоваться в поисковых системах.

Да. Имеются собственные средства хранения обратного индекса и специализированной быстродействующей СУБД.

Возможность обработки мультимедийной информации

Только хранение соответствующей мультимедийной информации.

Извлечение текстовой информации из mp3 и vob (dvd) файлов. Хранение и семантический поиск по текстовым данным, содержащимся в мультимедийной информации.

Возможность сертификации программы

Нет.

Права на технологию и исходные коды программ принадлежат Швейцарской компании.

Да.

Права на технологию и исходные коды программ принадлежат российскому разработчику.

Возможность и стоимость доработок  программы

Доработки практически невозможны.

Стоимость доработок высокая, а оперативность низкая, так как  владелец исходных кодов - швейцарская компания "Ontos AG".

Доработки возможны.

Стоимость доработок низкая, а оперативность высокая, так как  владелец исходных кодов – полностью российская компания ООО "ПОЛИГЛОТ".

Возможности лингвистического анализа

Лингвистический анализ текстов

Не полный.

Полный.

Этапы лингвистического анализа

Лексический, морфологический, семантический (на уровне использования списков объектов и связей).

Лексический, морфологический, синтаксический, семантический (на уровне использования иерархических онтологий).

Уровни семантической иерархии

Нет.

Реализовано четыре уровня вложенности объектов. (Например: континент - страна - область – город). Перспективная версия имеет до 10 уровней иерархии.

Уровни автоматического логического анализа фактографической информации

Нет.

Логический вывод,

обобщение, дедукция.

Форматы обрабатываемых документов

pdf, doc, rtf, txt, html, в том числе содержащиеся в СУБД

Документы Microsoft Office (doc, dot, rtf, wri, xls, pps, ppt, pot), html (htm, mht), pdf, txt; текстовые поля mp3 файлов, субтитры vob (dvd); zip-, rar, arj-архивы и самораспаковывающиеся exe файлы этих архивов, почтовые архивы Microsoft Outlook.

Кодировка текстовых файлов: Windows-1251, 1252; Unicode UTF-16, UTF-8, UTF-7; KOI-8r; txt-866; ISO-8859-5; Mac.

Учет смысла многозначных слов

Не реализован.

Реализован. Автоматически определяются корректные значения многозначных слов при разрешении омонимии.

Поиск с учетом  синонимов и родственных слов

Нет.

Есть. Имеется возможность автоматического использования системой синонимов и родственных слов для главных слов запроса пользователя.

Поиск по сокращенным и полным наименованиям

Нет.

Есть. Поиск проводится с автоматическим учетом полных и сокращенных наименований единиц измерения, аббревиатур и т.п.

Поиск чисел в различном написании

Не обеспечивается поиск по различным вариантам написания чисел.

Обеспечивается поиск с сопоставлением различных вариантов написания чисел: цифровое (римские, арабские) и литеральное представление.

Поиск по датам

Не обеспечивается распознавание формата даты. Ищет последовательность чисел.

Даты в различном варианте написания ищет с учетом семантики и различных вариантов написания. При поиске ответа учитывается точное или обобщенное указание даты (например, день, месяц, год   или  только год).

Поиск по неизвестным системе словам

Нет.

Да. Реализована бессловарная морфология для русского языка.

Основные разделы словаря

Морфологические формы слов (лексемы).

Основы слов, лексемы, синонимы, однокоренные слова, семантические классы слов.

Функциональные возможности разрабатываемой аналитической вопросно-ответной поисковой системы AQUA

Формирование точного ответа на вопрос пользователя

Нет.

Точность ответа проверяется по наличию семантического и синтаксического соответствия ответа вопросу. При проверке используется полный синтаксический разбор и детальная семантика, учитывающая при анализе около 5000 семантических категорий.

Проверка достоверности ответа системы

Нет.

Осуществляется на основе проверки корректности семантических связей слов ответа по онтологиям или на основе мажоритарной проверки (при отсутствии информации в онтологиях).

Формирование ответа системы при его отсутствии в явном виде в анализируемых текстах

Нет.

Осуществляется на основе логического вывода. Логический вывод проводится системой автоматически по онтологиям и на основе получения из Интернета ответов на автоматически формируемые системой уточняющие запросы. Существенно повышается полнота поиска за счет формирования ответа в случае его отсутствия в явном виде.

Самообучаемость системы

Нет.

Автоматически формируются правила логического вывода при обработке достоверной информации (вопросы и ответы). Сформированные правила используются при последующем поиске информации.

Автоматически формируются семантические словари по заданной прикладной тематике.

Сбор и формирование обобщенной аналитической информации об объекте поиска

Только учитываемые системой и имеющиеся в текстах  факты и связи.

Автоматически запрашивается в Интернете и формируется обобщенная информация по объекту поиска на основе заполнения разделов "информационного портрета" объекта поиска (например, по запросу Javier Solana из Интернета по шаблону будет отобрана и сформирована обобщенная информация о генеральном секретаре НАТО). Найденная информация представляется в виде заполненных данных об объекте поиска и о связях объекта поиска с тематически родственными объектами.