Сравнительный анализ технологий
лингвистического анализа, реализуемых в информационно-аналитических системах
Анализируемые
характеристики |
Поисковые системы
|
||
Ontos |
AskNet (прототип AQUA) |
||
Функциональные
возможности |
|||
Назначение системы |
Разметка текста документов в соответствии со
списками слов фактов и отношений. Предоставление отчетов пользователю по выделенным
фактам и связям. |
Семантический поиск информации. Поиск ответов на вопросы пользователя. Поиск фактографической информации. |
|
Возможности адаптации системы под прикладную
тематику |
Низкие. Системы настраиваются вручную за счет
формирования онтологий. Фактически существует только одна прикладная версия
TAIS Ontos. |
Высокие. Онтологии формируются автоматически с
возможностью их корректировки лингвистом. Базовая версия с универсальным словарем,
подключаемые тематические словари. |
|
Самообучение системы |
Нет. |
Есть. Реализовано определение словоформ для любых
неизвестных системе слов. Автоматическое формирование онтологий (реализован
прототип). |
|
Диалог пользователя с системой |
Указание фактов и отношений. (Например: Освальд – стрелял – Кеннеди). |
Предложения запроса на естественных языках. (Например: Когда Освальд
стрелял в Кеннеди). |
|
Требования к подготовке пользователя |
Высокие. Требуется знание алгоритмов работы с
системой. |
Низкие. Диалог с системой на естественных языках. |
|
Ответ системы |
Подсвеченный
текст, граф связей фактов. |
Ответ на вопрос пользователя, подсвеченный текст,
граф связей фактов. |
|
Полнота выявления фактов |
Низкая ввиду отсутствия возможности автоматического
выявления и классификации объектов, неизвестных системе. |
Высокая ввиду автоматического выявления системой и
классификации новых объектов (наименований организаций, городов, и т.п.). |
|
Достоверность выявления связей |
Низкая ввиду отсутствия синтаксического анализа. Не реализовано разрешение омонимии, анафоры,
активного и пассивного залогов. |
Высокая ввиду реализации синтаксического анализа. Реализовано разрешение омонимии, анафоры, активного
и пассивного залогов. |
|
Возможность обработки большого объема
неформализованных текстов |
Нет. Отсутствует обратный индекс. Средства
стандартных СУБД не могут эффективно использоваться в поисковых системах. |
Да. Имеются собственные средства хранения обратного
индекса и специализированной быстродействующей СУБД. |
|
Возможность обработки мультимедийной
информации |
Только хранение соответствующей мультимедийной
информации. |
Извлечение текстовой информации из mp3 и vob (dvd) файлов. Хранение и семантический поиск по
текстовым данным, содержащимся в мультимедийной
информации. |
|
Возможность сертификации программы |
Нет. Права на технологию и исходные коды программ
принадлежат Швейцарской компании. |
Да. Права на технологию и исходные коды программ
принадлежат российскому разработчику. |
|
Возможность и стоимость доработок программы |
Доработки практически невозможны. Стоимость доработок высокая, а оперативность
низкая, так как владелец исходных
кодов - швейцарская компания "Ontos AG". |
Доработки возможны. Стоимость доработок низкая, а оперативность
высокая, так как владелец исходных
кодов – полностью российская компания ООО "ПОЛИГЛОТ". |
|
Возможности
лингвистического анализа |
|||
Лингвистический анализ текстов |
Не полный. |
Полный. |
|
Этапы лингвистического анализа |
Лексический, морфологический, семантический (на уровне
использования списков объектов и связей). |
Лексический, морфологический, синтаксический, семантический
(на уровне использования иерархических онтологий). |
|
Уровни семантической иерархии |
Нет. |
Реализовано четыре уровня вложенности объектов.
(Например: континент - страна - область – город). Перспективная версия имеет
до 10 уровней иерархии. |
|
Уровни автоматического логического анализа
фактографической информации |
Нет. |
Логический вывод, обобщение, дедукция. |
|
Форматы обрабатываемых документов |
pdf, doc, rtf, txt, html,
в том числе содержащиеся в СУБД |
Документы Кодировка текстовых файлов: Windows-1251, 1252; Unicode UTF-16, UTF-8, UTF-7; KOI-8r; txt-866;
ISO-8859-5; Mac. |
|
Учет смысла многозначных слов |
Не реализован. |
Реализован. Автоматически определяются корректные
значения многозначных слов при разрешении омонимии. |
|
Поиск с учетом
синонимов и родственных слов |
Нет. |
Есть. Имеется возможность автоматического
использования системой синонимов и родственных слов для главных слов запроса
пользователя. |
|
Поиск по сокращенным и полным наименованиям |
Нет. |
Есть. Поиск проводится с автоматическим учетом
полных и сокращенных наименований единиц измерения, аббревиатур и т.п. |
|
Поиск чисел в различном написании |
Не обеспечивается поиск по различным вариантам
написания чисел. |
Обеспечивается
поиск с сопоставлением различных вариантов написания чисел: цифровое
(римские, арабские) и литеральное представление. |
|
Поиск по датам |
Не обеспечивается распознавание формата даты. Ищет
последовательность чисел. |
Даты в различном варианте написания ищет с учетом
семантики и различных вариантов написания. При поиске ответа учитывается
точное или обобщенное указание даты (например, день, месяц, год
или только год). |
|
Поиск по неизвестным системе словам |
Нет. |
Да. Реализована бессловарная
морфология для русского языка. |
|
Основные разделы словаря |
Морфологические формы слов (лексемы). |
Основы слов, лексемы, синонимы, однокоренные слова,
семантические классы слов. |
|
Функциональные возможности
разрабатываемой аналитической вопросно-ответной поисковой системы AQUA |
|||
Формирование точного ответа на вопрос пользователя |
Нет. |
Точность ответа проверяется по наличию
семантического и синтаксического соответствия ответа вопросу. При проверке
используется полный синтаксический разбор и детальная семантика, учитывающая
при анализе около 5000 семантических категорий. |
|
Проверка достоверности ответа системы |
Нет. |
Осуществляется на основе проверки
корректности семантических связей слов ответа по онтологиям или на
основе мажоритарной проверки (при отсутствии информации в онтологиях). |
|
Формирование ответа системы при его отсутствии в явном
виде в анализируемых текстах |
Нет. |
Осуществляется на основе логического вывода.
Логический вывод проводится системой автоматически по онтологиям и на основе
получения из Интернета ответов на автоматически формируемые системой
уточняющие запросы. Существенно повышается полнота поиска за счет
формирования ответа в случае его отсутствия в явном виде. |
|
Самообучаемость системы |
Нет. |
Автоматически формируются правила логического
вывода при обработке достоверной информации (вопросы и ответы).
Сформированные правила используются при последующем поиске информации. Автоматически формируются семантические словари по
заданной прикладной тематике. |
|
Сбор и формирование обобщенной аналитической
информации об объекте поиска |
Только учитываемые системой и имеющиеся в
текстах факты и связи. |
Автоматически запрашивается в Интернете и
формируется обобщенная информация по объекту поиска на основе заполнения
разделов "информационного портрета" объекта поиска (например, по запросу Javier Solana из Интернета по шаблону будет отобрана и
сформирована обобщенная информация о генеральном секретаре НАТО). Найденная
информация представляется в виде заполненных данных об объекте поиска и о
связях объекта поиска с тематически родственными объектами. |
|