Семантическая поисковая система AskNet.ru  AskNet Продукты Сервисы Технологии Аналитика Вопрос-ответEnglish
Найдется  соответствующее

Arion

Задавайте вопросы на естественном языке

 

 

Например: 

 

Информационно-аналитическая система Arion


Информационно-аналитическая система "Арион" разработана ООО "Сайтэк" (SyTech, Россия). Система предназначена для обработки структурированной и неструктурированной текстовой информации и предоставления отчетов пользователю.

Использование информационно-аналитической системы "Арион" предполагает ее настройку на форматы представления текстовой информации, настройку лингвистической системы на прикладную область применения (определение перечней фактов и связей), статистическую обработку текстовой информации для выявления фактографической информации и формирование различных отчетов. Непосредственно аналитической работой должен заниматься пользователь, так как система не содержит никаких средств, реализующий функции логического вывода, обобщения и дедукции.

 

Анализ функциональных возможностей
Лингвистический процессор системы "Арион" не реализует синтаксический и точный семантический анализ текстовой информации. Система позволяет определенные слова анализируемого текста соотносить с вводимыми в нее списками слов, описывающих фактографическую информацию (объекты и связи). Однако это рутинная задача сопоставления не обеспечивает никакой интеллектуальной обработки тестов, а тем более "извлечения знаний".
Система не обеспечивает автоматическую обработку произвольных массивов текстовой информации. Система "Арион" не имеет никаких средств самообучения и автоматической адаптации к предметной области. Требуется вручную проводить настройку системы на предметную область перед ее использованием:
- для обработки неформализованной информации для выявления фактографической информации вводить учитываемые семантические объекты (словарные понятия), правила разбора объектов, типы учитываемых связей объектов;
- для обработки структурированной информации описывать названия, типы обрабатываемых полей баз данных и правила работы с ними.
Система неудобна в работе, так как требует предварительного обучения пользователя правилам формирования запросов:
- знания языка формализованных запросов (операторов объединения искомых слов по "И", по "ИЛИ", указания обязательности слов и т.п.);
- знания правил формирования поисковых шаблонов, в которых для каждого искомого объекта надо в явном виде указывать формализованные признаки его типа и атрибуты.
Для этого, например, на этапе ввода информацию в системе используется АРМ корректора, выполняющего вручную функции выделения объектов и связей, загрузку данных. Потоковый ввод данных реализуется для документов определенного формата и тематики, только после ручной настройки системы.
На этапе предварительного отбора информации (фильтрации) от пользователя требуется знание языка xml для конфигурирования фильтра.
Графическое представления структуры выделенных связей малоинформативно, а зачастую и противоречиво. Так, например, исходя из приведенной граф-схемы обработанного текста следует связь взрыва с организацией AFP, в то время как в тексте сказано: "Как отмечает AFP, взрыв произошел в тот момент, когда …".

Это обусловлено изложенными далее недостатками лингвистического анализа (синтаксис, семантика) в общем, и в частности тем, что не отслеживается направление и тип связи.
Система неудобна в работе ввиду отсутствия возможности ведения диалога с ней на естественном языке. Например, система не может отвечать на вопросы пользователя (например, "Когда погиб Басаев?"), строить аналитические отчеты по запросам на естественном языке (например, "Связь Бен Ладена с Афганистаном").
Информационно-аналитическая система "Арион" не "извлекает из документов знания" (именно так о системе заявляют разработчики), а только формирует отчеты о встречающихся в анализируемых документах словах. Пользователь системы настраивает списки слов (объекты и связи), настраивает фильтр ввода данных, формализует запросы. Эти неавтоматизированные процессы требуют творческой работы пользователя, использования его знаний. Знания (в информатике) - вид информации, отражающей опыт специалиста (эксперта) в определенной предметной области, его понимание множества текущих ситуаций и способы перехода от одного описания объекта к другому.
По Д.А.Поспелову для знаний характерны: внутренняя интерпретируемость, структурированность, связанность и взаимная активность.
Именно поэтому система "Арион" не является системой извлечения знаний. Она не работает даже со статическим представлением иерархических семантических категорий. Используемые семантические категории не образуют иерархической семантической сети понятий, характерных для онтологий.
 

Анализ технологии лингвистического анализа
Морфологический анализ
Система "Арион" работает практически только с морфологией (словоизменением) отдельных слов. Это обеспечивает возможность поиска одинаковых слов в различных морфоформах.
Система не обеспечивает поиск по различным словоформам для слов, не имеющихся в словарях. Это обусловлено отсутствием реализации бессловарной морфологии, обеспечивающей автоматическую генерацию лексем для неизвестных системе слов.
Синтаксический анализ
Система "Арион" не обеспечивает высокой точности анализа неформализованного текста в автоматическом режиме ввиду отсутствия реализации полного синтаксического анализа предложений.
Система не реализует разрешение омонимии, в результате чего система не может в автоматическом режиме корректно провести семантический анализ омонимов в предложениях. Например, система не может корректно определить значение слова "Иванов" (город или фамилия) в предложениях "Петров живет в Иванове на улице Шевченко" и "Иванов был назначен губернатором".
Система не реализует разрешение анафоры. В результате автоматически не связываются объекты в соседних анафорически связанных предложениях. Например, имеем два предложения: "Сидоров родился в 1963 году. Он жил в Ленинграде". В данном случае система "Арион" автоматически не связывает объект "Сидоров" с "Ленинградом".
Семантический анализ
Система не обеспечивает возможности проведения обработки неформализованной текстовой информации с учетом семантической вложенности понятий. Используемые семантические категории представляют собой списки слов одного уровня, которые не связаны в иерархическую структуру взаимоувязанных понятий, характерную для онтологий.
Это приводит к невозможности реализации логического вывода от частного к общему. Например, для связки "континет-страна-город-улица", если в анализируемом тексте имеется текст "Иванов живет на Фонтанке", то не происходит автоматическая связка объекта "Иванов" с объектами "Санкт-Петербург" и "Россия".

Таким образом, полный лингвистический анализ в системе "Арион" не реализован. Лингвистическая обработка неструктурированной текстовой информации сводится к морфологическому анализу только для "известных"  слов, имеющихся в морфологическом словаре системы.

Выводы

  • Система "Арион" может использоваться для автоматизации рутинных этапов обработки текстовой информации.  Однако аналитическую обработку текстовой информации, в традиционном понимании этого термина, система "Арион" не реализует.

  • Система "Арион" не обеспечивает высокие показатели по достоверности выявления связей, наглядности их представления ввиду отсутствия реализации полного лингвистического анализа текстовой информации.

  • Система "Арион" не может быть использована для обработки больших объемов разнородной информации ввиду того, что что она не имеет собственных средств ведения поискового индекса,  требует большого объема ручного труда для настройки системы на новые прикладные области, а также отсутствия автоматического определения словоформ неизвестных системе слов.

  • Система "Арион" неудобна в работе ввиду отсутствия возможности ведения диалога пользователя с ней на естественном языке.

  • Система "Арион" не обеспечивает оперативной настройки на новые прикладные области применения ввиду большого объема работы, выполняемой подготовленными IT специалистами.

  • Система "Арион" требует предварительного обучения пользователя ввиду использования весьма сложных и неочевидных процедур работы с данными.

 

  Участник проекта Сколково