Семантическая поисковая система AskNet.ru  AskNet Продукты Сервисы Технологии Аналитика Вопрос-ответEnglish
Найдется  соответствующее

Программы

Задавайте вопросы на естественном языке

 

 

Например: 

 

Программы лингвистического анализа и обработки текста

1. Лингвистические технологии и системы

Название,  автор(ы)

Комментарий

AskNet

ПОЛИГЛОТ

Семантические вопросно-ответные поисковые системы AskNet и инструментарий разработчика, реализующий полный лингвистический анализ текстов на русском и (или) английском языках. Модули лингвистического анализа включают в себя морфологию (словарную и бессловарную), синтаксис, семантику (включая толково-комбинаторные словари). Имеется модуль семантической рубрикации текстов. Программные продукты представлены коробочными версиями корпоративной, сайтовой и персональной поисковой системы. Вопросно-ответный поиск по Интернету реализован на базе метапоисковой системы www.asknet.ru. Разрабатывается аналитическая поисковая система AQUA, позволяющая находить семантические ответы на основе автоматического обобщения системой текстовой информации и проведения логического вывода. Программы и SDK  распространяются на коммерческой основе. Уровни лингвистического анализа: графематический, морфологический, синтаксический, семантический.

Russian Context Optimizer

RCO

Комплекс программ для синтаксического и морфологического анализа русскоязычных текстов. Модули лингвистического анализа включают: морфологические словари, словари графем, синтаксические правила, семантический классификатор, словари синонимов. Инструментарий разработчика представлен модулями морфологического и фактографического анализа. Используется морфологический словарь объемом ~ 115000 лексем. Программы разработаны для Windows, Oracce, SDK работает на платформах Windows и Unix. Программы и SDK распространяются на коммерческой основе. Уровни лингвистического анализа: графематический, морфологический, синтаксический, семантический.

Ontos

Ontos

Программные продукты предназначены для анализа текстовых документов, составления аннотаций, обработки данных (OntosMinerLightOntos for WorkgroupsOntos SOATAIS Ontos). Алгоритмы функционирования основаны на графематическом, морфологическом и семантическом анализе текстовой информации. Системы используют морфологические словари и семантические картриджи для основные языков (английского, немецкого, французского, русского). Обеспечивается выявление фактографической информации и представление ее в форме различного вида отчетов, в том числе в виде графа связей объектов. Тестирование системы показало, что семантический поиск таковым на самом деле не является, так как сводится к поиску по ключевым словам с использованием тематических синонимов. Программы реализованы на Java, .NET и используют Microsoft SQL Server. Уровни лингвистического анализа: графематический, морфологический, семантический – на уровне использования тематических синонимов.

Google Mini

Google Desktop

Google

Программно-аппаратный комплекс Google Mini и программа Google Desktop для поиска информации на компьютерах корпоративной локальной сети и на компьютере пользователя соответственно. Реализует поиск по ключевым словам с учетом морфологии для основных языков (русского, английского и др.). Уровни лингвистического анализа: графематический, морфологический.

Яndex.Server

Яндекс

Программа специализированного HTTP-сервера, позволяющая индексировать и обеспечивать поиском один или несколько интернет сайтов и (или) компьютеров пользователей. Поиск работает с учетом морфологии русского, английского и украинского языков. Результатом поиска является список документов, упорядоченных по релевантности или дате. Релевантность учитывает количество слов в документе, их частотные характеристики и расстояние между словами. Синтаксический и семантический анализ текстов не реализован. Версии программы реализованы для Windows и Unix.
Разработаны также Интернет сервисы поискового портала и персональная версия поисковой системы.
Уровни лингвистического анализа: графематический, морфологический.

Galaktika-ZOOM

Галактика

Программа позволяет выявлять значимые слова и словосочетания документа, проводить поиск документов по вводимым пользователем ключевым словам с учетом их синонимов, а также формировать отчеты по частоте встречаемости слов в документах. Программа обеспечивает обработку русскоязычных текстов. Алгоритмы основаны на использовании морфологического и статистического анализа.
Уровни лингвистического анализа: графематический, морфологический.

Арион

SyTech

Система обеспечивает автоматизацию аналитической обработки однотипной текстовой информации и представление отчетов в различном виде. Однако она не обеспечивает высокие показатели по достоверности выявления связей фактографической информации и наглядности их представления ввиду отсутствия реализации синтаксического и семантического анализа текстов. Программа требует большого объема ручного труда для настройки системы на новые прикладные области, а также ввиду отсутствия автоматического определения словоформ неизвестных системе слов. Система неудобна в работе ввиду отсутствия возможности ведения диалога с ней на естественном языке. Она не обеспечивает оперативной настройки на новые прикладные области применения ввиду большого объема работы, выполняемой подготовленными IT специалистами.
Уровни лингвистического анализа: графематический, морфологический.

Кластеризующие поисковые системы

Vivisimo   Nigma

Метапоисковые системы с кластеризацией результатов поиска обеспечивают возможность выделения слов, часто встречающихся совместно со словами поискового запроса. Однако использование только кластерного анализа не дает существенных преимуществ метапоисковым системам данного типа. Улучшение качества поиска, особенно при обработке запросов на естественном языке возможно только на основе использования синтаксического и семантического анализа.
Уровни лингвистического анализа: графематический, морфологический.

Кластеризующие поисковые системы с визуализацией результатов поиска

Quintura Searchcrystal

Метапоисковые системы, которые представляют в графическом виде результаты поиска. Поиск проводится по нескольким поисковым системам. Результаты кластеризуются в основном по статистическим критериям. Для построения визуального кластера слов Quintura использует морфологический анализ. Синтаксический и семантический анализ не реализован. (Например, по запросу "моющий" Quintura включает в кластер слова "прекрасная няня", отождествляя омонимичные слова "моя" и слово запроса "моющий".

2.     Утилиты лингвистического анализа текста (морфология, синтаксис) 

Название,  автор(ы)

Комментарий

Link Grammar Parser

John Lafferty
Daniel Sleator
Davy Temperley
Carnegi Melon University, USA

Программа синтаксического анализа предложений английского языка Link Grammar Parser. Исходные предложения для разбора могут вводиться вручную с клавиатуры или задаваться в ASCII-файле для пакетной обработки. Результаты разбора представляются в виде последовательно выдаваемых программой деревьев лингвистического разбора (графы), упорядоченных по вероятности правильного разбора. Алгоритм работы синтаксического анализатора основан на использовании грамматики связей (поиске наибольшего количества совпадений синтаксических связей, определяемых для каждого анализируемого слова). Словарь содержит ~ 60000 словарных форм, для каждой указаны типы возможных синтаксических связей. Семантические словари не используются. Программа реализована на C для Unix. Есть также версия для Windows API32. Имеет консольный интерфейс. Исходные коды и программа распространяется бесплатно.
Link Grammar Parser for Russian

Сергей Протасов

On-line программа синтаксического анализа предложений русского языка. Создана по образу Link Grammar Parser. Алгоритм работы синтаксического анализатора основан на использовании разработанной грамматики связей для русского языка. Доступен для тестирования web интерфейс программы. Алгоритм работы синтаксического анализатора основан на использовании грамматики связей. Морфологический словарь используется от aot.ru. Программа реализована на unix C, Perl под лицензией Apache License. Программа и исходные коды распространяются на коммерческой основе. 
АОТ (автоматическая обработка текста)

Алексей Сокирко

Комплекс программ автоматической обработки текстов, включающий:
- морфологические словари для русского, немецкого и английского языков;
- модуль графематического анализа текста;
- синтаксические словари;
- модуль снятия омонимии;
- модуль первичного семантического анализа;
- система лингвистического поиска (конкорданс);
- различные тезаурусы и словники.
Часть модулей доступна для загрузки.
Mystem Илья Сегалович,
Виталий Титов (Яndex)
Программа морфологического анализа текстов на русском языке. Для слов, отсутствующих в словаре, порождаются гипотезы. Реализована на основе словаря Зализняка. Доступны для загрузки версии для Windows и Linux. Работает как консольное приложение и имеет различные режимы представления результатов.
Версия программы предназначена для некоммерческого использования.
 LingSoft

LingSoft

Программные модули графематического и морфологического анализа, лемматизации для текстов на английском, немецком, финском, датском, норвежском, шведском, и эстонском языке, а также распознавания речи. Программные модули могут быть использованы при разработке лингвистических систем.
Cíbola/Oleada

Computing Research Laboratory

Проекты Cíbola/Oleada реализуют морфологический анализ на основе стемминга и машинной морфологии для мультиязычных текстов (MUTT) на ~ 16 языках, представленных в Unicode. Модули могут использоваться для статистического анализа текстов, автоматического перевода, различные словари и тезаурусы. Синтаксический и семантический анализ не реализован. Все компоненты реализованы в среде X11 Window System для SunOs и Solaris. Некоторые из них доступны для бесплатной загрузки после регистрации.
StarLing

С.А.Старостин

Программа морфологического анализа слов русского и английского языков. Словари Ожегова, Зализняка, Мюллера, Фасмера (этимологический) в виде СУБД StarLing. Работает с мультиязычными текстами, с транскрипционными знаками. Реализован поиск, анализ и синтез словоформ по словарю Зализняка, с переводом по словарю Мюллера, а также обеспечивается функция сравнительно-исторического исследования (глоттохронология). Для загрузки доступны DOS и Windows версии программы, словари Ожегова и Зализняка в DBF-формате. В режиме on-line на сайте доступна этимологическая база для различных языков, а также морфологический анализатор, позволяющий получить для вводимого слова базовую форму и морфологическую информацию.
Russian Morphological Dictionary

 Sergey Sikorsky

Программа для синтаксического и морфологического анализа русскоязычных текстов. Работает с текстом в формате ASCII. Используется морфологический словарь, включающий 120000 слов. Реализована на SWI-Prolog для Windows. Программа распространяется бесплатно в виде скомпилированной dll.
МедиаЛингва

МедиаЛингва

Программные модули SDK представлены средствами автоматического аннотирования, классифицирования, поиска и морфологической обработки текстовой информации. Продажи и дальнейшие разработки программных продуктов "Следопыт 3.0" и "Серверный Следопыт" в настоящее время прекращены.
Лингвоанализатор

Д.В.Хмелев

On-line версия программы математического анализа структуры текста. Целью анализа является определение близости любого из предлагаемых пользователем текстов к одному из авторских эталонов, определенных заранее и взятых из ресурсов Русской Фантастики. Программа анализирует входной текст и выдает имена трех писателей, которые могли бы быть его наиболее вероятными авторами. Кроме этого, программа находит три произведения каждого из авторов, которые наиболее близки данному тексту.
MCR DLL v2.0

Dim

Морфологический модуль в виде dll библиотеки, позволяющий осуществлять лемматизацию и морфологический анализ для слов русского языка. Работает с морфологическим словарем, построенным на базе словаря Зализняка. Поддерживает функции создания, обновления и работы с дополнительными пользовательскими словарями. Модуль написан на MS Visual C++ и доступен для загрузки.
Синтаксический анализатор

Д.С.Ермолаев

От-line синтаксический анализатор естественного текста на русском языке. Программа находится в разработке. Версия программы показывает наличие множества "неизвестных" ей слов. Синтаксические связи определяются не для всех слов предложения.
Склонятель

Сергей Слепов

Программа "Склонятель" предназначена для склонения слов и словосочетаний на русском языке. Изменение по числам не предусмотрено. Программа написана на C# под .NET Framework 2.0.
Forson, a sentence generation tool

Alfonso Tarantini

Программа генерации синтаксически корректных предложений. Программа управляется входным файлом правил на основе грамматики Bison, что обеспечивает выборочный или полный контроль предложений. Программа может использоваться для тестирования компиляторов и парсеров или дидактических целей. Реализована для POSIX (Linux/BSD/UNIX-клоны) и Linux операционных систем.

3.     Утилиты статистического анализа текста 

Название,  автор(ы)

Комментарий

TextAnalyst 2.0

МикроСистемы

Программа построения семантической сети понятий, выделяемых из обрабатываемого текста, со ссылками на контекст. Позволяет анализировать текст путем построения иерархического дерева тем/подтем, затрагиваемых в тексте. Также имеется возможность реферирования текста. Лингвистический анализ проводится в основном на основе стемминга. Морфологический анализ реализован для сравнительно небольшого количества слов. Из лингвистического анализа исключаются не только стоп-слова, но и все глаголы. При поиске не учитывается порядок слов. Синтаксический и семантический машинный анализ тестов не реализован.
SDK реализует функции лемматизации для русского и английского языков, построения частотных списков понятий, поиска слов в контексте. TextAnalyst Lib реализует создание гипертекстовых связей выявляемых понятий.
MonoConc / ParaConc

Michael Barlow
Dept of Linguistics, Rice University, Texas, USA

Программы построения конкордансов (в том числе мультиязычных) для одного или двух сравниваемых тестов. Реализованы возможности различных режимов поиска: с помощью символов маскирования, регулярных выражений, контекстно-чувствительного поиска. При обработке текстов c внутренней разметкой (HTML/SGML) теги ошибочно включаются в состав конкорданса. Различные варианты сортировки. Функции частоты встречаемости слов и словосочетаний. Различные режимы вывода конкорданса. Есть возможность генерации индексов и словников. Для построения параллельного конкорданса (для двух сравниваемых текстов) необходимо обеспечить их соответствие по структуре(параграфам, предложениям).
Имеется возможность загрузки бесплатных демо-версий, которые имеют ряд ограничений в сравнении с реальными версиями.
WordSmith Tools

Mike Scott

Программы построения конкордансов. Функциональность аналогична MonoConc.
Лингвистические компоненты

Андрей Коваленко

Программы вероятностного морфологического анализа - стеммера (с исходным кодом) и демо-версии морфологических анализаторов русского, украинского и английского языков представлены на авторской страничке разработчика компании "Ашманов и партнеры" А.Коваленко. Разработки использованы в ряде существующих информационно-поисковых систем - Апорт!, Рамблер, Мета, системе Пропись 4.0 и др.
netXtract

Relevant Software Inc.

Плагин Microsoft Internet Explorer (версии 5.0 и выше), позволяющий "на лету" строить индекс слов в загруженном HTML документе. Индекс может быть упорядочен по алфавиту или частоте. Для каждого слова в индексе можно исследовать контекст, в котором это слово встречается. Выбранные слова по желанию заносятся в персональную базу знаний, которая позволяет систематизировать найденные документы удобным образом. Версии программы: персональная (свободно распространяемая) и team edition (коммерческая).
Textual Analysis Computing Tools (TACT)

Library Electronic Text Resource Service

Пакет DOS программ обработки текстов в формате ASCII, разработанный группой исследователей из Университета в Торонто. Пакет включает программы для автоматизированной разметки текста; построения упорядоченных списков слов; анализа распределения слов в тексте по длине и частоте; построения конкорданса и другие. Имеется on-line версия пакета TACTWeb 1.0
Paai's text utilities

Dr. J.J. Paijmans

Сборник утилит и Unix-скриптов для обработки текстов в ASCII кодировке для использования под Linux.
WordTabulator v2.2.3

С.В.Логичев

Программа позволяет строить упорядоченные индексы словоформ или словосочетаний заданной размерности для множества входных текстов в ASCII-формате или HTML. Возможность поиска слов с использованием символов маскирования, с учетом русскоязычной морфологии. Обеспечивает контекстный просмотр результатов поиска в виде гипертекстового индекса, анализ двух текстовых корпусов на сходство или различие. Поддерживает основные кириллические кодировки в среде Windows 9x/NT/2000/XP.
Худломер

Леонид Делицын

Программа автоматической классификации функционального стиля текста на основе спектров длин слов. Доступна on-line версия на JavaScript и исходные коды ранней версии на perl. Программа определяет следующие стили: разговорный стиль, стиль художественной литературы, газетно-информационный стиль, научно-деловой стиль.
Свежий взгляд / Fresh Eye
v.1.21, 1995

Дмитрий Кирсанов

Утилита DOS, OS/2 реализующая стилистическую проверку русскоязычных текстов. Программа отыскивает в тексте места, где фонетически и морфологически схожие слова расположены в непосредственной близости, что порождает так называемую паронимию или "нечаянную тавтологию". Программа распространяется без ограничений вместе с исходным текстом на C.
URS v. 1.1
от 05.04.2001

М.А.Бендерский,
("НООЛаб")

Утилита для построения и обработки словарных частотных индексов. Позволяет обрабатывать входные документы в форматах обычного текста, HTML и MS Word для Win9x/NT/2000. Обеспечивает анализ и обработку пар словарных индексов как двух множеств, экспорт результатов в файл.
WordStat

А.Г.Дубинский

Утилита подсчета частоты встречаемости различных слов в текстовых или html-файлах. Обрабатывает основные русские кодировки, игнорирует html-разметку. Бесплатная.
Алгоритм сравнения текстов

Владимир Чаплинский

Программа предназначена для поиска дубликатов текстов. Приведен алгоритм и исходный код программы (на FoxPro) сравнения двух текстов.
Textarc

W. Bradford Paley, Digital Image Design Inc. 2002

Программа для визуализации и исследования текстов. Текст воспроизводится на экране компьютера в виде галактики, в которой слова играют роль звезд. Частота встречаемости слова определяет яркость его отображения. Строки текста выводятся в виде закручивающейся спирали по границе "галактики" точечным шрифтом (высотой в один пиксель). Программа позволяет видеть структуру текста, взаимосвязи между словами и контекстом, просматривать частотный и алфавитный индекс слов и конкорданс. При движении курсора по галактике слова вспыхивают и загораются лучами (указателями на контекст) и звучат в разной тональности. Программа реализована как Java-апплет для браузера.
Ngram Statistics Package (NSP)

Ted Pedersen 2000-2004

Пакет NSP позволяет идентифицировать в больших корпусах текстов словесные n-граммы с использованием стандартных статистических критериев, таких как тест Фишера на равенство, отношение логарифма вероятности и тест Пирсона хи-квадрат. Позволяет легко задавать дополнительные критерии проверки. NSP написан на Perl. Исходный текст распространяется на условиях GNU Copyleft.
Лемматизатор Мультитран Лемматизатор, реализующий возможности морфологического модуля системы Мультитран. Загружаемый архив lemm.zip содержит исходный код проекта для MS Visual C++ и словарную базу системы, содержащую около 300.000 основ и 15.000 окончаний для русского языка. Позволяет искать все базовые формы введенного слова с показом его грамматических характеристик.
 
FRQDictW

Александр Челмодеев

Программа построения частотного словаря для заданного текста. Теоретически может работать с любыми файлами, содержащими ASCII-текст в кодировке Win-1251. Работает в ОС Windows 9x/ME/NT/XP как консольное приложение.
Rhymes

Николай Кецарис
2002-2003

Программа поиска рифм на основе словаря Зализняка. При поиске выполняет фонетическое сравнение слов с учетом ударения. Позволяет находить для заданного слова синонимы и антонимы. Общий размер словарной базы Rhymes составляет 100 тыс. слов и 1.7 млн. словоформ. Версии для Windows и Pocket PC.

 

  Участник проекта Сколково