Семантическая поисковая система AskNet.ru  AskNet Продукты Сервисы Технологии Аналитика Вопрос-ответEnglish
Найдется  соответствующее

Семантика

Задавайте вопросы на естественном языке

 

 

Например: 

 

Семантические поисковые системы

 

Система Содержание семантического анализа
(в чем заключается семантический анализ)
Что используется для семантического анализа (словари, тезаурусы и т.д.)
AskNet Семантический анализ заключается в классификации объектов (учитываемых иерархических семантических категорий), а также выявлении отношений между ними. Используются предопределенные семантические типы в морфологическом словаре, синтаксический анализ предложений, выявление комбинаторных семантических понятий (семантических объектов, представленных несколькими словами). Проводится сопоставление семантически эквивалентных, но синтаксически различных конструкций (активный, пассивный залог). Для выявления семантических объектов используются регулярные выражения, синтаксические и семантические правила продукции, порождающие грамматики (виртуальные словари) чисел и т.п.
Для разрешения омонимии используется синтаксический анализ, реализованный на базе грамматик зависимостей (dependency grammar),
где отсутствуют нетерминальные символы и главным членом предложения является глагол или глагольное ядро предложения, причем правила являются контекстно-зависимыми.
1. Семантические типы в морфологическом тезаурусе.
2. Синтаксические и семантические правила продукции.
3. Толково-комбинаторные словари.
4. Виртуальные словари семантических категорий.
5. Словари синонимов (общий и тематические).
6. Правила эквивалентных преобразований синтаксических конструкций.
7. Правила оценки лингвистической релевантности.
 
RCO Семантический анализ заключается в выявлении взаимосвязей между объектами (персоналиями, организациями, событиями) и классификации отношений между ними, а также отождествлении объектов. Для этого семантический анализатор в тексте выявляет связи между описанными в нем событиями и предметами.
Совокупность имен всех предметов и событий с их взаимосвязями образует семантическую сеть. Показателем наличия некой связи между предметами является описание их участия в одном событии (в любых ролях), а показателем наличия связи между предметом и событием – описание участия предмета в данном событии (в любой роли). Семантическим связям можно задать веса.
Элементы семантической сети характеризуются следующими параметрами:
SemanticType – семантический класс объекта (date, event (сделка), person и т.д.)
RelationName - тип синтактико-семантической связи (аргумент, принадлежность, обстоятельство и т.д.)
RelationRole -семантическая роль (субъект, объект, инструмент). Определяется для связи предикат-аргумент и получается из модели управления.
RalationCase (семантический падеж) и RelationConnector (предлог) – альтернатива семантической роли, т.к. роль не всегда может быть установлена.
С помощью семантической сети можно получить:
Главные темы текста
Связи между темами
Тематический реферат (информативные фрагменты текста, в которых упоминалась данная тема).
1. Семантический классификатор лексики русского языка: предметы (одушевленные и неодушевленные, природные и искусственные, физические и интеллектуальные), события (действия и состояния, физические и интеллектуальные), признаки (качественные и относительные).
2. Общий словарь синонимов (тезаурус для компьютерной обработки текста).
3. Правила (синтактико-семантические преобразования) для эксплицирования элементов смысла текста, отождествления различных способов выражения одного смысла, синтеза нового текста на русском языке.
 
Exactus
 
Анализ основан на теории коммуникативной грамматики.
Сначала происходит поиск предиката (в основном девербатива). Для этого используется словарь. Для каждого глагола определяются его синтаксемы. У каждой синтаксемы-существительного есть указание на семантический класс: темпоративное (дата), предметное (вилка) и т.д. Для каждой синтаксемы определяет значение – падежная роль. Значение синтаксемы можно определить и по глаголу, и по специальным правилам алгоритма.
Далее между синтаксемами устанавливаются семантические связи.
Пример:
Кто изобрел вилку
Семантические классы существительных:
Кто: анафорический элемент
Вилка: предметное
Роли
Предикат: изобрел
Объект: вилку
Субъект: кто
Связь: CAUS " вилку-кто".
Таким образом, при поиске будут выданы те документы, где вилка является именно объектом (а не субъектом, например).
Словарь, в котором указывается какие синтаксемы могут использоваться при определенном глаголе, морфологическая форма синтаксемы, категориальная семантика существительных.
Connexor Семантика разделяется на 3 типа:
1. Grammatical semantics (часть речи, время, залог, число, падеж)
2. Sentential semantics (тип предложения, модальность и т.д.). Например: утверждение, побуждение, wh-вопросы, косвенная речь.
Lexical semantics. Сюда входят лексические категории имен (person, location, organization) и семантические роли (human, animate, tool, durative,  etc).
Словарь семантических категорий.
Галактика Zoom Семантический анализ не реализован. Поиск основан на лексико-статистическом анализе текстов.
Для запрашиваемой темы составляется "информационный портрет" - набор упорядоченных по значимости ключевых слов и словосочетаний, характерных именно для данной выборки текстов. По этим ключевым словам пользователь может определить темы, которые в принципе могут быть выданы на его запрос, и тем самым уточнить нужную ему тематику. Информационный портрет может использоваться для следующих целей:
1. По значимым словам темы пользователь может определить темы
2. Для ранжирования найденных документов (по наличию ключевых слов с большей значимостью),
3. Для автоматической рубрикации: для каждого документа составляется его инфопортрет и сравнивается с инфопортретом рубрики (этот инфопортрет задается либо вручную, либо автоматически на основе анализа базы документов.
Как происходит выделение значимых ключевых слов. Эти слова характеризуют контекст запроса относительно контекста всей базы, то есть происходит отбор слов, характеризующих отличие этой выборки от всего остального, имеющегося в базе. Формула вычисления значимости слов представляет собой отношение частот встречаемости данного слова (словосочетания) в конкретной выборке и во всей базе. Например, слово "любовь" может быть значимо, только если частота его встречаемости в данной выборке выше, чем во всей базе или если все другие слова, встречающиеся в данной выборке, употребляются с меньшей частотой.
Семантический анализ не используется.
Интегрум Выделяет объекты определенного типа и приписывает тип объекта (семантическая категория: человек, дата, число, организация и т.д. Умеет отождествлять всех формально различных обозначений одного объекта в пределах одного документа. Использует развитый язык запросов. Разработки прекращены. При выделении объектов определенного типа используется информация из словарей общей лексики, специальные словари, созданные под каждый тип объекта и на шаблонных правилах построения цепочек слов.
Эти специальные словари содержат лишь опорные элементы. Например, словари для типа "организация" содержит слова "фирма", "компания" и т.д., а само название определяется по правилам построения цепочек слов.
Convera Использует технологию RCO TopNet.
Применяются готовые семантические сети с множеством понятий и терминов, соединенных отношениями. С помощью этой сети происходит поиск по синонимам, более узким (или наоборот) терминам, а также связанных между собой терминов и понятий. По этой сети можно определить не только связь между понятиями, но и семантическое расстояние между ними. Запрос пользователя на естественном языке соотносится с семантической сетью.
Классифицирует данные с помощью таксономий. Например, в компанию поступил документ. В процессе индексации по таксономии определяется тип этого документа. Затем, уже на основании таксономии структуры организации и предписанных связей между двумя этими таксономиями, документ отправляется туда, куда должен быть отправлен документ такого типа.
Картриджи:
1. Семантические
Семантические картриджи содержат словари, объединенные в семантические сети. Эти же картриджи содержат морфологическую информацию, идиомы, стоп-слова. Могут быть многоязыковыми и созданными для определенной прикладной области.
2. Таксономические.
Содержит таксономии для классификации и категоризации данных. Всего около 60 таксономий, каждая из которых содержит сотни категорий и 10 уровней глубины (например, таксономия для канцелярии. Набор таксономий охватывает отрасли промышленности и некоторые специальные предметные области.

 

  Участник проекта Сколково