Принципы работы поисковых систем AskNet
Поисковые системы AskNet
предназначены для поиска информации в локальных и глобальных базах данных.
Системы предоставляют как традиционный поиск по ключевым словам, который
обеспечивают все известные поисковые системы, так и новый вид поиска – поиск
семантически связанной информации.
Особенность поиска по ключевым
словам состоит в том, что поиск осуществляется с учетом всех форм слов, включая
сокращения, и по всем вариантам написания числительных (римские и арабские
числа, слова).
При поиске семантически связанной
информации запрос пользователя представляет собой вопрос на естественном языке,
а найденная в результате поиска информация является ответом на вопрос
пользователя.
Точность поиска семантически
связанной информации основывается на точности анализа запроса, с одной стороны,
и на точности анализа текста, с другой.
Основные принципы работы
поисковой системы
Система предназначена для
осуществления быстрого поиска на больших объемах информации. Работа системы
начинается с подготовки текстов для поиска (индексация). В процессе индексации
структура и содержание текста описываются при помощи формальных характеристик,
которые используются далее при поиске. Один файл соответствует в системе одному
индексируемому тексту. Прежде всего, учитывается информация, относящаяся к файлу
(документу) в целом, – название, дата создания, автор. Также описывается его
внутренняя структура – название, заголовки разных уровней.
Далее текст, содержащийся в файле,
проходит все уровни анализа – лексический, синтаксический и семантический.
Лексический анализ предполагает деление текста на параграфы, предложения и
слова. Для обеспечения точности анализа учитывается также информация о сложных
лексических единицах, иначе говоря, комбинациях, которые содержатся в тексте.
Поскольку синтаксические
зависимости в предложении являются отражением связей между объектами в
описываемой ситуации, вычленение этих связей необходимо для имитации понимания
текста. Синтаксические зависимости устанавливаются в результате синтаксического
анализа.
Слова, связанные определенной
синтаксической зависимостью, описывают объекты внешнего мира, которые имеют
определенные свойства, иначе говоря, слова обладают определенной семантикой.
Так, некоторые единицы текста указывают на дату, причем одна и та же дата может
быть выражена в языке разными способами (21/02/2007 или 21
февраля 2007 года).
Иногда разные объекты могут обозначаться одним и тем же словом – слово Америка
может обозначать два разных объекта - "страна Америка" и "континент Америка". В
системе разработан набор из 77 семантических категорий, который является
достаточным для описания семантики текста при поиске ответа на вопрос. Описание
семантики текста при помощи семантических категорий является результатом
семантического анализа.
После того как документы
проиндексированы, в них может проводиться поиск. Введенный пользователем запрос
проходит весь цикл анализа – лексический, синтаксический и семантический.
При поиске по ключевым словам для
определения наиболее релевантных результатов учитываются относительная частота
встречаемости слов в тексте и близость их расположения друг к другу.
При поиске ответа на вопрос
найденные ответы ранжируются в соответствии с тем, насколько точно они отвечают
на поставленный вопрос.
Реализуемые алгоритмы поиска
Поисковые системы AskNet
реализуют два основных класса алгоритма поиска:
- поиск информационных ресурсов;
- полнотекстовый поиск информации внутри текстового ресурса.
Обобщенный алгоритм поиска включает
в себя оба вышеперечисленных этапа. Данные этапы выполняются автоматически в
процессе анализа запроса пользователя и установленных в поисковой системе
параметров поиска.
Этап поиска информационных ресурсов
автоматически проводится поисковой системой AskNet для предварительного
отбора текстов, в которых затем проводится поиск по ключевым словам или поиск
ответа на вопрос пользователя. На этапе поиска информационных ресурсов
определяется также база, содержащая соответствующие ресурсы. Данный подход
является достаточно общим и актуален и при реализации поиска по тематическим
рубрикам, новостным категориям и т.п. При поиске в локальных базах этап поиска
информационных ресурсов может быть реализован на основе выбора пользователем
определенной базы для поиска (например, поиск по базе сообщений электронной
почты), а также на основе автоматического отбора текстов, содержащих ключевые
слова из запроса пользователя.
Это позволяет существенно сократить
область точного поиска за счет предварительного отбрасывания заведомо
нерелевантных ресурсов, в которых не может содержаться интересующая пользователя
информация.
Этап полнотекстового поиска
информации внутри текстового ресурса позволяет найти блоки текстовой информации,
наиболее соответствующие запросу пользователя.
Виды поиска,
предоставляемые пользователю:
- полнотекстовый поиск (поиск в
теле документа);
- поиск ответа на вопрос;
- по ключевым словам;
- по точной фразе;
- по заголовкам и подзаголовкам;
- по полям документа (поиск среди формализованных полей документа – например
"автор", "название" и проч.);
- комбинированный поиск (полнотекстовый поиск с фильтром по полям документа).
При полнотекстовом поиске
пользователь может дополнительно выбрать способы расширения или сужения области
поиска.
Виды расширения области
поиска:
- использование синонимов;
- поиск с отбрасыванием малозначимых слов.
Для сужения области поиска может
использоваться поиск только среди заголовков документа и комбинированный поиск.
Во всех видах поиска
дополнительно обеспечиваются:
- поиск по новым словам с
занесением их в базу новых слов;
- поиск по сокращенному и полному написанию слов (для общепринятых сокращений);
- поиск по числительным в различных вариантах их написаниях.
|