Задачи поисковых
систем
Информационно-поисковые системы (ИПС) стали применяться уже с середины 60-х годов прошлого века. Они появились практически одновременно с внедрением компьютерных систем в разнообразные сферы человеческой деятельности, открывая все более широкие возможности эффективного
использования различных видов информации.
Главное требование к любой поисковой системе – быстрое формирование точного и полного ответа, адекватного запросу пользователя.
С точки зрения требований, предъявляемых к точности поисковых операций, общую задачу поиска можно разделить на две крупные подзадачи:
а) поиск в глобальных базах текстовой информации (Интернет);
б) поиск в локальных (корпоративных, сайтовых или персональных)
базах.
Наибольшие положительные результаты к настоящему времени достигнуты в сфере глобального поиска (ИПС Google , AltaVista , Yahoo!, Yandex , Rambler ,…). Априори понятно, что в глобальных базах (вследствие их всеобъемлющего характера) с очень большой вероятностью может быть найден какой-нибудь подходящий ответ практически на
большинство запросов пользователей даже без привлечения для этих целей серьезного методического аппарата. Поэтому модели поисковых систем для Интернет, как правило, базируются, на вероятностно-статистических алгоритмах, ориентированных на отбор текстовой информации по относительно простым формальным правилам и признакам (обычно по сигнатурам ключевых слов или их сочетаний). В них слабо учитываются (или не учитываются вообще) лингвистические особенности и грамматический строй языковой основы отбираемой текстовой информации. Для более качественного отбора текстовых ресурсов, соответствующих запросу пользователя, в глобальных поисковых системах используются также некоторые искусственные приемы априорного назначения релевантности ресурсу (в виде индексов цитирования, частоты встречаемости ключевых слов на данном ресурсе и т.п.). Обращение к лингвистическим методам в глобальных поисковых системах сводится в лучшем случае только к использованию морфологических характеристик лексических единиц того или иного языка. Поэтому, несмотря на широкую популярность подобных систем, при реализации информационно-поисковых процедур на больших объемах информации наряду с полезной передается много лишней, "шумовой" информации. Задача собственно выбора подходящих сведений среди отобранной по запросу информации возлагается на пользователя.
В последние годы интенсивно развиваются технологии так называемого метапоиска, ориентированные на точный поиск информации в текстовых ресурсах, предварительно отбираемых с использованием существующих систем классического глобального поиска, с применением элементов лингвистического анализа. Так, в наиболее известных метапоисковых системах (Ixquick Metasearch , Brainboost , Languagecomputer ,…) применяется поверхностный синтаксический анализ запроса пользователя для выделения ключевых слов и поиска ответа по ним. Отличительная особенность подобных систем – их ориентация на поиск в глобальных базах информации. Поэтому используемый ими неглубокий анализ текста позволяет во многих случаях находить верный ответ с большей или меньшей степенью вероятности. Однако поверхностный синтаксический анализ определяет и присущую для них методическую ограниченность: подобные системы принципиально не могут обеспечить высокую точность поиска (особенно в локальных базах - например, корпоративных, персональных и т.п.). Для этого необходимы углубленный синтаксический анализ предложения в сочетании с семантическим анализом разбираемых текстов.
Локальные базы
(корпораций, ведомств, учреждений) характеризуются существенно меньшими объемами информации (по сравнению с глобальными Интернет-базами). Очевидно, что для поиска точного ответа в локальных базах (вследствие их малой размерности) вероятностно-статистические методы, широко применяемые в глобальных поисковых системах, принципиально не подходят. Качество работы организационных систем (госорганов, ведомств, корпораций и т.д.) нередко напрямую зависит от оперативности обеспечения персонала необходимой информацией (распорядительной, учетной, текущей, справочной и т.д.) по различным предметным областям и темам. Успешный поиск точного ответа в локальных системах может быть реализован только на основе достаточного глубокого лексико-грамматического анализа текстовой базы и запросов пользователей, а также широкого привлечения эвристических методов оценки их смыслового соответствия.
Анализ поисковых систем
Существующие поисковые системы осуществляют поиск текстовых ресурсов, содержащих ключевые слова запроса пользователя. При этом задача оценки смыслового содержания найденной информации возлагается на пользователя.
Таким образом, задача информационного поиска делится на 2 класса:
- поиск текстовых ресурсов, содержащих информацию по запросу пользователя;
- поиск смысловой информации (внутри проиндексированных ресурсов), содержащую ответ на вопросы пользователя или информацию, содержательно соответствующую запросу пользователя.
Это прикладные задачи, которые определяют что ищет пользователь: абстрактный ресурс по данной проблеме или конкретную информацию. Данные два класса задач информационного поиска характерны как для глобальных, так и для локальных поисковых систем
Поиск текстовых ресурсов характерен для процесса разыскивания пользователем хоть какой-либо информации, касающейся интересующей тематики. Он используется в случае если пользователь не знаком с предметной областью (и, соответственно не может сформулировать точный запрос для получения точного ответа) или пользователь не нашел в базе проиндексированных текстов ответ на свой вопрос и пытается найти хоть какую-нибудь информацию по данной тематике.
Поиск смысловой информации характерен для отыскания конкретной информации. Данный поиск, как правило, проводится пользователем знакомым с прикладной областью и уверенным, что искомая информация может содержаться в проиндексированных текстах.
Анализ глобальных поисковых систем
Глобальные поисковые системы характеризуются наличием большого объема разнородной текстовой информации, изложенной на различных национальных языках (более 30 основных национальных языков). Поэтому широко применяемые алгоритмы поиска для глобальных поисковых систем основаны на методах поиска по сигнатурам ключевых слов. Использование лингвистических методов в глобальных поисковых системах сводится в лучшем случае только к использованию морфологии для наиболее распространенных языков (часто только для английского языка). Использование морфологии позволяет расширить полноту поиска за счет отбора текстовых ресурсов, содержащие все возможные словоформы ключевых слов запроса пользователя. Для обеспечения более качественного отбора текстовых ресурсов, соответствующих запросу пользователя, в глобальных поисковых системах используются алгоритмы априорного назначения релевантности ресурсу (индекс цитирования, частота встречаемости ключевого слова на данном ресурсе и т.п.). Объектом поиска является ресурс текстовой информации – как правило, страница текста, имеющая уникальный URL . Полнотекстовый поиск глобальные поисковые системы обеспечивают только в пределах сравнительно небольшой части проиндексированного ресурса. Это обусловлено тем, что индексируется только ограниченное количество слов ресурса, отсчитываемое от начала документа.
В глобальных базах (вследствие их всеобъемлющего характера) с очень большой вероятностью может быть найден какой-нибудь подходящий информационный ресурс для практически большинства запросов пользователей даже без привлечения для этих целей лингвистического аппарата.
Число предложений в проиндексированных документах существенно превышает количество проиндексированных ресурсов, поэтому в глобальных поисковых системах используется именно поиск ресурсов. Полнотекстовый поиск смысловой информации в предварительно отобранных ресурсах реализуется пользователем.
Поэтому существующие модели поисковых систем для Интернет, как правило, базируются, на вероятностно-статистических алгоритмах, ориентированных на отбор текстовой информации по относительно простым формальным правилам и признакам (обычно по ключевым словам или их сочетаниям). В них слабо учитываются (или не учитываются вообще) лингвистические особенности и грамматический строй языковой основы отбираемой текстовой информации.
Использование лингвистических методов для поиска смысловой информации в глобальных поисковых системах требует реализации следующих задач:
- полнотекстовой индексации всех ресурсов, а не только начальной части документов;
- разработки лингвистических процессоров для множества используемых национальных языков.
Реализация полнотекстового поиска для глобальных поисковых систем вызвала бы значительное (на порядки) увеличение объема индекса и времени проведения цикла индексации. Поэтому, в условиях ограничения вычислительных ресурсов существующих средств, а также с учетом прогрессивного роста объема информации в Интернете реализовывать полнотекстовую индексацию в глобальных поисковых системах нецелесообразно. Ввиду разнородности семантического содержания информации в Интернете перспективным является полнотекстовая индексация только определенных зон Интернета.
Разработка множества лингвистических процессоров даже для наиболее часто используемых национальных языков является достаточно трудоемкой задачей. Использование лингвистической обработки текста информационных ресурсов (предварительно отобранных по ключевым словам) позволяет реализовать поиск соответствующей запросу пользователя смысловой информации.
Анализ локальных поисковых систем
Локальные поисковые системы
характеризуются наличием меньшего (по сравнению с глобальными системами) объема
индексируемой текстовой информации, большей семантической ее однородностью,
меньшим числом используемых национальных языков.
Поиск текстовых ресурсов в
локальных поисковых системах характерен при разыскивании пользователем
информации по описанию метадокумента (по автору, дате создания, названию, типу
документа и т.п.). Ввиду возможности создания локальных поисковых систем с
определенной направленностью (новостные, тематические и т.п.) локальные
поисковые системы могут использовать специфические (не универсальные) критерии
назначения релевантности (например, соответственно по дате создания документа,
по его тематике и т.п.). При поиске текстовых ресурсов могут быть также
использованы вероятностно-статистические методы, широко применяемые в глобальных
поисковых системах.
Однако, учитывая прикладную
направленность локальных поисковых систем на определенный круг пользователей, а
также требования обеспечения полнотекстового поиска, наиболее актуальными
являются алгоритмы точного поиска смысловой информации.
Успешный поиск точного ответа в
локальных системах не может быть реализован без достаточного глубокого
лексико-грамматического анализа текстовой базы и запросов пользователей, а также
широкого привлечения эвристических методов оценки их смыслового соответствия.
Технология информационного поиска AskNet
Технология информационного поиска AskNet представляет собой совокупность методических и алгоритмических решений, обеспечивающих возможность реализации широкого класса поисковых систем (локальных и глобальных). Все базовые и прикладные технологические решения по AskNet основываются на единой методической платформе – совокупном использовании методов лингвистического анализа и искусственного интеллекта. Именно глубина лингвистического разбора текстов, осуществляемая с использованием интегрированной базы знаний о лексико-грамматическом строе языка, корректное определение отношений между членами предложения и автоматическая верификация соответствующих гипотез относительно их синтактико-семантических ролей создают необходимые предпосылки для реализации точного поиска в локальных базах. Достаточные же для этого условия создаются за счет соответствующих архитектурно-системных решений, обеспечивающих механизмы реализации интеллектуальных поисковых алгоритмов с приемлемыми потребительскими и эксплуатационными качествами. Ввиду существенной сложности и объемности задач интеллектуализации поисковых систем их развитие, естественно, осуществляется поэтапно путем последовательного наращивания их функциональности.
Для сохранения возможностей традиционных видов поиска, а также для реализации некоторых специальных видов поиска в составе технологии AskNet интегрированы также некоторые вероятностно-статистические алгоритмы. Это создает возможность применения этой технологии в соответствующих вариациях как для локального, так и для глобального поиска (в том числе для глобального метапоиска). При этом по мере развития
алгоритмов точного локального поиска предусматривается использование полученных достижений для параллельного повышения эффективности глобального поиска.
Следует особо подчеркнуть, что технология AskNet изначально нацелена на точный поиск в локальных базах данных. Для этого в ней предусматриваются и развиваются соответствующие механизмы точного поиска. Точность же при поиске в глобальной сети является лишь естественным следствием или свойством данной технологии.
Таким образом, технология поиска AskNet позволяет создать линейку продуктов, которые могут использоваться для точного поиска в персональных, корпоративных, сайтовых базах, а также в глобальной сети, чего другие системы обеспечить не в состоянии в силу их методических и технологических ограничений.
|