Wolfram Alpha
Wolfram Alpha – это система, предназначенная для хранения, обработки и выдачи
пользователям структурированных данных по запросам на естественном английском
языке. Wolfram Alpha не является поисковой системой. Это обусловлено тем, что
она не предназначена для автоматической обработки неструктурированных текстов.
Для ее работы необходимо предварительно вручную ввести фактографическую
информацию в базу данных, а также разработать и реализовать алгоритмы ее
обработки. Данные процедуры выполняются вручную сообществом разработчиков и
экспертов системы Wolfram Alpha.
Из анализа описания системы система
Wolfram Alpha следует, что получения ответов система Wolfram Alpha должна:
-
- уметь правильно разобрать
запрос пользователя на естественном языке;
-
- иметь соответствующую
структурированную фактографическую информацию;
-
- иметь алгоритмы обработки
фактографической информации, обеспечивающие формирование ответа на запрос
пользователя.
Таким образом, система Wolfram
Alpha автоматически способна обрабатывать только заранее структурированную
вручную фактографическую информацию, хранящуюся в СУДБ. Для синтеза ответов
могут использоваться детерминированные алгоритмы выборки дополнительной
информации и проведения расчетов по фактографическим данным. По данным
формальным признакам система Wolfram Alpha может быть отнесена к известному
классу систем Business Intelligence. Системы данного класса являются узко
специализированными, что обусловливает незначительный спектр вопросов, на
которые можно получить ответы системы Wolfram Alpha. Данное ограничение является
системным, так как заложено в концепцию ее функционирования.
Таким образом, система Wolfram Alpha принципиально не позволяет пользователям искать ответы на любые
интересующие их вопросы. Для этого предназначены вопросно-ответные поисковые
системы. В отличие от системы Wolfram Alpha вопросно-ответные поисковые системы
автоматически выявляют фактографическую информацию в обрабатываемых текстах и
проводят ее индексацию без участия человека. За счет этого достигается
существенное повышение полноты поиска. Для обобщения, проведения логического
вывода и синтеза ответов вопросно-ответные поисковые системы также используют
правила обработки фактографической информации. Однако, в отличие от системы
Wolfram Alpha, правила логической обработки при этом представляют из себя не
отдельные алгоритмы, направленные на решение заранее определенных сравнительно
простых задач, а логические правила, которые могут автоматически применяться в
динамически формируемой последовательности, определяющей порядок обработки
первичной фактографической информации и формирования ответа на вопрос
пользователя.
Для проверки данных положений проведем сравнительное тестирование систем Wolfram Alpha и AskNet.ru.
Методика сравнительного тестирования систем Wolfram Alpha и AskNet.ru
Для проведения объективного тестирования системы Wolfram Alpha была взята коллекция вопросов дорожки
вопросно-ответного поиска конференции TREC 2003 (http://trec.nist.gov/data/qa/2003_qadata/03QA.tasks/test.set.t12.txt).
Это обусловлено тем, что данные тестовые вопросы имеют достаточно общий характер
и могут быть использованы для тестирования систем вопросно-ответного поиска,
работающих в интернете. В отличие от других тестовых дорожек вопросно-ответного
поиска конференции TREC, используемые тестовые случаи конференции TREC 2003 не
привязаны к тестовым коллекциям документов и не имеют группировки в тематически
связанные последовательности вопросов. Тестовые коллекции семинара РОМИП не
использовались ввиду того, что они предназначены для оценки качества поиска на
русском языке, а система Wolfram Alpha не работает с русскоязычными запросами
пользователей – «Wolfram Alpha сейчас не понимает русский язык».
Тестирование проводилось путем последовательного поочередного ввода запросов из тестовой коллекции конференции
TREC 2003. Тестирование систем было проведено по первым 71 тестовым случаям из
500, имеющихся в коллекции конференции TREC 2003. Это было обусловлено
получением результатов тестирования, явно отражающих характеристики систем и
позволяющих сформулировать достоверные выводы.
Результаты сравнительного тестирования систем Wolfram Alpha и
AskNet.ru
Обобщенные результаты сравнительного тестирования систем Wolfram Alpha и
AskNet.ru представлены в таблице.
Сравниваемые показатели |
Система |
AskNet.ru |
Wolfram
Alpha |
Количество правильных ответов на первой странице
выдачи
Из них в первой позиции
|
63 47 |
9 9 |
Количество неправильных ответов |
0 |
2 |
Количество ненайденных ответов
Из них система:
не разобрала поисковый запрос (не знала что искать)
запросила уточнение поискового запроса |
8
0
0 |
60
57
3 |
Вероятность получения правильного ответа на первой
странице выдачи системы |
0,89 |
0,13 |
Детальная информация по тестовым
случаям приведена в приложении. Всего поведено тестовых случаев – 71.
При анализе выдачи
вопросно-ответной поисковой системы AskNet.ru
проводился учет наличия и номера позиции правильного ответа. Среднее значение
позиции правильного ответа на странице, если ответ был найден, составляет 1,63.
Это означает, что в среднем правильный ответ находился в выдаче
вопросно-ответной поисковой системы AskNet.ru
на первом или на втором месте.
Система
Wolfram Alpha в 57 случаях не могла определить смысл запроса пользователя
и выдавала сообщение «Wolfram Alpha isn't sure what to do with your input». В
трех тестовых случаях система
Wolfram Alpha вывела диалог уточнения смыслового
содержания введенного пользователем запроса.
Выводы.
Результаты сравнительного
тестирования систем Wolfram Alpha и AskNet.ru подтвердили правильность выше
изложенных теоретических оценок.
Система Wolfram Alpha не
является «универсальным вычислителем ответов», как это было заявлено в ходе ее
рекламной компании в Интернете. Практическая полезность системы Wolfram Alpha для получения смысловой информации на произвольные вопросы крайне низка. На это
указывает низкая вероятность получения правильного ответа в ее выдаче.
Действительно, для получения правильного ответа в системе Wolfram Alpha должно
выполниться много условий: система должна корректно разобрать вопрос
пользователя и корректно составить шаблон семантического поиска, в системе
должна быть соответствующая фактографическая информация и алгоритмы ее
обработки. Фактографическая информация и алгоритмы ее обработки в системе
Wolfram Alpha вводятся вручную, поэтому данная система может быть использована
для поиска и обработки информации ограниченного объема. Подключение расчетных
задач для обработки результатов предварительно отбираемой системой
структурированной информации при формировании ответа пользователю характерно для
систем класса Business Intelligence. Однако, как
известно, системы данного класса имеют четко выраженную узкую прикладную
направленность.
Таким образом, при существующей
концепции функционирования, система Wolfram Alpha ориентирована на сравнительно
узкие прикладные области применения, определяемые вручную вводимыми
фактографическими данными и алгоритмами их обработки.
В отличие от данного подхода,
вопросно-ответные и семантические поисковые системы ориентированы на
автоматическое выявление структурированной текстовой информации и ее обработку.
Это обусловливает их существенно более широкую прикладную направленность.
|