Как искать информацию в Internet (продолжение)

Сегодня мы поговорим о контекстном поиске. Начинающего путешественника по WWW всегда ошарашивает, когда он вводит запрос и меньше чем через минуту получает список из сотен тысяч страниц. Это что же, спрашивает он, она за минуту облазила весь мир?

Конечно, нет. Поисковые машины не обшаривают WWW в тот момент, когда вы делаете запрос. Они берут информацию из своих баз данных. Базы данных у них просто громадные и постоянно пополняются. Поисковые машины постоянно "роются" в Internet, засылая туда программы - поисковые роботы. Поисковые роботы отыскивают новые, неизученные пока страницы, и составляют индекс слов, которые встречаются на страничке. Причем некоторые поисковые машины "роют" неглубоко, на уровне заголовков или ключевых слов, а вот Alta Vista, например, добросовестно перелопачивает всю страницу и все ссылки с нее. Эта поисковая машина работает на базе очень мощного компьютера фирмы DEC, и одной только оперативной памяти у него 16 гигабайт (я не оговорился, именно гигабайт, а не мегабайт, и именно оперативной, а не дисковой).

Поэтому контекстный поиск мы разберем именно на примере Alta Vista. Кроме того, что это самая мощная поисковая машина, она еще и понимает русские слова.

Введем в окно поисковой машины текст

смысл жизни

Что найдет нам Alta Vista? Все страницы, в которых есть слово "смысл" и слово "жизни". Слова эти не обязательно будут стоять рядом. Например, фраза "Смысл в том, что не от хорошей жизни..." тоже удовлетворяет условию поиска. И более того, в перечне будут страницы, в которых есть только слово "смысл" и совсем не будет слова "жизни".

А как сделать, чтобы были обязательно оба слова? Нужно перед каждым словом поставить плюс, вот так:

+смысл +жизни

Вот тогда количество найденных страниц резко сократится.

Кстати, подумайте: как найти страницы, в которых есть слово "смысл", но нет слова "жизни"? Правильно, запрос должен выглядеть так:

+смысл -жизни

Но во всех этих примерах оба слова могут стоять не рядом и даже не в одном предложении. Как все-таки найти все страницы, в которых есть именно словосочетание "смысл жизни"? Да просто взять эти слова в кавычки, вот так:

"смысл жизни"

Вот это уже близко к истине, но не истина. Дело в том, что англоязычные поисковые машины, в большинстве своем, не понимают морфологии русского языка. А это значит, что они по этому запросу найдут "смысл жизни", но не найдут "смысла жизни", "смыслом жизни" и так далее. Вот о том, как обходить эти проблемы, и пойдет речь в следующем выпуске, посвященном русскоязычному Internet.


Опубликовано: Красноярский комсомолец, 4 сентября 1997
© Алексей Бабий 1997