Как
работают поисковые агенты
Поисковый
агент — это программа, периодически сканирующая всю Сеть и проверяющая, есть
ли по тому или иному адресу Web-страница. Если страница есть, агент проверяет
ее HTML-код, извлекает из него интернет-адреса, ведущие на другие Web-страницы.
Также он извлекает ее название и пытается извлечь описание и набор ключевых
слов, если они есть, после чего заносит все это в базу данных поисковика (или,
как говорят опытные интернетчики, выполняет индексирование). Далее он обращается
к Web-страницам, находящимся по найденным на текущей странице адресам, и проделывает
с ними то же самое.
Поисковые
агенты, как правило, пишутся на заказ очень опытными и знающими программистами.
Хороший поисковый агент — настоящее произведение программистского искусства.
Он должен отсекать несуществующие адреса, правильно опознавать HTML-теги, "интеллектуально"
создавать описания и при этом быстро работать. Сами понимаете: Сеть велика,
а времени всегда не хватает...
Вообще,
проанализировать HTML-код — задача не очень сложная. В самом деле, название
страницы помещается внутри тега <TITLE> в секции заголовка <HEAD>,
а интернет-адреса других страниц с большой долей вероятности следует искать
в тегах <А> и <AREA>. Написать программу, извлекающую такую информацию,
для опытного программиста — пара пустяков.
Сложность
здесь совсем в другом.
Давайте
вспомним, какие данные помещаются в базу данных поисковой машины, и классического
поисковика, и каталога. Кроме адреса и названия страницы, это еще и краткое
описание и набор ключевых слов. А откуда их взять?
Проанализировать
текст, помещенный на Web-странице? А как? Как обычная программа, даже очень
сложная и подающая признаки легкого "интеллекта", узнает, какое из
многих сотен, а то и тысяч слов текста страницы можно использовать как ключевое?
Как она "ужмет" многокилобайтовый текст в краткое описание из 200
символов (такое ограничение на размер текста описания накладывают многие каталоги)?
Как при этом выбрать нужную информацию и выжать всю "воду"?
Нет,
это задача непроста даже для человека-модератора. Что уж требовать от программы...
Да,
но как-то нужно выбирать из текста страниц необходимую информацию!
Как
раз для этого и предназначены метатеги HTML. Именно с их помощью можно представить
в HTML-коде информацию, которая не будет предназначена человеку, а исключительно
программам. Человек ее даже не увидит (если, конечно, не станет специально для
этого просматривать HTML-код).
Конечно,
поисковые агенты пользуются для добычи информации не только метатегами. Они
также проверяют текст страницы, причем, в зависимости от тега, в котором находится
этот текст, они придают ему разное значение. Также они сравнивают, какие данные
находятся в метатегах и основном тексте страницы, и на основании результатов
этого сравнения делают определенные выводы. Уже говорилось, что хороший поисковый
агент — это настоящее произведение программистского искусства, несущее в себе
частицу его создателя.
А теперь все же обратимся к метатегам.