сновной поток посетителей сайта отделения Государственной публичной научно-технической библиотеки Сибирского отделения Российской академии наук (до 80-90%) формируется за счет обращения к глобальным поисковым машинам Google, Yahoo, MSN, Рэмблер. Эта четверка лидирует и в мировом информационном пространстве, далеко опережая своих конкурентов. Вместе с тем по мировой паутине бродит масса других программ-роботов, взаимодействие с которыми требует непрерывного совершенствования процессов поисковой оптимизации веб-сайтов (search engine optimization - SEO). За девять месяцев 2008 г. число роботов, приходы которых отметил веб-сервер отделения, превысило полсотни, однако эта цифра далеко не окончательная, так как почти 2/3 роботов посещают ресурсы библиотеки «нелегально», обходя стандартную процедуру обращения к файлу robots.txt. Так называемый «неотображаемый трафик», сгенерированный роботами и ответами сервера со специальным http-кодом, за указанный период достиг 39 гигабайт. Масштабы аккумулирования информации огромны. Только две крупнейшие поисковые системы Google и Yahoo сделали к сайту отделения почти по миллиону доступов каждая и суммарно скачали свыше 22 гигабайт информации, что в 47 раз превышает весь объем ресурсов, накопленный на сайте www.prometeus.nsc.ru за одиннадцать лет работы. Для того чтобы повысить эффективность отдачи от этих ресурсов и продолжить дальнейшее расширение аудитории пользователей, в первом полугодии 2008 г. было проведено изучение особенностей индексирования сайта роботами основных поисковых машин (таблица, с.57). Учитывая сезонную «волнообразность» притока посетителей, изучаемый период охватил как «восходящую» линию обращений (с января по май), так и ее нисходящий тренд (с мая по июль). На это важно обратить внимание в связи с тем, что, по данным статистики сервера, приход лета означает почти четырехкратное падение посещаемости как по числу посетителей, так и по запросу страниц. В этот период выставляется меньше новой информации, реже редактируются старые документы, ослабевает пользовательская нагрузка на сервер. Между тем для индексирования страниц роботами такое затишье, наоборот, позволяет извлечь некоторые преимущества, поэтому в их отношении летнего спада посещений не наблюдается (таблица, с.57). поисковых машин (количество доступов за 9 месяцев 2008 г.) *
Специфика сайта www.prometeus.nsc.ru заключается в его продолжительном существовании в сети и длительной раскрутке ресурсов. Нам показалось интересным проследить, как реагируют роботы на два типа обновлений: 1) ресурсов, актуализируемых постоянно, и 2) ресурсов, возникающих или пополняемых нерегулярно. В первом случае речь шла о документах еженедельной выставки новых поступлений, существующей с 23 октября 1997 г., о материалах дайджеста «Российская наука и мир» (выставляется с февраля 1998 г.), новостях библиотеки и ее подразделений, проектах, получивших грантовую поддержку, и о ряде других устойчиво развиваемых ресурсов. Во втором - об эпизодически возникающих библиографических списках и указателях, оглавлениях книг, трудах сотрудников и партнеров библиотеки. Кроме того, изучалось обращение роботов к абсолютно новым (внезапно появившимся) комплексам документов, например посвященным созданию Клуба библиотекарей, посещению Кемеровской областной библиотеки 29 мая 2008 г. в рамках Всероссийского дня библиотек или ряду других инициатив, пока не ставших традицией. Первые два десятка поисковых машин индексируют сайт почти непрерывно - об этом свидетельствуют ежедневные визиты их разведчиков-«ботов». Помимо уже называвшейся четверки машин наибольшую активность проявляют Turn It In, BaiDuSpider, AskJeeves, Alexa (IA Archiver), Lycos. Но все они на порядок уступают лидерам индексирования и поиска. Так, роботы Гугла (Googlebot 2.1) отличаются тем, что ведут «плотный» мониторинг давно существующих ресурсов, отслеживая формальные и содержательные обновления, вливание новой информации, появление новых документов, расширяющих рамки ресурса. Проведенные тесты показали, что Google является пионером в индексировании новых файлов выставки новых поступлений и, вообще, является единственным, кто индексирует эту выставку «неделя в неделю». У остальных поисковых систем задержка индексирования достигает трех и более недель. Как правило, Google хранит и самые свежие копии прежних выставок. Yahoo, немного уступающая Гуглу по скорости отражения новой информации, к сожалению, не предлагает, как ее коллега, сервиса кэширования (сохраненных копий). Вместе с тем роботы Yahoo (Slurp и Slurp 3.0) обнаружили завидную мобильность в выявлении новых, нерегулярно возникающих документов. Они умудрялись индексировать неожиданно выставляемые документы (в том числе в абсолютно новых, недавно созданных директориях) уже в день их появления на сервере или на следующие сутки. Частота дальнейших визитов роботов Yahoo в разы превышала показатели всех остальных конкурентов. В отношении «нерегулярных» обновлений Yahoo опережала Google примерно на сутки. Еще одни сутки уступали Yahoo роботы Рэмблера (StackRambler 2.0). Их не выручало даже то, что на страницах сайта отделения установлен код бан-нерного проекта Rambler's Top 100 (id=474349). Казалось бы, Рэмблеру стоило использовать это преимущество для своевременного индексирования страниц, но этого почему-то не происходило. В отношении же MSN (Live Search) можно заметить, что задержка прибытия роботов этой поисковой системы по сравнению с «пионерами индексирования» (Yahoo, Google и Рэмблером) временами достигала целого месяца. Особый интерес имело изучение взаимодействия поисковых машин с библиографическими указателями по актуальным проблемам естествознания, техники, технологии, экологии и пр., составленными партнером и почетным читателем библиотеки А.П.Зарубиным. Первый подобный указатель появился на сайте еще 9 февраля 1999 г. С тех пор два десятка работ (примерно 90 веб-страниц) аккумулировали до 12 тыс. библиографических записей. В 2008 г. был подготовлен и выставлен очередной указатель, посвященный современным подходам к Периодической системе Д.И.Менделеева. Всего через 12 часов после установки на сервер оба текстовых файла указателя проиндексировали роботы Гугла (в ночь на 4 марта), а через сутки - Yahoo. Робот Рэмблера пришел только 13 марта. До конца июня указатель посещали роботы Yahoo (118 раз), Google (74), MSN (31) и Рэмблера (20). С 17 марта документы указателя стали присутствовать в поисковых выдачах Гугла, число которых к концу июня достигло 204. Из числа остальных 120 выдач на долю Рэмблера пришлось 42 и MSN - 23 (остальные поиски велись другими поисковиками - nigma.ru, elementy.ru, etc.). За четыре месяца на указатель было сделано не менее 57 закладок в браузерах (подсчитано по вызову файла favicon.ico). Крайне неожиданными оказались результаты тестирования поисковой машины Яндекса (на середину июля 2008 г.). Выяснилось, что за все первое полугодие 2008 г. роботы Яндекса проиндексировали не более 15% новых документов, созданных с января по июнь включительно. Последнюю индексацию свежих документов Яндекс провел в начале мая, а все остальное время его роботы многократно «перелопачивали» давно известные, ранее созданные страницы. При этом совершенно игнорировались целые массивы новой информации, такие как ВНП за последние 14 недель (до середины июля), файлы книжных оглавлений, дайджест «Российская наука и мир» (с января по апрель - более свежие еще не выставлены на сайт), новые документы проекта «Научные школы Новосибирского научного центра» (материалы об академиках В.В.Болдыреве и В.Н.Пармоне) и т.д. Задержки в индексировании новых ресурсов Яндексом заметили не только мы. Под другим углом зрения об этом говорится в статье сотрудников Института вычислительных технологий СО РАН [1, с.129]. Можно сделать вывод, что слоган корпорации Яндекс («со временем найдется все») слишком вольно трактует цену времени. По нашему мнению, в данный момент база Яндекса не может считаться самым актуализируемым отечественным массивом данных, каким он был еще совсем недавно. Возможно, разработчики меняют поисковый алгоритм или слишком увлеклись созданием новых сервисов, но в сети шутят, что «на Яндексе в сохраненных копиях болтаются версии страниц, написанных еще с ятями» [2]. Подводя итог всему сказанному, нужно отметить, что изучение специфических особенностей процесса индексирования веб-документов роботами крупнейших поисковых машин дает возможность точнее определить место ресурсов отделения ГПНТБ СО РАН в общем www-пространстве и продолжить целенаправленную работу по переходу на новую технологию сайтостроения, подразумевающую диверсификацию сайта библиотеки.
|
[О библиотеке
| Академгородок
| Новости
| Выставки
| Ресурсы
| Библиография
| Партнеры
| ИнфоЛоция
| Поиск
| English]
| |||
| |||