Канн С.К. Особенности индексирования ресурсов библиотечного сайта (стендовый доклад)
Навигация
Стендовый докладМЕЖРЕГИОНАЛЬНАЯ КОНФЕРЕНЦИЯ К 90-ЛЕТИЮ ГПНТБ СО РАН (2008)
С.К.Канн
ОСОБЕННОСТИ ИНДЕКСИРОВАНИЯ РЕСУРСОВ
БИБЛИОТЕЧНОГО САЙТА РОБОТАМИ ПОИСКОВЫХ МАШИН

(стендовый доклад)

Основной поток посетителей сайта Отделения ГПНТБ СО РАН (до 80-90%) формируется за счет обращения к глобальным поисковым машинам Google, Yahoo, MSN, Рэмблер. Эта четверка лидирует и в мировом информационном пространстве, далеко опережая своих конкурентов. Вместе с тем, по мировой паутине бродит масса других программ-роботов, взаимодействие с которыми требует непрерывного совершенствования процессов поисковой оптимизации вебсайтов (search engine optimization - SEO).

За девять месяцев 2008 г. число роботов, приходы которых отметил веб-сервер Отделения, превысило полсотни, однако эта цифра далеко не окончательная, так как почти 2/3 роботов посещают ресурсы библиотеки «нелегально», обходя стандартную процедуру обращения к файлу robots.txt. Так называемый «не отображаемый трафик», сгенерированный роботами и ответами сервера со специальным http-кодом, за указанный период достиг 39 гигабайт. Масштабы аккумулирования информации огромны. Только две крупнейших поисковых системы Google и Yahoo сделали к сайту Отделения почти по миллиону доступов каждая и суммарно скачали свыше 22 гигабайт информации, что в 47 раз превышает весь объем ресурсов, накопленный на сайте www.prometeus.nsc.ru за одиннадцать лет работы.

Табл. Индексирование сайта Отделения ГПНТБ СО РАН роботами
основных поисковых машин (количество доступов за 9 месяцев 2008 г.)*

РоботянварьфевральмартапрельмайиюньиюльавгустсентябрьИтого за 9 мес.
Googlebot1258107059179735734311155341352351449581163701691071030771
Yahoo Slurp7476055423740061337541334331188991159158723861508854936
StackRambler350801972525623267972578824907276163361931043250198
MSNBot304522615826378334375524451860713363803665349398250
Yandex bot1072520770326331569721686331995974861215162738418411
Turn It In1574-349216762637323344521352628824704
Alexa
(IA Archiver)
13868868519341207121015521712908136
BaiDuSpider12791401151515001542146216821516146413361
AskJeeves729154618269641120126510506212579378
* По данным статистической системы сервера AWStats

Для того, чтобы повысить эффективность отдачи от этих ресурсов и продолжить дальнейшее расширение аудитории пользователей, в первом полугодии 2008 г. было проведено изучение особенностей индексирования сайта роботами основных поисковых машин. Учитывая сезонную «волнообразность» притока посетителей, изучаемый период охватил как «восходящую» линию обращений (с января по май), так и ее нисходящий тренд (с мая по июль). На это важно обратить внимание в связи с тем, что по данным статистики сервера, приход лета означает почти четырехкратное падение посещаемости как по числу посетителей, так и по запросу страниц. В этот период выставляется меньше новой информации, реже редактируются старые документы, ослабевает пользовательская нагрузка на сервер. Между тем, для индексирования страниц роботами такое затишье, наоборот, позволяет извлечь некоторые преимущества, поэтому в их отношении летнего спада посещений не наблюдается.

Специфика сайта www.prometeus.nsc.ru заключается в его продолжительном существовании в сети и длительной раскрутке ресурсов. Нам показалось интересным проследить, как реагируют роботы на два типа обновлений: 1) ресурсов, актуализируемых постоянно, и 2) ресурсов, возникающих или пополняемых нерегулярно. В первом случае речь шла о документах еженедельной выставки новых поступлений (ВНП), существующей с 23 октября 1997 г., материалах дайджеста «Российская наука и мир» (выставляется с февраля 1998 г.), новостях библиотеки и ее подразделений, проектах, получивших грантовую поддержку, и ряде других устойчиво развиваемых ресурсов. Во втором - об эпизодически возникающих библиографических списках и указателях, оглавлениях книг, трудах сотрудников и партнеров библиотеки. Кроме того, изучалось обращение роботов к абсолютно новым комплексам документов, например, посвященным созданию «Клуба библиотекарей», посещению Кемеровской областной библиотеки 29 мая 2008 г. в рамках Всероссийского дня библиотек или ряду других инициатив, еще не ставших традицией.

Первые два десятка поисковых машин индексируют сайт почти непрерывно - об этом свидетельствуют ежедневные визиты их «ботов»-разведчиков. Помимо уже называвшейся четверки машин наибольшую активность проявляют Turn It In, BaiDuSpider, AskJeeves, Alexa (IA Archiver), Lycos. Но все они на порядок уступают лидерам индексирования и поиска. Так, роботы Гугла (Googlebot 2.1) отличаются тем, что ведут «плотный» мониторинг издавна существующих ресурсов, отслеживая формальные и содержательные обновления, вливание новой информации, появление новых документов, расширяющих рамки ресурса. Проведенные тесты показали, что Google является пионером в индексировании новых файлов ВНП и, вообще, является единственным, кто индексирует эту выставку «неделя в неделю». У остальных поисковых систем задержка индексирования достигает трех и более недель. Как правило, Google хранит самые свежие копии прежних выставок. Yahoo, немного уступающая Гуглу по скорости отражения новой информации, к сожалению, не предлагает, как ее коллега сервиса кэширования (сохраненных копий).

Вместе с тем, роботы Yahoo (Slurp и Slurp 3.0) обнаружили завидную мобильность в выявлении новых нерегулярно возникающих документов. Они умудрялись индексировать неожиданно выставляемые документы (в том числе в абсолютно новых, недавно созданных директориях), уже в день их появления на сервере или на следующие сутки. Частота дальнейших визитов роботов Yahoo в разы превышала показатели всех остальных конкурентов. В отношении «нерегулярных» обновлений Yahoo опережала Google примерно на сутки. Еще одни сутки уступали Yahoo роботы Рэмблера (StackRambler 2.0). Их не выручало даже то, что на страницах сайта Отделения установлен код баннерного проекта Rambler's Top 100 (id=474349). Казалось бы, Рэмблеру стоило воспользоваться данным преимуществом для своевременного индексирования страниц, но этого почему-то не происходило. Что же касается MSN (Live Search), то задержка прибытия ее роботов по сравнению с «пионерами индексирования» (Yahoo, Google и Рэмблером) временами достигала целого месяца.

Особый интерес имело изучение взаимодействия поисковых машин с библиографическими указателями по актуальным проблемам естествознания, техники, технологии, экологии и пр., составленными партнером и почетным читателем библиотеки А.П.Зарубиным. Первый подобный указатель появился на сайте еще 9 февраля 1999 г. С тех пор два десятка работ (примерно 90 веб-страниц) аккумулировали до 12 тыс. библиографических записей. В 2008 г. был подготовлен и выставлен новый указатель, посвященный современным подходам к Периодической системе Д.И.Менделеева. Всего через 12 часов после установки на сервере оба текстовых файла указателя были проиндексированы роботами Гугла (в ночь на 4 марта), через сутки - Yahoo. Робот Рэмблера пришел только 13 марта. До конца июня указатель посещали роботы Yahoo (118 раз), Google (74), MSN (31) и Рэмблера (20). С 17 марта документы указателя стали присутствовать в поисковых выдачах Гугла, число которых к концу июня достигло 204. Из числа остальных 120 выдач на долю Рэмблера пришлось 42 и MSN - 23 (остальные поиски велись другими поисковиками - nigma.ru, elementy.ru, etc.). За четыре месяца на указатель было сделано не менее 57 закладок в броузерах (подсчитано по вызову файла favicon.ico).

Крайне неожиданными оказались результаты тестирования поисковой машины Яндекса (на середину июля). Выяснилось, что за все первое полугодие 2008 г. роботы Яндекса проиндексировали не более 15% новых документов, созданных с января по июнь включительно. Последнюю индексацию свежих документов Яндекс провел в начале мая, а все остальное время его роботы многократно «перелопачивали» давно известные, ранее созданные страницы. При этом совершенно игнорировались целые массивы новой информации - ВНП за последние 14 недель (до середины июля), файлы книжных оглавлений, дайджест «Российская наука и мир» (с января по апрель, так как более свежие еще не выложены), новые документы проекта «Научные школы Новосибирского научного центра» (материалы об академиках В.В. Болдыреве и В.Н. Пармоне) и т.д.

Задержки в индексировании Яндексом новых ресурсов заметили не только мы [1, с.129]. Из всего изложенного можно сделать вывод, что слоган корпорации о том, что «со временем найдется всё», слишком вольно трактует бесценный фактор времени. По нашему мнению, на данный момент база Яндекса не может считаться наиболее актуализируемой, какой она была еще совсем недавно. Возможно, разработчики меняют поисковый алгоритм или слишком увлеклись созданием новых сервисов, но в сети шутят, что «на Яндексе в сохраненных копиях болтаются версии страниц, написанных еще с ятями» [2].

Подводя итог, отметим, что изучение особенностей индексирования новейших документов сайта Отделения роботами главных поисковых машин дает возможность точнее определить место наших ресурсов в общем www-пространстве и продолжить целенаправленную работу по переходу на новую технологию сайтостроения, подразумевающую диверсификацию библиотечного сайта.

 

ПРИМЕЧАНИЯ

[1] Шокин Ю.И. Рейтинг сайтов научных организаций СО РАН / Шокин Ю.И., Клименко О.А., Рычкова Е.В., Шабальников И.В. // Вычислительные технологии. - 2008. - Т.13, N 3. - С.128-135.
[2] Борьба с роботами. - Режим доступа: www. URL: http://www.klim.by/Borba-s-robotami.87.0.html. - 17.07.2008 г.
 

Стендовый доклад на конференции: «Роль ГПНТБ СО РАН в развитии информационно-библиотечного обслуживания в регионе (к 90-летию ГПНТБ СО РАН, 50-летию в составе Сибирского отделения РАН)» (Новосибирск, 6-10 окт. 2008 г.).
 
ПРОГРАММА КОНФЕРЕНЦИИ | ТЕЗИСЫПубликации С.КаннаПубликации С.К.Канна 
[О библиотеке | Академгородок | Новости | Выставки | Ресурсы | Библиография | Партнеры | ИнфоЛоция | Поиск | English]
© 1997–2024 Отделение ГПНТБ СО РАН

Документ изменен: Wed Nov 6 10:42:38 2024. Размер: 25,025 bytes.
Посещение N 4636 с 10.10.2008