Канн С.К. Информационный образ библиотечного сайта в зеркале поисковых запросов
Навигация
ВТОРЫЕ ЕРМАКОВСКИЕ ЧТЕНИЯ  
Вторые Ермаковские чтения 2009 

С.К. КАНН
 
ИНФОРМАЦИОННЫЙ ОБРАЗ БИБЛИОТЕЧНОГО САЙТА
В ЗЕРКАЛЕ ПОИСКОВЫХ ЗАПРОСОВ

Веб-сайты похожи на обычные книги, где на смену обложкам, титулам и оглавлениям пришли «домашние» страницы, а отдельные разделы и главы стали называться «виртуальными ресурсами». Как и любое хранилище информации, сайты имеют целостное, созданное авторами и издателями (часто в одном лице), единство наполнения, оформления и навигационных средств. Очевидным новшеством в данном случае является непостоянство электронных документов, позволяющих «улучшать» их форму и содержание до бесконечности. Вместе с тем, виртуальные публикации уже не пишутся пером, а, значит, освободились от постоянной боязни «топора» - теперь им ничего не угрожает, можно не «рубить», а только редактировать.

Изменчивость веб-сайтов (как внешняя, так и внутренняя) обусловила непостоянство их образов у тех, кто с ними работает, то есть у пользователей Интернета. Обобщенное отражение представленных материалов в сознании посетителей формирует образ конкретного сайта из суммы компонентов, обусловленных его тематикой, информативностью страниц, актуальностью и достоверностью приводимых сведений. Этот образ дополняется этическими, эстетическими, социологическими, культурологическими и прочими не менее важными составляющими. В каком-то смысле, можно говорить об «имидже» сайта, но это понятие слишком поверхностное, не затрагивающее глубинной сути информационных процессов. Понятие «информационный образ сайта» включает и его целеполагание, и популярные ныне указания на его «миссию». Целенаправленное формирование виртуальных библиотек подразумевает сознательное следование критериям, которые, в конечном счете, превращают образы сайтов - в образцы.

Знание того, каким видят библиотечный сайт его потребители, можно получить разными методами, включая электронную почту, анализ ссылок на ресурсы веб-сайта из «внешней» сети, сбор оценок и отзывов в печати, СМИ, интернет-блогах и форумах, проведение традиционного анкетирования пользователей (разными способами). Так или иначе, все эти методы не свободны от субъективных взглядов, личного опыта и жизненных пристрастий. Инструментальные средства библиотечной веб-статистики дают более адекватные оценки, но и здесь нельзя уповать на полную «объективность», понимая разницу между правдой (которая «у каждого своя») и истиной (в качестве единственного и недостижимого идеала). Как ни крути, статистические механизмы считают так, как они настроены. Следовательно, назначая опции, вы влияете на результат. Дальше перед вами неизбежно встанет вопрос о сопоставимости данных, полученных из разных источников (от разных статистических систем и сайтов). Наконец, сама трактовка показателей будет далеко не однозначной и спорной.

Приведем один пример. Начиная с декабря 2004 г. второе место по посещаемости страниц Отделения ГПНТБ СО РАН прочно удерживал ничем не примечательный файл prometeus.nsc.ru/contents/books/0d.ssi, весом всего в 7 килобайт, содержащий список (индекс) оглавлений 9 книг на букву «Д». В 2007 г. количество обращений к нему превысило показатели главной (домашней) страницы сайта prometeus.nsc.ru (см. рис.1).

Рис.1
 
Рис. 1. Количество обращений к файлу 0d.ssi и домашней странице
веб-сайта Отделения ГПНТБ СО РАН в 2004-2009 гг.

Абсолютно очевидно, что объяснение этому феномену следовало искать в названиях книг, вызывающих такой повышенный спрос, но так казалось лишь в начале. Многолетний и чрезвычайно устойчивый характер весьма странного интереса заставил не только придать этой загадке собственное имя («проблема файла 0d.ssi»), но и подробно изучить вопрос «кто, зачем и почему» испытывает тягу к этой странице. Долгое наблюдение и анализ визитов указали на отметку «Mozilla/3.0 (compatible; Indy Library)» в поле «User-Agent» лог-файла сервера. Это позволило классифицировать большую часть посетителей файла Od.ssi по классу обычных «спам-ботов» (роботов), собирающих e-mail адреса для рассылки спама (утверждается, что почти все они имеют китайское происхождение) [1]. Скорее всего, рядовая страница была «облюбована» роботами из-за того, что на главной странице prometeus.nsc.ru отсутствует электронный адрес библиотеки.

Приведенный пример научил нас с большой осторожностью подходить к объяснению, казалось бы, очевидных фактов веб-статистики. Видимое могущество Сети ежесекундно подвергается значительному сомнению, а опыт работы в Интернете постоянно опровергает мнение о том, что «все данные, которые в нем хранятся, поддаются мгновенной статистической обработке» [2]. Изучение явлений виртуального мира требует непрерывной и четкой локализации объекта исследований и отхода от глобальных оценок и обобщений, хотя бы и в силу быстрой изменчивости WWW.

К стремительной эволюции Сети наилучшим образом приспособились глобальные поисковые машины Google, Yahoo, Яндекс, Рэмблер. По меткому замечанию одного из авторов, «мир стал устроен так, что все, что не находится поисковыми машинами, просто не существует» [3]. Попадая в Интернет, большинство людей, желая сэкономить личное время, обращается к поисковикам, получая от них ссылки на документы различных сайтов. Служебная информация серверов, отдающих документы, записывается в лог-файл, который хранит ссылки и на поисковые запросы (в закодированном виде). После декодирования запросов можно составить представление о том, какие поиски проводили пользователи сайта, какие документы они получили в результате поисковых операций.

Так как речь идет об очень больших массивах информации, то для их обработки применяются статистические системы веб-мониторинга, такие как программа AWStats (Advanced Web Statistics). Она способна аккумулировать данные и создавать ежегодные отчеты о ключевых словах и целых фразах, использованных поисковыми машинами для поиска документов на сайте библиотеки. Анализ этой чрезвычайно ценной статистики позволяет получить «обратную связь» и повысить качество информационных услуг. В 2009 г. рейтинг самых популярных запросов, выполненных поисковыми машинами по сайту Отделения, выглядел следующим образом (см. табл.1).

 
Таблица 1. Самые популярные запросы глобальных поисковых машин, выполненные «внешними» пользователями на сайте Отделения ГПНТБ СО РАН в 2009 году *
Nп/пПоисковая фразаКоличество поисков
1глобальные проблемы современности17973
2налоги и налогообложение10117
3политические партии в россии в начале 20 века6413
4стихи о (про) войне 1941-19456219
5внешняя торговля россии
(внешнеэкономическая деятельность россии)
4831
6abbreviation list4230
7полководцы великой отечественной войны3442
8валеология3399
9парниковый эффект2254
10гпнтб новосибирск2106
11реки сибири2018
12паблик рилейшнз1721
 
* Подсчитано по данным статистической системы веб-сервера Advanced Web Statistics 6.5 (build 1.843). В таблице учтены все варианты написания поисковой фразы.

Разумеется, все поисковые фразы, включенные в таблицу, коррелируют с ресурсами, размещенными на сайте - справками, выставками, указателями. В силу возможностей программы AWStats, в таблице учтены сведения лишь о 15% поисковых операций (примерно о 217 тыс.), тогда как их общее количество в 2009 г. превысило 1,37 млн (или более 766 тыс. вариантов поисковых фраз). Даже полученной выборки достаточно, чтобы получить представление о характере информационных запросов посетителей сайта.

«Верхушка» рейтинга поисковых запросов носит устойчивый характер - она остается неизменной на протяжении многих лет. Приблизительный суммарный подсчет результатов поисковых операций за 2002-2009 гг. подтверждает сложившуюся последовательность доминирующих поисковых фраз, в которой вслед за «глобальными проблемами современности» (55 948 поисков), идут «налоги и налогообложение» (24 725) и т.д. В упорядоченном виде поисковые выражения формируют «семантическое ядро» сайта, которое характеризует его тематическую направленность и указывает потенциальные возможности для продвижения ресурсов в будущем (см. рис.2).

Рис.2
 
Рис. 2. Распределение первой сотни наиболее часто используемых поисковых фраз
на веб-сайте Отделения ГПНТБ СО РАН в 2009 г. по отраслям знаний.

С учетом ранее приведенных замечаний о качестве веб-статистики, излишне говорить о том, что на поверку собранные данные могут оказаться далеко не идеальными. Например, одно лишь количество вариантов по запросу «глобальные проблемы современности» превышает 250 штук, а учесть всю синонимию по каждой фразе попросту нереально. Но возможные погрешности нисколько не умаляют главных тенденций развития ресурсов.

Формирование информационного облика универсальной электронной библиотеки, «нагруженной» массой разнообразных задач - дело не одного месяца, и даже не одного года. На этот процесс влияют не только факторы длительного существования ресурсов, но и «презентабельности» всего сайта, его репутации, степени «раскрученности» поисковыми машинами. Большое количество обращений к библиотечным ресурсам по одним и тем же устойчивым поисковым выражениям свидетельствует о том, что в выдачах поисковых машин эти словосочетания занимают достаточно высокие места - в пределах первых двух десятков, что уже само по себе говорит об их качестве и релевантности. Нацеленность на такой результат представляется весьма эффективным путем развития виртуальной библиотеки.

 

ПРИМЕЧАНИЯ

[1] Эту информацию подтверждает обсуждение на веб-форумах и справки в Сети. См. например: Непонятный User-Agent в логах. URL: http://xpoint.ru/forums/internet/sitemngmnt/thread/36362.xhtml (дата обращения: 25.01.2010); Защита публичных форумов от ботов. URL: http://www.phpbbguru.net/community/topic5760.html (дата обращения: 25.01.2010) и др.
[2]Эпштейн М. Мысли в числах, Россия и Запад в зеркалах Интернета // Звезда. 2006. N 10. С.204 (Философский комментарий).
[3]В.Б. Победа машин // Книжное обозрение. 2007. N 42 (2156). С.20.

Опубликовано в сборнике: ВТОРЫЕ ЕРМАКОВСКИЕ ЧТЕНИЯ «СИБИРЬ: ВЧЕРА, СЕГОДНЯ, ЗАВТРА»: материалы межрегиональной науч. конф. (Новосибирск, 20-21 ноября 2009 г.) / Редкол.: Е.А.Базылева, В.В.Захаров, В.К.Логинкин, Н.Н.Савина, Д.Г.Симонов (исп. редактор), Ю.А.Фабрика, Е.Ф.Фурсова; Дирекция Некоммерческого партнерства «Ермаковских чтений «Сибирь: вчера, сегодня, завтра». - Новосибирск, 2010. - С.423-426: ил. - Библиогр. в примеч.: с.426.

 
  Публикации С.КаннаПубликации С.Канна 
[О библиотеке | Академгородок | Новости | Выставки | Ресурсы | Библиография | Партнеры | ИнфоЛоция | Поиск | English]
© 1997–2024 Отделение ГПНТБ СО РАН

Документ изменен: Thu Oct 3 14:01:51 2024. Размер: 27,252 bytes.
Посещение N 29393 с 29.03.2011