Канн С.К. Опыт интеграции электронной библиотеки в мировое информационное пространство
Навигация
Электронные ресурсы региона '04

С.К.Канн
Опыт интеграции электронной библиотеки
в мировое информационное пространство

Современные коммуникации разрушают барьеры и ускоряют ход исторического времени. Радиосеть получила первые 50 млн. пользователей спустя 40 лет после своего рождения, а "всемирной паутине" на то же самое потребовалось не более четырех лет[1]. Население интернета растет стремительными темпами и уже превысило 650 млн. человек. Впрочем, с учетом того, что виртуальное бытие позволяет субъектам сетевой деятельности моментально плодиться и размножаться, самокопироваться и самовоспроизводиться, вряд ли подобная статистика адекватно отражает суть происходящего. Можно лишь с облегчением констатировать, что окончательный отрыв виртуальной действительности от бренной земной жизни пока еще не произошел. Как и в обычном материальном мире, большинство кибержителей ведут бизнес, торгуют и торгуются, после чего (или вместо этого) обращаются к электронным развлечениям.

Россию, как страну не вполне склонную к прагматическим ценностям, отличают другие приоритеты. 89% пользователей Рунета говорят о том, что для них на первом месте стоит поиск информации, для 71% важное значение имеет знакомство с новостями[2]. Ответ на подобный интерес могут дать электронные библиотеки. Они облегчают доступ к своим фондам на основе новых компьютерных технологий, упорядочивают массивы информации по качеству и содержанию, проводят каталогизацию и систематизацию ресурсов. Вместе с тем, у библиотек появились и новые функции. Все чаще они становятся центрами экспертизы и сертификации информации, аккумулируют ее в новейших электронных, мультимедийных и софтовых формах, содействуют решению сложных юридических дел, связанных с авторскими правами.

Опыт Отделения ГПНТБ СО РАН по интеграции своих ресурсов в мировое информационное пространство имеет уникальное значение. Нечасто небольшой библиотеке в 40 сотрудников удается увеличить аудиторию своих пользователей в десятки раз - до нескольких тысяч посетителей в день. Обратим внимание, что до выхода в интернет Отделение имело достаточно скромную известность в качестве структурного подразделения ГПНТБ СО РАН. Всего лишь за 4 года библиотека утвердилась на верхних строчках профессиональных рейтингов и стала победителем Первого конкурса библиотечных сайтов России и СНГ, проведенного Российской государственной библиотекой совместно с Британским советом в 2000 г. В свою очередь, на базе Отделения в 2001-2002 гг. был проведен конкурс библиотечных сайтов научно-исследовательских учреждений Новосибирского научного центра.

История. Кратко история библиотеки выглядит следующим образом. В марте 1964 г. Новосибирское отделение ГПНТБ СО АН СССР, выросшее из Восточного отделения Библиотеки Академии наук, было переведено в Академгородок. Здесь сформировались фонды, был определен профиль комплектования библиотечной сети и организованы сводные каталоги. В 1977 г. Отделение включили в структуру ГПНТБ СО РАН на правах отдела. В 1970-1980-е гг. библиотека осуществляла связь между научно-исследовательскими учреждениями Академгородка и городским "кустом" библиотек.

В трудное время середины 1990-х гг. начался переход к освоению новых информационных технологий. В рамках проекта "Akademgorodok Internet Project" весной 1996 г. библиотека вышла на просторы Интернета. После этого сотрудники довольно быстро прошли ряд этапов:

  • изучения основ world wide web, языка и принципов работы в Интернете;
  • овладения навыками ориентирования и поиска информации в сети;
  • изучения ресурсов www по профилю работы библиотеки и коллекционирования ссылок;
  • создания собственных web-навигаторов, электронного каталога и простейших библиотечных кибер-ресурсов.

Подготовительный период завершился созданием собственного web-сайта. С лета 1997 г. библиотечный сервер Отделения работал в тестовом режиме, а 9 сентября, на полмесяца раньше Яндекса, страницы www.prometeus.nsc.ru стали доступны первым посетителям. С накоплением ресурсов ощущались определенные сложности - информация собиралась "с бору по сосенке". На тот момент были более или менее готовы электронный каталог, "ИнфоЛоция", указатели газет и журналов, новости и несколько страниц о библиотеке. С 23 октября стали еженедельно выставляться книжные поступления в библиотеку. В октябре 1997 г. к сайту регистрировалось в среднем до 170 обращений (доступов) в сутки.

Ресурсы. Со временем структура сайта стала меняться в сторону аккумулирования библиографических ресурсов. Вместе с тем изменялась и структура пользовательских запросов, что наглядно видно по статистике обращений к "ИнфоЛоции". Если вначале навигатор был одним из главных ресурсов (в ноябре 1997 г. к нему было зарегистрировано 1952 обращения или 40% всех доступов к сайту), то впоследствии посещаемость снизилась примерно в 2 раза. В 2000 г., с 7-кратным увеличением количества страниц на сайте (до 2,8 тыс. уникальных документов), посещаемость навигатора уменьшилась до 17% всех доступов.

Структура ресурсов сайта
          Рис. Структура ресурсов сайта

В настоящее время объем электронной библиотеки (без учета баз данных) достиг 175 Мб. Она состоит из 7,5 тыс. страниц, 22 тыс. графических файлов и 3,5 тыс. служебных файлов, которые обеспечивают функциональное единство ресурсов. Структура сайта (рис.) нацелена на библиографическое ориентирование пользователей Рунета. Основные ресурсы состоят из каталога и библиографических баз данных (более 520 тыс. записей), библиографических указателей по актуальным направлениям науки и техники (свыше 60 тыс. записей), патентных ресурсов и указателей изобретений СО РАН за 5 лет (с рефератами). Еженедельная выставка новых поступлений объемом около 54 Мб включает более 15 тыс. сканированных обложек и 550 партий книг за 7 лет. Фактически она представляет собой электронный каталог Отделения самой простой и доступной формы, так как все описания снабжены шифрами, а некоторые - еще и файлами оглавлений. Этот ресурс хорошо "виден" из внешнего Интернета благодаря индексированию поисковых машин. Его регулярное обновление привлекло массу новых пользователей и выставка особенно популярна у пользователей ближнего зарубежья.

Технология. Большинство документов, представленных на сайте, являются результатом кропотливого ручного, и даже "кустарного", труда сотрудников справочно-информационного сектора. Еще осенью 2001 г. была создана временная группа из 7 сотрудников, фактически совмещавшая текущую справочно-библиографическую работу с созданием новых ресурсов. Двое сотрудников имеют полный доступ к редактированию сайта, а пятеро - права кураторов отдельных разделов. Общая ответственность лежит на координаторе работ, который помимо окончательного оформления материалов, занимается улучшением навигации и поддерживает единство сайта. Создание "полуфабрикатов" HTML-страниц ведется на основе примерной "Технологической инструкции по оформлению материалов на web-сайте", в которой сжато перечислены особенности подготовки публикаций. Все изменения, которые вносят кураторы разделов, регистрируются в журнале (файле), позволяющем следить и корректировать обновление ресурсов.

Видимо, с точки зрения технологии чрезвычайные трудозатраты библиографов не слишком рациональны. С другой стороны, с позиций пользователя именно такая работа представляется наиболее эффективной. Того, кто ежедневно обитает в Сети, трудно обмануть. Многократно перекопированная информация, даже преобразованная в иную форму, скорее всего, будет отвергнута. На этот счет не стоит особенно заблуждаться. Средства поиска и глобальные поисковые системы сближают документы сходного содержания, и они, как правило, соседствуют на одной и той же странице поисковых результатов. Потребители посещают сайты с уникальными ресурсами, в создание которых вложен серьезный труд. В итоге оценивается содержательная сторона, которая и делает страницы популярными. Ресурс может быть минимально оформлен, но содержать аккуратную, точную и полезную информацию.

Принципы деятельности. Сайт Отделения создавался при минимальном знании интернет-технологий. Он появился в те времена, когда устоявшегося опыта не существовало не только в библиотеках, но и в Рунете в целом. Зарубежные достижения имели специфику, не совместимую с отечественными реалиями. Может быть, это и к лучшему, но в нашем случае изысканное программирование не стало преградой между библиотекой и ее пользователями. Основным фактором раскрутки стало качество содержания (контента) и удобство использования ресурсов. Когда многие видели миссию библиотек в Интернете весьма ограниченной, например, в качестве инструмента поддержки деятельности отдельных структур, учреждений или регионов, Отделение поставило задачу полноправно влиться в мировое информационное сообщество. Были сняты все возможные ограничения, не исключая закрытого доступа к ресурсам. Соответственно определилась вся система организационных принципов:

  • Полная открытость, бесплатность и свободная загрузка страниц (free download);
  • статический HTML-контент, минимальное обращение к динамическим средствам представления информации;
  • стабильная, устойчивая адресация документов;
  • прозрачность навигации, наличие поиска по всему сайту;
  • наличие англоязычных страниц;
  • постоянный мониторинг использования ресурсов как средство управления их развитием.

Подготовка англоязычного сегмента сайта была обусловлена тем, что 3/4 Интернета "говорит" на английском языке. Правда, ограниченные возможности библиотеки не позволили поддерживать иностранную часть в том же виде, что и русскую, то есть осуществлять зеркальный перевод всех страниц. Но было принято решение, по которому сотрудник, курирующий "международную" часть сайта, отбирал для публикации ключевую информацию из "отечественной" части. Некоторые ресурсы англоязычного сегмента автоматически обрабатываются программой собственной разработки и библиография предстает в транслитерированном виде[3]. Отметим, что при необходимости зарубежный пользователь всегда может обратиться к технологиям сетевого перевода на сайтах компаний Промт[4], AltaVista[5] и др. и близко к тексту ознакомиться со всеми страницами Отделения.

Популярность. Стандартные средства представления информации обеспечили сайту www.prometeus.nsc.ru широкую аудиторию пользователей, независимо от качества их компьютеров, экранов, браузеров и операционных систем. Содержание всех ресурсов было ориентировано на актуальные проблемы образовательного, научного и прикладного характера, полноценно представлявшие Новосибирский научный центр и страну в целом. Библиографические ресурсы по гуманитарным наукам (указатели по глобализации, экономике новой России, гендерным проблемам), а также по важным научно-техническим направлениям (нанотехнологиям, радоновой радиации, парниковому эффекту, экологии и переработке мусора, etc.) приобрели устойчивый спрос.

Назовем некоторые факторы, повысившие популярность сайта:

  • доступность информации через глобальные поисковые машины Google, AltaVista, AllTheWeb и др. (простота и скорость доступа);
  • эффективность библиографического поиска в сравнении с ИНИОН РАН и другими профессиональными базами данных, относительно громоздкими с точки зрения неискушенных пользователей;
  • актуальность публикуемой информации (особенно выставки новых поступлений и текущих оглавлений);
  • удобство переработки и дальнейшего использования информации.

Курс на открытость и интеграцию ресурсов полностью подтвердил свою состоятельность. Несмотря на отсутствие в документах сайта каких-либо метаданных, управляющих поисковыми машинами (тэгов "keywords", "description" и т.д.), а также на умышленное непринятие искусственных мер раскрутки, библиотека устойчиво улучшает свои показатели. За 7 лет посещаемость выросла более чем в 8 раз и продолжает ежегодно увеличиваться в полтора-два раза. Каждый следующий сезон начинается с показателя, уже достигнутого в предыдущем. В рабочий сезон (осень-весна) число посетителей достигает 60 тыс. хостов в месяц (из них 40 тыс. уникальных). Около 30% посетителей приходят из Москвы и Санкт-Петербурга, а более 20% - из стран ближнего и дальнего зарубежья. Чаще всего, среди представителей 80 государств, библиотеку посещают пользователи Украины, Беларуси, США и Канады, Казахстана, Германии, Израиля, стран Прибалтики (в порядке убывания).

Инструменты статистики. Оценка использования ресурсов сайта ведется с помощью ряда инструментов и только такой "многомерный" подход может гарантировать относительную прозрачность, точность и адекватность статистики, так как все инструменты имеют те или иные недостатки (табл.1). Знание особенностей отражения статистики каждым средством слежения позволяет видеть не только количественную, но и качественную картину использования ресурсов. Текущий мониторинг доступов позволяет сайту развиваться в интересах потребителей.

В первую очередь анализируется журнал регистрации доступов к серверу (лог-файл), аккумулирующий до 30-40 тыс. строк (запросов) в сутки. Простые средства обработки (редакторы Word или WordPad) позволяют отсеять из него ненужную или, наоборот, полезную информацию (о хостах, времени доступа, ресурсах). При подготовке отчетов приходится "ворочать" огромными неподъемными файлами в сотни мегабайт. Когда подобное занятие надоедает компьютеру, и он зависает, применяются автоматические средства структурирования данных, например, программа AWStats (AccessWatch)[6]. Посетители сайта могут самостоятельно ознакомиться с ежедневным отчетом AWStats по ссылке "текущая статистика"[7] внизу каждой страницы.

"Внешнее слежение" за посещаемостью сайтов ведут проекты "баннерной статистики". На основе единообразной обработки данных они позволяют сравнить популярность ресурсов. Делается это посредством картинок-баннеров (флажков) и кусочков программного кода, внедренных в скрытое содержание страниц. При доступе к этим страницам служебная информация о посещении направляется на главный сервер проекта. Недостатки подобной статистики связаны, как правило, с занижением показателей, потому что применяются более жесткие схемы учета посещений, например, 30-секундный интервал присутствия на странице. С другой стороны, эти критерии едины для всех участников проекта и позволяют организовать рейтинги разнородных ресурсов. Отделение участвует в общероссийском рейтинге "Rambler's Top100" в номинации "Наука"[8], общегородском Top Nsk.Ru[9] и академическом "Актуальные ресурсы Новосибирска"[10]. Во всех этих проектах сайт занимает достаточно высокие места, а в последнем, где он участвует с самого открытия 5 мая 1999 г., возглавляет рейтинг (при 1380 участниках).

Таблица 1
Достоинства и недостатки разных инструментов статистики
на сайте www.prometeus.nsc.ru
 
ИнструментыМеханизм анализаДостоинстваНедостатки
1. Счетчики посещения отдельных страниц, генерируемые сервером
Счетчики посещения web-страницСервер обновляет порядковый номер посещений (счетчик внизу страниц) при каждом обращении к html-файлуУчитываются все посещения;
обновление счетчика происходит моментально;
можно вести мониторинг доступов к конкретной странице за определенный промежуток времени
Часть учтенных обращений обусловлена редактированием сайта;
отсутствует любая информация о посетителе;
невозможно отделить внешние доступы от внутренних
2. Лог-файл сервера, анализируемый различными средствами
Утилиты и программы фильтрации лог-файлаРазличные полуавтоматические средства (текстовые редакторы и пр.), позволяющие отфильтровывать информацию по избранным критериямДифференцированный поиск необходимых элементов лог-файла;
возможность организовать массив данных под нужным углом зрения
Закрытость информации от публики;
большое количество ручного труда;
ошибки, вызванные различными факторами и обстоятельствами, которые трудно учесть
Программа AccessWatch 6.0Программа-анализатор статистики обращений, смонтированная непосредственно на сервереРазнообразный массив данных в реальном времени;
публичность предоставления информации;
относительная полнота;
удобный таблично- графический вид;
суммирование за ряд месяцев и за полный год;
отделение "человеческих" посещений от роботов
Трудности настройки сервера;
отсутствие сводной статистики по целому ресурсу (директории сайта);
проблемы представления поисковых запросов (ключевых слов и фраз), сделанных в кириллической кодировке
Визуальный анализ лог-файлаПрямое наблюдение за лог-файлом (при наличии соответствующих прав доступа)Возможность разбора различных нестандартных ситуаций и сложных случаев;
детализация поведения посетителей сайта, возможность анализа, кто и что посещал
Частный характер выводов, невозможность обобщений из-за громадных размеров лог-файла;
масса трудных случаев идентификации
3. Проекты баннерной статистики
Актуальные ресурсы НовосибирскаСбор серверной статистики путем отслеживания закачки баннера проекта и сопутствующей служебной информацииРегистрация текущей (актуальной) популярности ресурсов за последние 2 месяца;
публичность;
возможность сравнивать посещаемость региональных и тематически близких ресурсов
Нестабильность работы проекта;
неточность данных, получаемых через прокси-сервера;
невозможность проанализировать индивидуальное поведение потребителей (кто и что посещал)
Rambler's Top 100То же.
Сервис основан на обработке двух частей кода, помещенных вверху и внизу каждой страницы отслеживаемого сайта
Предоставление большого количества разнообразных сведений "внешнего" слежения за посещаемостью;
публичность;
корректное сопоставление основных ресурсов Рунета, обрабатываемых по единому алгоритму
Ограниченность учета посещений (30-сек. интервал, отключение картинок, кэширование, etc.);
невозможность проанализировать индивидуальное поведение;
неполнота сведений из-за отсутствия баннера на части страниц
Top100.Nsk.RuИз цифр, полученных в предыдущем проекте Рэмблера, формируется региональный рейтинг лучших сайтов НовосибирскаРейтинг местных ресурсов;
публичность;
содействие популярности библиотеки
То же, что и в рейтинге Рэмблера;
подчиненный характер местного рейтинга;
отсутствие развернутых данных о посещаемости.

Поисковые машины. Степень интеграции в мировое информационное пространство можно оценить по масштабу индексирования сайта глобальными поисковыми машинами. В октябре 2004 г. библиотекой интересовались роботы, по меньшей мере, 28 поисковых систем (не всех из них можно точно идентифицировать). Google сделал 92,2 тыс. запросов (hits) и перекачал 578,2 Мб информации, робот Microsoft (MSNBot) - 46,5 тыс. и 477 Мб, Рэмблер - 27,6 тыс. и 312,5 Мб. Эти цифры огромны и многократно превышают текущий размер сайта.

Анализ web-цитирования. Специальные технологии web-маркетингового анализа позволяют получить информацию о глобальной популярности сайтов на основе количества ссылок на них, имеющихся в базах данных поисковых машин. Это так называемые системы Link Popularity Check или проверки web-цитирования. Мы провели два теста в мае и октябре 2004 года, сравнив показатели крупнейших библиотечных сайтов России с помощью инновационной технологии компании MarketLeap[11]. Список 16 библиотек был заимствован из верхней части так называемого "Индекса цитирования" Яндекса[12], в котором Отделение ГПНТБ СО РАН уже около двух лет занимает стабильное 12-е место.

По результатам первого теста сайт Отделения оказался на 9-й строчке, то есть немного выше позиции, отведенной ему Яндексом (табл.2).

Таблица 2
Сравнение популярности web-цитирования 16 российских библиотек
по сведениям проекта MarketLeap.Com (число ссылок в 5 базах)
Тест 14 мая 2004 г. (17:24 нск)
 
 БиблиотекаВсегоAllTheWebAltaVistaGoogle
AOL
HotBot
Inktomi
MSN
1www.rsl.ru841818318992335553568
2www.nlr.ru6333114119113024902480
3www.elibrary.ru492713163730590578
4www.gpntb.ru4680495438220692126
5www.shpl.ru225246521579961001
6www.scsml.rssi.ru21731719176979982
7rstlib.nsc.ru208644709771031
8www.spsl.nsc.ru18701212220808818
9www.prometeus.nsc.ru180368182804803
10www.fessl.ru1217141544579565
11www.lib.msu.su11861414151498509
12www.nounb.sci-nnov.ru1140121335531549
13www.gnpbu.ru7257849341320
14lib.susu.ac.ru343231917572
15sun.tsu.ru16822864236
16www.unilib.neva.ru/rus/lib82337600

Особенность систем web-цитирования заключается в том, что их оценки находятся в непрерывной динамике, отражая "рыночные" колебания и степень текущей "ликвидности" интернет-структур. Тест, проведенный в октябре 2004 г., показал, что за несколько месяцев Отделение сделало существенный рывок вперед и по сумме ссылок в базах данных 6 поисковых машин (добавился Yahoo) заняло 4-е место среди всех библиотечных сайтов России (табл.3).

Таблица 3
Сравнение популярности web-цитирования 17 российских библиотек по сведениям проекта MarketLeap.Com (число ссылок в 6 базах данных) и с учетом "индекса цитирования" Яндекса / Тест 25 октября 2004 г. (10:27 нск)
 
 БиблиотекаYandex
CY / место
ВсегоAllTheWebAltaVistaGoogle
AOL
HotBot
Inktomi
MSNYahoo!
1www.rsl.ru3800 / 35770916300167005923987393016200
2www.nlr.ru2500 / 74426512800130007422463246012800
3www.gpntb.ru5200 / 13865211600117007311771175011100
4www.prometeus.nsc.ru1600 / 1233255100001020095690689310300
5lib.susu.ac.ru1700 / 97336196019602334674262290
6www.unilib.neva.ru1400 / 14704212201260187156715581250
7www.shpl.ru2800 / 5508288592711311201122915
8www.elibrary.ru3900 / 250338309031390523494893
9www.scsml.rssi.ru3100 / 44741890938105943926939
10www.gnpbu.ru1600 / 13343775977871526516787
11www.spsl.nsc.ru2200 / 83285736744132454447772
12www.lib.msu.su2600 / 63195675691210463468688
13rstlib.nsc.ru1700 / 11300040441268855848413
14www.fessl.ru400 / 54204939646345363323459
15www.nounb.sci-nnov.ru1700 / 10192528930046509484297
16www.benran.ru1300 / 1518541831871060114109201
17sun.tsu.ru1300 / 16275161760848117

В табл.3 для сравнения отдельной колонкой включены соответствующие данные Яндекса - определенный "вес" ссылок на сайты и их место в библиотечном рейтинге. Команда Яндекса утверждает, что разработанный ими "тематический индекс цитирования (тИЦ) определяет "авторитетность" интернет-ресурсов с учетом качественной характеристики ссылок на них с других сайтов", рассчитываемой "по специально разработанному алгоритму", в результате чего "тИЦ определяется не количеством ссылок, а суммой их весов"[13].

Достаточно длительное наблюдение за этим сервисом Яндекса и сравнение его с результатами Link Popularity Check заставляет сильно усомниться в научной справедливости оглашенных утверждений. На наш взгляд, тИЦ отражает не столько динамику развития Интернета, сколько сложившуюся иерархию учреждений, закрепленную нормативными документами начала отечественной эры автоматизации библиотек. Очевидно, в этом случае у Отделения, официально не представляющего самостоятельной структуры вне рамок ГПНТБ СО РАН, нет никаких шансов подняться выше 12-го места, ведь списки ссылок кочуют с сайта на сайт, ориентируясь на "до-интернетовские" структуры традиционных библиотек. Что же касается "Яндекса цитирования", обратим внимание еще на одну деталь. Вольно или не вольно, рейтинг проводит дискриминацию регионов по принципу "столица - провинция". Из таблицы видно, что первые шесть мест занимают московские библиотеки и только на 7-е место удалось попасть РНБ из Санкт-Петербурга.

Тестирование Google. Качественная сторона обращения пользователей к сайту Отделения изучалась с помощью анализа запросов, сделанных через поисковую машину Google[14]. Преимущества этого поисковика заключены в учете "обратных ссылок" на ресурс (PageRank), в супербыстром нахождении и выдаче документов, в огромном массиве проиндексированных страниц. Основатель корпорации Сергей Брин начинал с технологий поиска неупорядоченной информации. "Мусорная свалка" WWW оказалась идеальным плацдармом для успешного решения задачи структурирования данных. По мнению С.Брина, релевантность ответов - "единственный качественный показатель работы поисковика"[15]. Все, кто пользовался Google, не могут не признать исключительных достижений именно в этом заявленном параметре. Технология лицензирована многими корпорациями, а фирма продолжает создавать все новые и новые средства поиска. Из последних наработок Google - персональный сервис с навигационной панелью Toolbar и поиском по компьютеру DesktopSearch.

Анализ всех обращений Google к сайту Отделения представляет очень сложную задачу. Пробное тестирование предполагало лишь наметить некоторые общие закономерности, очевидно вытекающие из наблюдения за лог-файлом. Погрешность подсчета оценивается в 15-20%, что не позволяет говорить о какой-либо точности полученных результатов, кроме условной. Но кое-какие выводы, вероятно, окажутся полезны для будущего развития сайта.

Технология тестирования. Для проведения теста была взята служебная информация сервера за сентябрь 2004 года. Как уже говорилось, журнал регистрации запросов и ответов (лог-файл), генерируется непрерывно и, несмотря на свой текстовый формат, достигает гигантских размеров, пропорционально загрузке сервера. Задача обработки этой информации громоздка и утомительна. Только за сентябрь файл "весит" около 150 Мб. Такой объем служебной информации почти равен всем ресурсам сайта, созданным за 7 лет работы. Необходимые строки запросов извлекались с помощью утилиты, фильтрующей лог-файл по нужному фрагменту, например, слову "Google". Одна строка соответствует выдаче одного "хита" (hit), под которым подразумевается любой отдельно хранящийся файл web-страницы (текст, картинка, звук и т.д.). Складываясь вместе, хиты составляют 1 доступ или web-документ (страницу). Последовательно были отброшены запросы с домена prometeus.nsc.ru, запросы других поисковиков, посещения роботов, файлы графики, ассоциированной со страницами сайта и другие ненужные "хиты". Из 789,2 тыс. строк лог-файла для анализа было оставлено около 13 тыс. запросов (доступов), сделанных через Google и другие "гуглоподобные" технологии.

Образец первой из отобранных 13 тысяч строк выглядит следующим образом:

194.47.95.78 - - [01/Sep/2004:00:02:52 +0700] "GET /partner/
zarubin/nanotec.ssi HTTP/1.1" 200 30325 "http://www.google.se/
search?hl=sv&ie=UTF-8&q=%D0%A2%D1%80%D0%B0%D0%BD%D1%81%D0%BF
%D0%BE%D1%80%D1%82%D0%BD%D1%8B%D0%B5+%D1%81%D0%B2%D0%BE%D0%B9
%D1%81%D1%82%D0%B2%D0%B0+%D0%B2+%D0%BA%D0%B2%D0%B0%D0%BD%D1%82
%D0%BE%D0%B2%D1%8B%D1%85++%D0%BD%D0%B0%D0%BD%D0%BE%D1%81%D1%82
%D1%80%D1%83%D0%BA%D1%82%D1%83%D1%80%D0%B0%D1%85+2004&btnG=S%C3
%B6k&meta=" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; 
rv:1.7) Gecko/20040616"

Разберем подробнее, из каких структурных элементов (полей) она формируется.

  1. IP адрес посетителя (194.47.95.78)
  2. дата и время запроса + разница между серверным и среднеевропейским временем (01/Sep/2004:00:02:52 +0700)
  3. метод и протокол доступа к ресурсу (GET ... HTTP/1.1)
  4. запрашиваемый файл сайта (/partner/zarubin/nanotec.ssi)
  5. результат выполнения этого запроса, то есть стандартный код ответа сервера ("200" в данном случае означает "полный о'кей", то есть выдачу запрашиваемого файла) и размер переданной страницы (30325 байт).

Дальше строка лог-файла содержит краткую информацию о том, кто делал запрос:

  1. откуда, то есть с какого адреса поступил запрос ("http://www.google.se/search? hl=sv&ie...") -- эта часть строки вверху (в рамке) набрана курсивом, так как в ней содержится запрос Google, подлежавший анализу; дальше со страницы полученных результатов пользователь направлялся к ресурсу Отделения (см. пункт 4);
  2. какие технические средства использовались для доступа к ресурсу ("Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7) Gecko/20040616"). Сюда включены сведения о браузерах, операционных системах пользователей и данные о программах-роботах.

Если 6-й фрагмент строки (набранный в рамке курсивом: "http://www.google.se/search?...") путем копирования извлечь из кавычек и поместить в адресное окно браузера, а затем нажать "ввод" (enter), то можно повторить запрос, который составил пользователь. В случае, который мы разбираем, поисковой машине Google-Швеция (www.google.se) был задан вопрос "Транспортные свойства в квантовых наноструктурах 2004". Вторым результатом из 12 поисковик предложил библиографический список А.П.Зарубина "Наноструктуры и нанотехнологии (отечественная библиография с 1993 г.)". Правда, нужно оговориться, что изложенный способ перепроверки пользовательских запросов идеально точен только тогда, когда запрос и его перепроверка максимально приближены друг к другу по времени. Динамика развития интернета каждый день вносит коррективы в поисковые результаты, и документ со второго места может перейти на первое или, наоборот, быть оттесненным куда-нибудь на 20-е.

Анализ запросов по доменам. Google предлагает поиск на 84 языках, включая вымышленные языки вроде "поросячьей латыни" или клингонского (из космической саги "Star Trek")[16]. Проведенный анализ запросов показал пеструю и многоязычную картину обращений к сайту пользователей со всего мира. За сентябрь зарегистрировано 58 национальных доменов, включая Google-Кубу, Google-Мальту, Google-Коста-Рику и т.д. Наибольшее количество запросов поступило от Google-Россия (www.google.ru) - более 6 тыс. или 45%. На 2-м месте - домен Com (24%), за которым следуют Украина, Германия, Латвия, Литва, Казахстан, Канада, Франция... Учитывая, что в интернете ищут не только текстовую, но и графическую информацию, а у Google имеется и такой сервис (images.google...), были сопоставлены данные по поиску изображений. Выяснилось, что по этому виду поиска домены Ru и Com меняются местами (табл.4).

Таблица 4
Запросы, сделанные Google к сайту www.prometeus.nsc.ru
в сентябре 2004 г. (по национальным доменам)
 
NoСтранаДоменЗапросы=Текст+Картинки
1Россияru6192=6009+183
2коммерческий / СШАcom3263=3060+203
3Украинаua1880=1866+14
4Германияde237=204+33
5Латвияlv209
6Литваlt148=146+2
7Казахстанkz117=114+3
8Канадаca112=98+14
9Францияfr81=70+11
10Финляндияfi67=64+3
11Польшаpl61=53+8
12Великобританияuk55=50+5
13Италияit55=53+2
14Бельгияbe53=48+5
15Индияin51=49+2

"Гуглоподобные" системы и лицензированные технологии. Многие системы используют технологию Google или его поисковый "движок". В сентябре от 15 систем подобного рода поступило 83 запроса. Среди них - машины Terra-Busca (Бразилия), SkyNet (Бельгия), Eircom (Ирландия), Startsiden (Норвегия). Из Бразилии на сайте Отделения были найдены изображения династии Романовых, из Бельгии - веб-ресурсы (links) об академике В.А.Коптюге, из Ирландии - материалы дайджеста "Российская наука и мир" (то же - для онлайн-портала "Вашингтон пост", использующего гугловский "движок"). 31 запрос поступил от поискового сервиса чат-корпорации ICQ (google.icq.com) - по эргономике, научно-технической политике России, биолокации и др. темам. Зафиксированы также обращения систем мета-поиска (MetaCrawler / Go2Net).

Особенности спроса. Большинство просмотренных запросов, сделанных к сайту через поисковую машину Гугла, показали, что поисковые результаты Отделения, как правило, находились в верхней части первой-второй десятки результатов. Еще раз подчеркнем, что в документах www.prometeus.nsc.ru не используются управляющие мета-тэги ключевых слов и описаний, а релевантность достигается правильным оформлением заголовка документов, к которому Google предъявляет повышенные требования. Кроме того, учитывается, что для Google важно все внешнее оформление документа - форматирование абзацев, выделение шрифтом и прочие нюансы. Осмысленное представление материалов значительно усиливает релевантность выдачи.

Наблюдавшийся в тесте большой спрос на библиографию не стал большим открытием, так как именно в этом направлении сайт и развивается (табл.5). Наиболее эффективна библиография по глобалистике, присутствующая на сайте в нескольких видах. Важный вывод связан с отмеченной потребностью в качественной библиографии, создаваемой специалистами. Высококвалифицированные списки А.П.Зарубина по удельному отношению числа запросов (колонка N 3 в табл.5) к количеству страниц в ресурсе (колонка N 4) занимают среди всех запросов Гугла первое место (колонка N 6).

Таблица 5
Спрос на ресурсы сайта www.prometeus.nsc.ru
через поисковую машину Google в сентябре 2004 г. (первые 20)
*
 
NoРесурс (директория
или файл сайта)
Кол-во
запросов
Кол-во
страниц в
ресурсе
Отношение
3 : 4
Место по 5Примечание
1234567
1biblio33579543,511Библиографические
указатели
2archives/exhibit13552146,37Архив тематических
выставок (библиография)
3contents12392425,18Книжные оглавления
(только на рус. яз.)
4exhibits11128591,318Выставка новых
поступлений
5eng8608341,019Англоязычная
часть сайта
6newrus8522253,810Библиографический
указатель
"Новая Россия"
7partner7797210,83"Партнеры" -- в /eng/
- всего 6 стр.
8zarubin7695913,02А.П.Зарубин -- в /eng/
- всего 3 стр. (torfield)
9science6223152,016в /eng/ - только файлы
"Дайджеста" (118 стр.)
10scidig
в т.ч. /eng/
rus
547
260
287
242
118
124
2,3
2,2
2,3
13
14
13
Дайджест "Российская
наука и мир"
11resource4048060,5 Ресурсы (списки,
указатели периодики)
12family3491642,115ресурс идентичен
на 2-х языках (по 82 стр.)
13global348408,74Библиография по глобалистике.
В /eng/ ресурс /gobal/ отсутствует;
учтены русские и английские стр.
в архиве выставок и справок, а
также в оглавлениях книг
(только в рус. части)
14guide328398,4**5ИнфоЛоция - только в
русскоязычной части
15pilot
в т.ч. /eng/
rus (в коренной
www)
259
231
28
58
29
29
4,5
8,0
1,0
9
6
19
Исключительно англоязычный
ресурс в двух вариантах:
/pilot/ (законсервирован) и
/eng/pilot/ (развиваемый)
16patent18814410,13 "Патенты" -- только в
русскоязычной части
17mirror149393,810Гендер -- только в
русскоязычной части
18akademgorodok1372210,6 Материалы об Академгородке
19vitte123492,512С.Ю.Витте -- одинаков
на 2-х яз. (26+23 стр.)
20torfield1105221"Торсионные поля" --
на 2-х языках (3+2 стр.)
 
   *Условия подсчета: 1) проанализировано 10314 запросов; 2) исключены запросы на файлы картинок (2398 - на gif и 536 - на jpg); с их учетом общая погрешность исследования может доходить (в сторону увеличения) до 15-20%; 3) ресурс мог одновременно учитываться в разных запросах, т.е., например, в /eng/ и /biblio/; в то же время в одном запросе могло учитываться несколько ресурсов; 4) количество страниц в ресурсе взято с учетом англоязычной части (за искл. /eng/); аналогичным образом подсчитывались и запросы, т.е. в /biblio/ брались запросы и к русским, и к англ. страницам; 5) в целом, подсчеты могут считаться лишь примерными, в силу несовершенства технологии; погрешность лежит в диапазоне от 5 до 25% (в сторону превышения).
   **С учетом английской версии "Pilot" (guide + eng/pilot) - 8,2.

Неожиданным результатом теста явилось высокое место, занятое "Книжными оглавлениями" (contents). Несмотря на то, что оглавлений пока подготовлено не очень много, спрос на них достаточно высок. Это подтверждает ценность работы по раскрытию содержания источников. Идеальным решением было бы сопровождать все издания выставки новых поступлений файлами оглавлений, но это, по-видимому, несбыточная мечта. Для подобной трудоемкой работы библиотека не располагает необходимыми возможностями.

Еще один важный результат, который показало изучение запросов Google, заключается в неустаревающем значении web-навигатора "ИнфоЛоция" (в английском варианте он называется "InfoPilot" или просто "Пилот"). Это ставит задачу кардинальной переработки и обновления этого ресурса, тем более что по индексу цитирования Яндекса "Лоция" весит 200 "денежек" (очков), что, само по себе, не мало.

Заключение. В условиях многообразия возможностей и свободы, обеспеченной интернетом, электронные библиотеки вступают в глобальную конкуренцию за потребителя не только в зонах своей традиционной ответственности, но и в пограничных областях, исторически закрепившихся за другими научно-образовательными, развлекательными и коммерческими учреждениями. Непосредственно среди своих коллег по библиотечному содружеству библиотеки и дополняют друг друга, и соперничают за привлечение посетителей к собственным ресурсам.

Для библиотечного сайта выход в интернет - это переход на принципиально иной, более высокий уровень развития. Современные технологии способны дополнить традиционное библиотечное обслуживание предоставлением web-ориентированных баз данных, доставкой документов в электронной форме, организацией виртуальных справочных служб по типу библиотечных форумов и с использованием чат-технологий (ICQ, etc.). Вместе с тем, у библиотек появилась возможность сравнить результаты своей деятельности с коллегами. Стандарты www позволяют унифицировать оценку библиотечного труда, определить ее по единым методикам разных рейтингов и топ-листов, но при этом сохранить несхожесть и разнообразие предоставления информации.

Опыт сайта Отделения ГПНТБ СО РАН ни в коей мере не претендует на исключительность. В безграничном мире Интернета у каждого есть свой индивидуальный путь и свой собственный формат. Тут благодарно сочетаются *.pdf и *.html, *.doc и *.txt, и не нужно требовать их полного слияния. Ни один сайт не лишен недостатков, и у нас тоже есть проблемы. Но избранный нами формат, чему и посвящена данная статья, может приносить не только огорчения, но и радости. Потенциал интеграции библиотек заключается в том, чтобы каждый вносил посильную лепту в насыщение Интернета справочными, библиографическими, методическими и полнотекстовыми материалами. С этой точки зрения, мысль о том, что не только размер, но и форма имеет значение, кажется нам вполне продуктивной.

 

ПРИМЕЧАНИЯ

[1] Шляхтина С. Тенденции развития Всемирной сети // КомпьютерПресс. - 2004. - N 2. - С.8.
[2] Там же. - С.10, 12, рис.5.
[3] Таблица транслитерации представлена на сайте: www.prometeus.nsc.ru/eng/about/translit.ssi
[4] Online-переводчик - URL: http://www.translate.ru
[5] Сервис Babel Fish Translation - URL: http://babelfish.altavista.com
[6] Последнюю версию AWStats 6.2 можно бесплатно скачать на сайте Sourceforge и установить на своем сервере: URL: http://awstats.sourceforge.net/
[7] URL: http://www.prometeus.nsc.ru/cgi-bin/awstats/awstats.pl
[8] URL: http://top100.rambler.ru/cgi-bin/stats_top100.cgi?474349
[9] URL: http://top.nsk.ru/
[10] URL: http://tower.ict.nsc.ru/
[11] URL: http://www.marketleap.com/publinkpop/default.htm
    Marketleap.com, Inc. базируется в Сан-Франциско и позиционирует себя как «Digital Impact Company», т.е. компания отслеживает импакт-фактор («рыночный вес») в сфере цифровых технологий и, в частности, популярность интернет-сайтов.
[12] URL: http://yaca.yandex.ru/yca/ungrp/cat/Science/Sciences/Administration/Libraries_1/
[13] Что такое индекс цитирования Яндекса. - URL: http://www.yandex.ru/info/ci.html
[14] Google - частная компания из Маунтин Вью в Калифорнии (США). Основана в 1998 г. двумя молодыми людьми Сергеем Брином и Ларри Пейджем. Слава о способностях Гугла передавалась «из уст в уста» и посредством этого «вирусного маркетинга» ныне он обошел всех конкурентов. Google - обладатель множества наград не только в интернете, но и в бизнесе. Он вошел в «Десятку лучших кибернетических технологий» 1999 года, а в 2002-2003 гг. назван брэндом года, опередив Кока-колу, оставшуюся на 4-м месте, и Самсунг на 5-м. Более 10 тыс. компьютеров Гугла работают в единой связке, выполняя миллионы запросов в сутки (Подробнее см.: Бараникас И. Если бы остался, уже отслужил бы: Выходец из России, компьютерный гений Сергей Брин стал простым американским миллиардером // Московские новости. - 2004. - N 37 (1 октября). - С.25: ил. -- URL: http://www.mn.ru/issue.php?2004-37-47). О методах работы Гугла есть масса интересного в интернете (см., напр., форум «Как Google ищет сотрудников» -- URL: http://www.bratok.co.uk/archive/index.php/t-20497).
[15] Компьютерное Обозрение. - 2000. - N 33 (30 авг. - 5 сент.). -- URL: http://itc.ua/article.phtml?ID=3486
[16] Между прочим, существует сайт «Института клингонского языка» -- URL: http://www.kli.org/
 

Опубликовано в сборнике: Электронные ресурсы региона: проблемы создания и взаимоиспользования: Материалы регион. науч.-практ. конф. (Новосибирск, 25-28 окт. 2004 г.) / ГПНТБ СО РАН; Редкол.: О.Л.Лаврик (отв. ред.), С.Р.Баженов, Р.А.Черныхаева. - Новосибирск, 2005. - С.180-199. - Библиогр.: с.199 (2 назв.).
 
Электронные ресурсы региона '04 (Оглавление)ПубликацииПубликации С.Канна  
[О библиотеке | Академгородок | Новости | Выставки | Ресурсы | Библиография | Партнеры | ИнфоЛоция | Поиск | English]
© 1997–2024 Отделение ГПНТБ СО РАН

Документ изменен: Wed Feb 27 14:57:28 2019. Размер: 95,881 bytes.
Посещение N 9699 с 03.11.2005