Гарфилд Ю. Можно ли выявлять и оценивать научную продуктивность?

Гарфилд Ю., 1982
(Вестник АН СССР, 1982, N 7)

МОЖНО ЛИ ВЫЯВЛЯТЬ И ОЦЕНИВАТЬ НАУЧНЫЕ ДОСТИЖЕНИЯ И НАУЧНУЮ ПРОДУКТИВНОСТЬ?

В нашем журнале (1981, N 4; 1983, N 5) были помещены статьи, где обсуждалась возможность оценивать научные публикации на основе данных об их цитируемости. Авторы статей придерживаются разных взглядов на этот вопрос, но в обеих статьях отмечается целый ряд ограничений в применимости анализа цитируемости как инструмента оценки.
До сих пор практически единственным источником соответствующих данных служит "Указатель научных ссылок" ("Science Citation Index" - SCI), выпускаемый Институтом научной информации в Филадельфии. Директор этого института Ю. Гарфилд принимал участие в Международной книжной ярмарке в Москве (сентябрь 1981 г.) и выступил перед науковедами и работниками информационных служб с лекцией, посвященной возможностям SCI в оценке научных публикаций. Лекция в значительной степени была направлена на то, чтобы подчеркнуть достоинства изданий института. Новых идей и аргументов в пользу прямой связи между цитируемостью публикации и ее ценностью приведено не было. И все же сведения о некоторых весьма полезных библиографических пособиях, в том числе и разработанных Институтом научной информации в самое последнее время, могут представлять интерес для советских ученых.

Мы публикуем текст лекции в сокращении.

Могу без преувеличения сказать, что в этой аудитории я чувствую себя как дома. Ведь любое обсуждение вопросов объективной оценки качества научного исследования неизбежно затрагивает наиболее фундаментальные положения наукометрии. А советские ученые всегда были на переднем крае развития этой области исследований -области, которая многим из американских коллег до сих пор представляется каким-то малоизвестным новшеством. Само слово "scientometrics", которым в англоязычных странах обозначается эта область, восходит к русскому термину "наукометрия", уже много лет используемому в советской литературе. Не удивительно, что в число четырех главных редакторов первого международного журнала, целиком посвященного наукометрии, входит советский ученый, профессор Г.М.Добров из Института кибернетики АН УССР, с которым я, также будучи главным редактором, имел удовольствие сотрудничать, а в его редколлегию - профессор В.В.Налимов из МГУ.

Сама концепция кластеров социтирования, которой в значительной мере будет посвящено мое выступление, была одновременно и независимо выдвинута Г.Смоллом из Института научной информации в Филадельфии и И.Маршаковой из Москвы. Так что в каком-то смысле я сегодня нахожусь в родном доме научной дисциплины, которой много занимаюсь на протяжении последних лет.

Я собираюсь остановиться на некоторых приемах, позволяющих с помощью анализа цитирования выявлять значительные научные результаты и оценивать продуктивность научной работы. Важность такой оценки сама по себе не требует доказательств. В мире работают свыше миллиона научных работников, публикующих статьи более чем в 50 тыс. научных и технических журналов. Большинство развитых стран тратит на науку около 3% валового национального продукта, и сегодня приходится спрашивать не о том, можно ли выявлять важные результаты, а о том, можно ли обойтись без этого.

Вопрос об использовании для такой оценки данных о цитировании всегда вызывал споры. С тем, что анализ цитирования полезен как инструмент управления и информационного поиска, согласны почти все. Не возражают и против того, что он может сыграть важную роль в исследованиях по истории и социологии науки. Но стоит лишь упомянуть, что данные о цитировании могут помочь оценить вклад в науку отдельных ученых, организаций и вообще кого или чего угодно - и вы натолкнетесь на самую ожесточенную оппозицию. Все еще встречаются возражения даже против использования этих данных для оценки журналов.

Но с началом выхода SCI - Science Citation Index ("Указатель научных ссылок") в 1963 г. подсчет цитирований стал неизбежным независимо от того, нравится это нам или нет.

Для иллюстрации принципов, на которых построен SCI, Ю.Гарфилд привел фрагмент указателя, содержащий ссылки на работу А.А.Мигдала, опубликованную в 1975 г.- в "Журнале теоретической и экспериментальной физики". Он отметил, что с помощью такого списка можно отыскать работы, тематически связанные со статьей Мигдала, даже если они опубликованы за рамками соответствующей дисциплины. Таким образом, указатель ссылок избавляет потребителя от необходимости подчиняться искусственным классификационным схемам, что неизбежно для традиционных предметных указателей.

Публикуя на протяжении нескольких лет в бюллетене "Current Contents" списки наиболее цитируемых статей, авторов, журналов, книг, мы постоянно убеждаемся, что высокая цитируемость обычно коррелирует с другими формами научного признания: присуждением научных наград, членством в различных обществах, наконец, с субъективными оценками коллег. Это обстоятельство имеет особое значение: я убежден, что данные о цитировании помогли выявить сотни способных исследователей, никогда не получавших никаких важных наград.

Анализ цитирования действительно может быть полезным инструментом качественной оценки. Но любым инструментом - от кувалды до атомного реактора - можно пользоваться и не по назначению. И научному сообществу нужно научиться понимать, что можно измерять с помощью такого анализа, а что нельзя. Этой проблеме и посвящено мое выступление.

Что такое цитирование и что означает факт цитирования вами чьей-то работы? Несколько лет назад в журнале "Science" мне была посвящена статья, озаглавленная "Библиотекарь, ставший бизнесменом, делает миллионы на обычных ссылках". Выражение "обычные ссылки" подразумевало, что речь идет о вещи самой тривиальной. Обращение с библиографическими ссылками в сотнях научных журналов, столь далекое от идеала, также обнаруживает отношение к ссылкам как к чему-то тривиальному. Но ведь ссылки сами по себе - средство коммуникации. Они позволяют проследить ход развития данного научного результата, обрисовывают круг литературы, позволяющей получить необходимые общие сведения о проблеме и создающей контекст данной работы. Они сообщают работе достоверность. Что еще важнее, цитирование представляет собой формальное, явное выражение связей между работами. Гипотеза о том, что ссылки представляют собой символы научных концепций, и составляет теоретическую основу указателей цитирования. И очевидный успех SCI как средства информационного поиска говорит о правомерности этой предпосылки.

Но еще три десятилетия назад мы поняли, что цитирование играет и другую роль. Социологи показали, что ссылки составляют часть действующей в науке системы вознаграждения. В общем виде процитировать кого-либо означает признать воздействие цитируемого автора на твою работу; это - своеобразный способ уплаты долга тому, кого ты цитируешь. Таким образом, цитирование - это валюта, в которой исследователь выплачивает долги предшественникам. И если факт цитирования означает, что один из коллег обратил внимание на данную работу, то что можно оценить, измерив частоту цитирования соответствующей работы? Как мы увидим, весьма многое. Ведь многократно цитируются лишь немногие авторы, и обычно именно те, которые оказали наибольшее влияние на развитие исследований.

Одна из причин, которая заставляет сомневаться в применимости анализа цитируемости, - опасение, что важная статья может появиться в неизвестном журнале. Это можно назвать синдромом Менделя - из-за ошибочного мнения, что знаменитая статья Менделя оказалась в свое время погребенной в малоизвестном журнале. Но даже если подобное опасение обоснованно, то можно спросить вслед за Дж. Беркли: "Если дерево упало в лесу, где никто не может этого услышать, вызвало ли шум его падение?" Научные результаты должны сообщаться коллегам. Только тогда они оказывают воздействие на ход работ. А анализ цитирования выявляет и измеряет именно воздействие результата на научное сообщество, его полезность для других ученых. Цифры, характеризующие показатели цитируемости, вовсе не призваны измерить качество работы само по себе, безотносительно к ее функционированию в науке. Они лишь индикаторы, показывающие, что данная работа с весьма высокой вероятностью может оказаться весьма значительной. Окончательное же решение. здесь только за компетентными коллегами. Подсчет цитирования вовсе не призван заменить их оценку. Он скорее расширяет возможности такой оценки, делая ее более объективной и проницательной.

Я надеюсь, что сумел охарактеризовать место анализа цитирования как инструмента оценки, показать, что он может оценивать, а чего не может. Теперь хотелось бы коснуться некоторых недоразумений, которые возникли в связи с анализом цитирования, и попутно продемонстрировать некоторые возможности его использования.

Одно из ошибочных мнений состоит в том, что методические работы неизбежно оказываются высокоцитируемыми. Это недоразумение, возможно, связано с тем, что за всю историю науки наиболее часто цитировалась методическая статья О. Лоури из Университета Вашингтона в Сент-Луисе, в которой излагалась новая методика количественного определения протеина. С 1951 г. на нее ссылались свыше 100 тыс. раз. Но ведь это еще не значит, что методические статьи обязательно обильно цитируются. Тысячи их не цитируются вообще. Цитируемость подобных статей зависит от общей ориентации в данной области исследований. Если здесь сильна методическая ориентация, как в аналитической химии, то методические статьи действительно цитируются чаще. Но в других областях они имеют не больше шансов на высокую цитируемость, чем статьи теоретические. И ведь некоторые методы открывают новые области исследований. Можно ли, например, оспаривать высокое значение метода определения протеина? Конечно, тот факт, что описание этого метода оказалось самой обильно цитировавшейся работой за всю историю науки, не означает, что это - важнейшая работа. Он просто показывает, что определением протеина занимаются очень многие исследователи, и в этом смысле отражает направление работы и интересы дисциплинарного сообщества. Необычно высокую цитируемость можно считать аномалией.

Существуют еще два недоразумения, с которыми я спорил так много, что сейчас позволю себе остановиться на них лишь вкратце. Одно из них - боязнь искажающего воздействия самоцитирования. В известном смысле самоцитирование оправдано, так как часто публикация ученого продолжает его прежние работы. Увеличить же его настолько, чтобы существенно завысить свои показатели цитируемости, вряд ли возможно. Такая практика слишком бросается в глаза, и рецензирование, принятое в лучших журналах, ставит этому достаточно надежный барьер.

Еще одно недоразумение - боязнь завышения показателей цитируемости за счет критических или негативных ссылок. Я уже подчеркивал, что это происходит редко. Ученые не склонны отвлекаться на опровержение нестоящих работ. И публикация, получившая много критических ссылок, с полным основанием может рассматриваться как достаточно значительная для того, чтобы тратить время на полемику с ней. Более того, немало теорий в момент своего появления вызывают критику, причем не приходится полагать, что критики всегда правы. Так что вообще-то столь редкие отрицательные ссылки вполне могут указывать не на отрицательное, а на положительное значение работы.

То обстоятельство, что статья Лоури так долго возглавляет список наиболее цитируемых работ, породило еще одно недоразумение - представление о том, что список этот не меняется со временем и что "сверхзвезды" прочно "окопались" в первых строках этих списков. Но это просто не соответствует истине. Показатели цитирования постоянно меняются, всякий раз отражая сдвиги в состоянии исследований. Несколько лет назад мы опубликовали список 300 наиболее часто цитировавшихся авторов за период с 1961 по 1976 г. В 1981 г. мы составили список 1000 наиболее часто цитировавшихся авторов за период с 1965 по 1978 г. Из этого списка мы отобрали первых 300 и сравнили этот новый список с прежним. Около трети авторов этого нового списка - точнее, 91 человек - в предыдущий список не входили. Во всех проведенных нашим институтом многочисленных исследованиях цитирования мы убеждались, что данные цитирования изменяются так же оперативно, как само состояние науки.

Еще одно распространенное недоразумение - мнение, что наиболее часто цитировавшаяся работа данного автора является самой важной его работой. Это не обязательно так. Важность - оценка весьма субъективная, и анализ цитирования никогда не предназначался для ее определения. Нередко авторы наиболее цитируемых работ, которых мы по традиции приглашаем выступить на страницах бюллетеня "Current Contents", жалуются, что им приходилось публиковать более значительные работы, чем та, которая собрала наибольшее число ссылок и которую им предлагалось прокомментировать*. [*Подстроч. примеч.: В рубрике "Классики цитирования" авторы наиболее широко цитировавшихся статей рассказывают об истории работ, приведших к появлению высокоцитируемых публикаций, освещают историческую и человеческую сторону своего исследования.] Три автора одной из таких статей заявили: "Каждый из нас опубликовал по меньшей мере по десятку статей, которые считает более важными, чем данная работа". Однако и те работы, которые сами авторы, попавшие в рубрику "Классики цитирования", считают наиболее важными, также неизменно широко цитировались.

В последние годы мне приходилось изучать соотношение между цитируемостью и другими формами признания в науке, особенно присуждением Нобелевских премий. Это изучение способствовало распространению еще одного заблуждения. В списках наиболее часто цитировавшихся авторов не всегда фигурировали имена нобелевских лауреатов. Иногда на этом основании отрицалось значение анализа цитирования как средства качественной оценки.

Так, в 1978 г. два радиоастронома, А.Пенциас и Р.Уилсон, были удостоены Нобелевской премии по физике. Эти авторы получили с 1961 по 1975 г. соответственно 1400 и 1200 ссылок. Цифры впечатляющие, но за этот же период работы по меньшей мере 1000 авторов цитировались по 2000 раз и более. Однако если ограничить область сравнения только радиоастрономией, пользуясь методикой составления кластеров социтирования, о которой будет сказано ниже, то Пенциас и Уилсон окажутся одними из первых в списке.

Часто спрашивают, можно ли с помощью анализа цитирования предсказать нобелевских лауреатов? Разумеется, этого сделать нельзя. На каждого ученого, удостоенного Нобелевской премии, приходится не меньше дюжины столь же достойных. Х.Цукерман в своей известной книге "Научная элита" называет этих ученых "занимающими 41-е кресло", уподобляя их тем деятелям французской литературы, которые, не уступая "бессмертным" по авторитету, не могут быть избраны во Французскую академию, поскольку число ее членов ограничено 40. Этих ученых можно характеризовать как ученых "нобелевского класса". Таких ученых вполне возможно выявить с помощью данных о цитировании. И все же довольно сильная связь между цитируемостью и присуждением Нобелевских премий наблюдается на протяжении многих лет. В 1970 г. мы взглянули на список из 50 наиболее цитировавшихся авторов 1967 г., и оказалось, что шестеро из них в то или иное время были удостоены Нобелевской премии. Кроме того, многие получили премию после 1970 г. Позже в уже упоминавшемся списке на 300 авторов, наиболее часто цитировавшихся с 1961 по 1976 г., мы обнаружили 26 нобелевских лауреатов. Кстати, не меньше половины из этих 300 ученых были удостоены других наград или избраны в члены академий и научных обществ с ограниченным членством. Таким образом, связь между цитированием и другими формами признания в науке подтверждается довольно надежно.

Анализ цитирования может оказаться полезен комитетам по присуждению премий при отборе кандидатов. Для этой цели может использоваться метод составления кластеров социтирования. Составление таких кластеров зародилось как наукометрический инструмент - средство для изучения дисциплинарной структуры науки и выявления нарождающихся областей исследований. Но этот метод может использоваться и для качественной оценки.

Группировка работ по кластерам автоматически производится следующим образом. Сначала из четырехмиллионного массива публикаций, регистрируемых в SCI, отбираются все, превышающие заданный порог цитируемости, устанавливаемый обычно на уровне 15-17 ссылок. Этот порог превышают менее 1% охватываемых в SCI публикаций. Затем выявляется, какие из этих высокоцитируемых публикаций цитировались совместно в третьих работах. При этом предполагается, что две публикации, часто цитируемые совместно, рассматривают тесно связанные проблемы. Группа работ, связанных социтированием, сила которого превышает определенный пороговый уровень, и составляет некий кластер.

Рис.1. Карта кластера совместной цитируемости работ по опиатным рецепторам на 1974 г.

В 1978 г. нам представилась возможность проверить применимость кластерного анализа для качественных оценок в связи с присуждением премии Альберта Ласкера за исследования в области медицины. В том году премии присуждались за работы по изучению опиатных рецепторов, и в качестве лауреатов были названы Дж.Хьюэс, С.Снайдер и Х.Костерлиц.

Вскоре после объявления лауреатов мы изучили материалы кластерного анализа и обнаружили несколько ученых, которые также могли рассматриваться в качестве претендентов на получение премии.

Кластер, приводимый на рис. 1, составлен на основе данных SCI за 1974 г. - первый год, когда оказалось возможным выявить кластер работ по опиатным рецепторам. Линии между работами обозначают связи социтирования. Чем чаще две работы цитировались совместно, тем ближе они располагаются на схеме.

До 1973 г. была опубликована лишь одна работа - статья Голдштейна. В ней предлагалась концептуальная схема для физической демонстрации факта существования специальных опиатных рецепторов. Статьи с сообщениями об обнаружении подобных рецепторов публиковались более или менее одновременно тремя группами: Перт и Снайдером из Университета Джона Гопкинса, Симоном и его коллегами из Нью-Йоркского университета и Терениусом из Упсальского университета в Швеции.

Карта соответствующего кластера, полученного на основе данных социтирования 1975 г. (рис. 2), демонстрирует рост исследовательской активности, последовавший за первоначальным открытием. Обращает на себя внимание статья, расположенная в правой части кластера, обозначенная "Хьюз-75" (Hughes-75). Уже в год опубликования она цитировалась достаточно часто, чтобы войти в кластер. В ней сообщалось о выделении вещества, которое Хьюз и его коллеги позже назовут энкефалином. Работы Перт и Терениуса, как и Голдштейна, остаются в кластере. Кластеры последующих лет продолжают свидетельствовать о высоком влиянии работ этих авторов на исследования в данной области.

Рис.2. Карта кластера совместной цитируемости работ по опиатным рецепторам на 1975 г.

Разумеется, все эти сведения приводятся здесь не для того, чтобы оспорить справедливость присуждения награды. Они просто иллюстрируют возможности кластерного анализа в изучении развития направления исследований и выявлении авторов значительных работ.

Как уже отмечалось выше, кластерный анализ первоначально разрабатывался как инструмент наукометрических исследований. Но сегодня Институт научной информации применяет этот метод для библиографического поиска в области медико-биологических наук. В этом году Институт научной информации предложил потребителям новый машинный массив, функционирующий в режиме прямого доступа с терминалов. Автоматическое индексирование этого массива основано на кластерном анализе. Потребителям предлагаются буклеты, содержащие названия около 3000 кластеров.

Допустим, вас интересуют хроматинные и нехроматинные протеины в клеточных ядрах. Вы начинаете с поиска названия "хроматин" в указателе. Этот термин входит в названия 18 кластеров. Кластер "хроматинные и нехроматинные протеины в ядерных комплексах" включает 46 новейших публикаций по этому предмету. Если это число слишком велико, можно отобрать те работы, которые в наибольшей степени относятся к данной теме, то есть те, которые цитируют особенно много работ, входящих в кластер.

Институт научной информации подготовил энциклопедический по своему охвату Атлас биохимии и молекулярной биологии, который представит значительный интерес для историков науки. Каждый из 100 разделов атласа будет представлять одну из биохимических специальностей, выявленных на основе кластерного анализа. Каждая глава будет состоять из карты-схемы кластера, библиографической информации о статьях, вошедших в кластер, краткого пояснительного очерка и библиографии новейших публикаций, цитирующих вошедшие в кластер работы. Пояснительный очерк будет включать исторический обзор специальности, отмечать важнейшие статьи, сыгравшие наибольшую роль в ее развитии, итоги. Такой очерк явится, по существу, "мини-обзором" развития соответствующей области науки.

Одна из важных функций анализа цитирования - выявлять так называемые "дремлющие работы" - важные работы, оказавшие на первых порах весьма незначительное влияние на исследования в своей области, но несколькими годами позже "открываемые" исследователями и получающие множество ссылок.

Рис.3. Пример "дремлющей" статьи - график цитируемости статьи: Higgs P.W. Spontaneous Symmetry Breakdown Without Massless Bossons. "Physical Reviews", 1966 г., v. 145, p. 1156

На графике (рис. 3) представлена динамика цитируемости статьи Р.Хиггса, посвященной спонтанному нарушению симметрии в физике элементарных частиц и опубликованной в 1966 г. в журнале "Physical Reviews". В статье предложена простая модель таких нарушений. До 1972 г. эта статья цитировалась сравнительно мало - меньше 10 раз. Затем цитирование резко возросло (55 раз в 1978 г.), и до сих пор она продолжает цитироваться чаще, чем в первые годы после публикации.

Признание работы может запаздывать по нескольким причинам. Из-за засорения каналов информации в результате информационного взрыва идее может быть трудно проникнуть сквозь барьер устоявшихся шаблонов. Открытие может настолько опережать свое время, что его окажется невозможно связать с концептуальным строем современной науки. Но оно может поначалу игнорироваться и просто потому, что его автор - молодой исследователь, работающий в малоизвестной организации. В этом последнем случае именно анализ цитирования оказывается в конце концов средством, позволяющим молодому исследователю получить заслуженное признание.

Таким образом, мы в Институте научной информации различными способами пытаемся использовать данные о цитировании, чтобы выявлять "значительную науку". Данные о цитировании работ отдельного ученого можно сравнить с общими данными о цитировании в науке. Но можно и прибегнуть к кластерному анализу, выявив с его помощью специальность или область исследований, в которой работает рассматриваемый ученый, и сравнив его показатели цитирования только с показателями его коллег. К сожалению, средний администратор научного учреждения, имеющий в своем распоряжении только пятилетние кумулятивные тома SCI, не в состоянии провести такой анализ, поскольку указатель охватывает множество дисциплин без разграничения данных, относящихся к различным дисциплинам.

Кроме того, SCI, точнее, его "Указатель ссылок" не включает информации о соавторах. Самостоятельную проблему составляет также различение однофамильцев с одинаковыми инициалами.

Я убежден, что многие возражения против использования данных о цитировании для оценки порождены именно некорректным использованием SCI в этих целях. Институт научной информации в настоящее время работает над новыми формами, специально предназначенными для качественной оценки. Многие сегодня забывают, что SCI в его нынешнем виде - это не "счетчик ссылок", а библиографическое пособие. Но уже само его существование, как я отмечал, делает подсчет и сравнение показателей цитирования неизбежными. И если уж мы используем такие подсчеты для оценки деятельности ученых, организаций или чего бы то ни было, то это нужно делать корректно.

В настоящее время Институт научной информации разрабатывает инструмент, специально предназначенный для облегчения подобных оценок. Мы условно назвали его системой анализа научного цитирования. Она должна преодолеть недостатки SCI как инструмента оценки: облегчить сравнение именно между коллегами по научной специальности, решить проблему регистрации соавторов и различения однофамильцев. Она также поможет сравнивать ученых из различных дисциплин, позволяя легко выявлять различия в показателях цитирования между самими этими дисциплинами и корректно учитывать эти различия при сравнении. Предполагается усовершенствовать существующий сегодня указатель организаций, который позволяет установить организации и учреждения, представители которых печатались и цитировались в охватываемый период. К сожалению, в мире сегодня нет единых правил сообщения места работы авторов публикаций. Советские журналы в этом отношении оставляют желать лучшего и нередко вообще не сообщают никакой информации об организационной принадлежности своих авторов.

Я попытался показать, что каждый, кто хочет использовать данные о цитировании для оценки, должен отдавать себе отчет в имеющихся здесь тонкостях и ограничениях. Осмысленная оценка такого рода - процедура не слишком простая. Простого взгляда на соответствующие рубрики SCI здесь далеко не достаточно. И тем не менее общая идея использования данных о цитировании для выявления и оценки значимых научных результатов вполне правомерна. Проводимая корректно, такая оценка поможет лучше понять ход научной деятельности.

УДК 001.89(100)

Опубликовано в журнале:
Вестник Академии наук СССР, 1982, N 7, С.42-50, 3 рис.

* * *

Документ изменен: Wed Feb 27 14:54:50 2019. Размер: 50,688 bytes.
Посещение N 12974 с 17.09.1998