В elibrary появилась возможность удобного поиска непривязанных публикаций автора с использованием нейросети.
Использование нейросети для идентификации авторов публикации
Задача автоматической идентификации авторов в публикациях и ссылках - одна из самых сложных в базах данных научного цитирования. Особенно, если учесть, что и в публикациях, и, тем более, в ссылках часто вместо имени и отчества указываются только инициалы, а то и вообще только первый инициал. При этом, например, среди зарегистрированных авторов на eLIBRARY.RU Иванов А.В. встречается 255 раз. Да и полное совпадение фамилии, имени и отчества для распространенных фамилий встречается десятки раз. Как определить, что именно этот ученый является автором данной публикации?
Обычно для идентификации автора используется дополнительная информация, представленная в публикации: его аффилиация, адрес электронной почты, коды ORCID, SPIN, информация о соавторах, о цитирующих и цитируемых публикациях и т.д. Однако часто этой информации в публикации недостаточно для однозначной идентификации, особенно авторов с распространенными фамилиями. Например, в крупной организации вполне может работать несколько полных однофамильцев. То же самое относится и к ссылкам, где задача идентификации авторов еще сложнее, поскольку дополнительной информации вообще минимум (по сути, есть только информация о цитируемой публикации и соавторах).
В результате, такие публикации и ссылки остаются непривязанными к автору, и это приходится делать вручную. В Science Index для поиска и привязки таких публикаций есть специальный интерфейс для авторов, представителей организаций и издателей. На странице со списком публикаций ученого можно выбрать режим "Показывать непривязанные публикации, которые могут принадлежать данному автору". Будут выведены все публикации, где указан автор с такой же фамилией и инициалами. Автор может просмотреть этот список, выделить свои работы и включить их в список своих публикаций.
Задача осложняется тем, что для распространенных фамилий этот список может включать тысячи и даже десятки тысяч публикаций. И автору приходится просматривать весь этот длинный список, чтобы найти там свои работы. И здесь на помощь опять приходит нейросеть. Ее внедрение на платформе eLIBRARY.RU позволяет сильно упростить эту работу. Теперь на странице со списком публикаций ученого можно использовать сортировку по тематической близости публикации к другим работам автора. В результате, публикации, которые максимально похожи по тематике на те, которые уже включены в авторский профиль, будут показываться в начале списка.
Для удобства мы также добавили специальный индикатор тематической близости для каждой публикации. Если этот индикатор находится в зеленом диапазоне, то публикация с большой вероятностью относится к данному автору, если в красном - то скорее всего это не его публикация. В промежуточном желтом диапазоне публикации автора также могут встречаться, поэтому стоит его тоже просмотреть.
Сортировку по тематической близости можно использовать и в режиме вывода списка уже включенных в профиль ученого публикаций. Так можно найти, например, публикации, менее всего похожие на другие работы автора и, возможно, ошибочно включенные в профиль. Они будут показаны в начале списка, если выбрать сортировку по возрастанию тематической близости.
Использование сортировки по тематической близости, конечно, замедляет вывод результатов поиска, поскольку требует дополнительных вычислений. Поэтому мы не рекомендуем использовать этот режим постоянно. Однако для длинных списков это дает в конечном счете существенную экономию времени при поиске непривязанных публикаций.