ДОКЛАД №10. ИНТЕРНЕТ-БИБЛИОТЕКА СМИ. CОВРЕМЕННЫЕ ТЕХНОЛОГИИ ПОИСКА И АНАЛИЗА ИНФОРМАЦИИ
Докладчик: Т.В. Корсакова, компания «Public.Ru»
Public.Ru - крупнейшая электронная библиотека русскоязычных СМИ формирует собственный архив с 2000 года. Сегодня в фондах Public.Ru доступно более 48 млн. документов из более 3500 источников – газет, журналов, информационных агентств, интернет-изданий и тематических сайтов, а также тексты программ ведущих телерадиоканалов. Ежедневно в базу загружается более 30 тысяч новых статей. География источников охватывает все регионы России, а также страны ближнего и дальнего зарубежья, такие как Украина, Белоруссия, Грузия, Латвия, Эстония, США и др. Доступны архивные материалы российских изданий , начиная с 1990 года. Адрес в сети Интернет www.public.ru
Появление Public.Ru – это ответ на бурное развитие российского медийного рынка. У проекта была цель - избавить пользователей от необходимости искать информацию в тысяче разных источников. Поиск необходимых материалов был реализован не за счет традиционного для реальной библиотеки каталога, а сквозным поиском по ключевым словам. В 2000 году независимая группа разработчиков нашла частных инвесторов, разработала и запустила проект электронной он-лайн библиотеки. Кстати, сайт www.public.ru был открыт 1 апреля.
Тогда первые пользователи электронной библиотеки получили доступ к 5 миллионам полнотекстовых электронных статей из 750 газет и журналов из всех регионов России.
Наши фонды должны отражать актуальную картину русскоязычного медиапространства. Представлены все значимые общественно-политические, деловые и специализированные издания. Загружаются издания из всех регионов России: газеты областного (республиканского, краевого) уровня; общегородские газеты; местные вкладки центральных изданий; местные общеэкономические и деловые издания; пресса, отражающая экономическую, социокультурную, конфессиональную или иную специфику региона.
В интересах профессиональных пользователей стараемся соблюсти баланс, с одной стороны, предоставить им как можно более широкий охват СМИ, с другой – свести к минимуму количество источников, дублирующих информацию других изданий, так называемых перепечаток.
При включении новых источников в фонды учитываются множество факторов: тематика издания, его целевая аудитория, ареал распространения и т.п.
Главный наш сервис – сквозной поиск с использованием ключевых слов по обширному архиву. Однако в проекте регулярно разрабатываются, тестируются и внедряются новые информационные сервисы в области статистической обработки и систематизации результатов поиска. Сейчас у пользователей уже есть возможность формировать собственные персональные коллекции статей, изданий или авторов; получать автоматическое уведомление о появлении новых статей на e-mail$ проводить статистические измерения упоминаемости темы в СМИ и анализировать результаты замеров на графиках и диаграммах.
По запросам от клиентов мы подключаем к фондам новые издания. Конечно, если источники из такой заявки не противоречат политике формирования фондов Public.Ru.
Полнота охвата
У всех компаний хорошо налажена работа с московской прессой - основные центральные издания эти базы учитывают, и тут говорить о каком-то преимуществе одного архива перед другим вообще не приходится. Но продолжительность мониторинга каждого конкретного источника или пробелы в загрузке выпусков изданий являются уникальными для каждой из рассматриваемых баз.
Существенные различия в электронных архивах начинаются тогда, когда речь заходит о региональной прессе. Процент уникальных региональных изданий в каждой из обсуждаемых баз составляет до 10%. К сожалению, более точная оценка расхождения списка региональных изданий в информационных базах российских СМИ затруднена в связи с различиями в системах учета источников, принятых в компаниях. (разные форматы- pdf и txt, разные наименования у тематических лент и приложений и т.п. )
Оперативность
Московская пресса загружается оперативно у всех компаний, но при загрузке в архивы региональной региональные СМИ попадают в электронные базы уже после обеда. Но чаще всего эти издания появляются в электронных фондах в течение трех дней после выхода тиража. И это общая проблема для всех архивов.
Достоверность и оперативность
Отметим сразу, что Public.Ru единственный, кто сканирует периодику. Этот способ формирования баз способствует не только полному соответствию электронных версий центральных изданий их печатным копиям (что особенно критично для московских изданий), но и позволяет говорить об оперативности загрузки московских источников в базу. Центральная пресса, как правило, доступна в Public.Ru к 8.00!
В случае с региональной прессой с точки зрения оперативности, предпочтительней может оказаться загрузка электронных версий изданий. Как мы уже говорили многие СМИ из числа отраслевых, региональных и т.д. попадают в этом случае в базу уже после обеда, а часто и вообще в течение 3-х дней после публикации.
В связи с разными технологиями загрузки контента в базу рассмотрим подробнее недостатки и преимущества каждого из них. Так самое уязвимое место технологии сканирования – это ошибки, которые возникают после распознавания текстов, и даже многолетний опыт «работы над ошибками» Public.Ru пока не позволил полностью решить этот вопрос. Загрузка электронных версий при чистоте самих текстов может привести к ошибкам в самом контенте – речь идет прежде всего об отсутствии напечатанной статьи в электронной версии номера или наоборот о наличии статьи в электронной версии номера, но ее отсутствии в напечатанном варианте. Повторимся при этом, что данный риск высок только для центральной прессы.
Public.Ru стремясь снизить уровень «помех» старается не загружать в свою базу рекламные модули, а также такие разделы СМИ, как погода, гороскопы, анекдоты и т.п.
|