Новости в мире

Опыт работы библиотеки Великобритании c веб-архивом

Каждый кто не знаком с Британской библиотекой считает, что это довольно устаревшее учреждение наполнено запыленными книгами и документами, которые являются остатками прошлой эпохи, пишет Дейл Вил, управляющий директор Freeform Dynamics.

Наконец, роль библиотеки в целом под угрозой интернет СМИ. Зачем управлять целым зданием, когда у нас есть такие средства поиска как Google и Wikipediа — пара щелчков мыши и информация у нас.

Правда в том, что Британская библиотека имеет одних из самых опытных и талантливых технологов в сфере ИТ и космической связи, которые применяют передовые технологии для решения весьма важных и интересных проблем.

И их миссия не перенести традиционный институт в современную эпоху, поскольку он уже есть. Действительно, для таких направлений работы как оцифровка и хранения информации, архивирования и поиска, было бы стыдно создавать много крупных корпоративных ИТ-отделов. Быстрый просмотр bl.uk предоставляется через интернет-обозрение, хотя гораздо больше происходит за кулисами для обеспечения работы научных учреждений и исследователей по всему миру.

Я получил представление и ознакомился с работой, когда посетил библиотеку в Boston Spa несколько месяцев назад, которую организовал Никк Клегг, управляющий технической архитектурной группой. Ники наблюдает эволюцию библиотечной архитектуры информационных систем и возглавляет группу, которая обеспечивает техническую экспертизу архитектурных программ и проектов.

Одним из них являются веб-программа архивирования, которая осуществляет выборочное архивирование британских сайтов с 2004 года на основании разрешений владельцев и в дальнейшем делая их доступными через британский Веб-Архив. Программа подтверждает, что сейчас многое из истории Великобритании теряет значение в сети. Она также работает на предпосылке, что контент веб-сайта очень часто содержит не постоянный характер. Любой дизайнер сайта или онлайн стратег СМИ скажет Вам, что ключ к успешному сайту — поддержка содержания свежей, текущей и актуальной информации для аудитории.

Результатом является то, что сегодня вид сайта и содержание в нем, вероятно, будет совсем другим по сравнению, скажем с прошлым годом. Некоторые сайты могут даже дать иное толкование прошлым событиям, основанным на современных знаниях и обстоятельствах. Неустойчивый характер большого количества онлайн-информации означает, что если вы хотите посмотреть, какие текущие события были отображены в интернете в определенные моменты времени, или даже как популярные сайты влияли на нашу жизнь, тогда Вы должны принять периодические снимки того, что было опубликовано.

Это то, чем занимается британский Веб-Архив. В политике, например, если вы хотите сравнить, как консервативная политическая партия была представлена на www.conservatives.com накануне последних всеобщих выборах, через месяц, то сегодня вы можете это сделать. К подобному процессу мгновенных снимков в настоящее время относятся примерно 9000 веб-сайтов, охватывающих темы от искусства до мужского и женского здоровья. Идея заключается в том, чтоб получить информацию ключевых сайтов и других источников, представляющих обширную сеть Британии.

Это много информации, которая повышает роль навигации. На данный момент, поиск осуществляется по содержанию, названию сайта или за просмотром специальной коллекции. Некоторые из коллекций относятся к текущим темам, таким как «живое искусство» и «Энергия», в то время как другие отвечают ключевым историческим событиям, таким как, лондонские террористические бомбардировки 2005, вспышка свиного гриппа 2009 года, или всеобщие выборы в 2010 году. В каждой коллекции вы найдете копии сайтов созданные общественными и частными организациями, а также блоги, которые соответствуют теме коллекции.

Так что нужно для того, чтобы управлять таким сложным проектом?

Льюис Кроуфорд, технический руководитель команды веб-архивирования, не притворяется, это нелегко. Во-первых, некоторые основные проблемы оформления сайтов должны быть рассмотрены, например, с чего начать при создании копии (учитывая, что некоторые сайты имеют несколько точек входа), и насколько глубоко копировать сайт (т.е. сайт состоит из многих уровней). С этим связан вопрос о «потере информации», который по сути означает, что снимки будут неизменно содержать ссылки, которые решают текущую (в отличие от исторической) версию внешней информации. Такие проблемы, которые связаны с динамичным характером интернета, делают Кроуфорда и команду довольно занятыми.

Также проблема выдачи разрешений, учитывая, что многие из архивированных сайтов содержат интеллектуальную собственность. В настоящее время, библиотека работает на основании разрешений от владельцев, в целом закон «Об обязательном экземпляре» предусматривает отправку печатного экземпляра публикации для последующего хранения, однако предполагается также принимать электронные публикации. Возможности архивной программы, будут значительно больше.

Текущий и будущий масштаб проблемы сосредоточивает внимание на технической архитектуре. Как Вы можете предположить, Кроуфорд и его команда занялись исследованиями (и продолжают заниматься исследованиями), во всех направлениях, включая облачные вычисления. Начальные испытания с Amazon EC2 например, подбросили проблемы с передачей данных, не только практичность перемещения большого количества информации, но и высокие затраты поставщика услуг.

Поэтому текущая архитектура гибридная, с локальными серверами Tomcat под управлением версии Wayback с открытым исходным кодом программного обеспечения архивирования, работая в тандеме с облачной обработкой. Значительная часть (или одна из них) является хостингом индекса архива на EC2. Индекс является важным компонентом с точки зрения производительности и масштабируемости, но очень короткий и поэтому легче передвигается. Отправка запросов индекса для быстрого решения в «облаке», но с поддержанием большого объема контента выступает локальный механизм, он является хорошим компромиссом.

Как отмечает Кроуфорд, что они только царапины на поверхности, по сравнению с тем, что возможно с такими технологиями в настоящее время, но потенциал для анализа пути нации развивается через очень динамическую и более демократическую интернет среду, что является очень интересным.

В будущих статьях мы будем рассматривать технические аспекты других программ, используемых библиотеками. В то же время, ключевым является то, что или это «cloud computing» или ‘big data’, Британская библиотека продемонстрировала, что это имеет значение. Но существует проблема в деталях, когда речь идет о решении сложных задач. Другое дело, конечно, в том, что роль опытных и талантливых ИТ-специалистов становится еще более значимой с развитием техники.

Источник: www.computerweekly.com

Метричні книги

Администратор ведомственной электронной почты Государственной архивной службы Украины

Анонсы

26-28 ноября 2018 года

В 2018 году Международный совет архивов отмечает Международный день архивов под лозунгом Ежегодной конференции архивов (ALA-ICA) «Архивы: управление, память и наследие». Место проведения: г. Яунде, Камерун. Подробнее 

05 декабря 2018 года

Состоятся девятнадцатые источниковедческие чтения «Источниковедческий потенциал информационных ресурсов архивов», посвященные 100-летию со дня рождения профессора Марка Варшавчика. Место проведения: Киевский национальный университет имени Тараса Шевченко (г. Киев, ул. Владимирская, 60). Информационное письмо. Анкета.

Выставки онлайн