Новини у світі

Досвід роботи бібліотеки Великобританії з веб-архівом

Кожен хто не знайомий з Британською бібліотекою вважає, що це досить застаріла установа наповнена запиленими книжками і документами, які є залишками минулої епохи, пише Дейл Віл, керуючий директор Freeform Dynamics.

Зрештою, роль бібліотеки в цілому під загрозою інтернет ЗМІ. Навіщо керувати цілою будівлею, коли у нас є такі засоби пошуку як Google і Wikipediа – пара клацань миші і інформація у нас.

Правда в тому, що Британська бібліотека має одних з найбільш досвідчених і талановитих технологів у сфері ІТ та космічного зв’язку, які застосовують передові технології для вирішення досить важливих та цікавих проблем.

Та їх місія не перенести традиційний інститут в сучасну епоху, оскільки він вже є. Дійсно, для таких напрямків роботи як оцифрування і зберігання інформації, архівування та пошуку, було б соромно створювати багато великих корпоративних ІТ-відділів. Швидкий перегляд bl.uk
надається через інтернет-огляд, хоча набагато більше відбувається за лаштунками для забезпечення роботи наукових установ і дослідників в усьому світі.

Я отримав уявлення та ознайомився з роботою, коли відвідав бібліотеку в Boston Spa кілька місяців тому, яку організував Нікк Клегг, що керує технічною архітектурною групою. Нікі спостерігає еволюцію бібліотечної архітектури інформаційних систем і очолює групу, яка забезпечує технічну експертизу архітектурних програм і проектів.

Одними з них є веб-програма архівування, яка здійснює вибіркове архівування британських веб-сайтів з 2004 року на підставі дозволів власників та в подальшому роблячи їх доступними через британський Веб-Архів. Програма підтверджує, що зараз багато чого з історії Великобританії втрачає значення в мережі. Вона також працює на передумові, що контент веб-сайту дуже часто містить не постійний характер. Будь-який дизайнер сайту або онлайн стратег ЗМІ скаже Вам, що ключ до успішного сайту – підтримка змісту свіжої, поточної і актуальної інформації для аудиторії.

Результатом є те, що сьогодні вигляд сайту і зміст у ньому, ймовірно, буде зовсім інший в порівнянні, скажімо з минулим роком. Деякі сайти можуть навіть дати інше тлумачення минулим подіям, заснованим на сучасних знаннях і обставинах. Нестійкий характер великої кількості онлайн-інформації означає, що якщо ви хочете подивитися, які поточні події були відображені в інтернеті в певні моменти часу, або навіть як популярні веб-сайти впливали на наше життя, тоді Ви маєте прийняти періодичні знімки того, що було опубліковано.

Це те, чим займається британський Веб-Архів. В політиці, наприклад, якщо ви хочете порівняти, як консервативна політична партія була представлена на www.conservatives.com напередодні останніх загальних виборах, через місяць, то сьогодні ви можете це зробити. До подібного процесу миттєвих знімків в даний час відносяться приблизно 9000 веб-сайтів, які охоплюють теми починаючи з мистецтва до чоловічого і жіночого здоров’я. Ідея полягає в тому, щоб отримати інформацію ключових сайтів та інших джерел , що представляють широку мережу Британії.

Це багато інформації, яка підвищує роль навігації. На даний момент, пошук здійснюється за змістом, назвою сайту або за переглядом спеціальної колекції. Деякі з колекцій відносяться до поточних тем, таких як “живе мистецтво” і “Енергія”, в той час як інші відповідають ключовим історичним подіям, таким як, лондонські терористичні бомбардування 2005, спалах свинячого грипу 2009 року, або загальні вибори в 2010 році. У кожній колекції ви знайдете копії сайтів створені громадськими та приватними організаціями, і навіть блоги, які відповідають темі колекції.

Так що потрібно для того, щоб управляти таким складним проектом?

Льюїс Кроуфорд, технічний керівник команди веб архівування, не вважає, це не легко. По-перше, деякі основні проблеми оформлення сайтів повинні бути розглянуті, наприклад, з чого почати при створенні копії (враховуючи, що деякі сайти мають декілька точок входу), і наскільки глибоко копіювати сайт (тобто сайт складається з багатьох рівнів). З цим пов’язане питання про “втрати інформації”, яке по суті означає, що знімки будуть незмінно містити посилання, які вирішують поточну (на відміну від історичної) версію зовнішньої інформації. Такі проблеми, які пов’язані з динамічним характером інтернету, роблять Кроуфорда і команду досить зайнятими.

Існує проблема надання дозволів на архівування веб-сайтів, враховуючи що більшість веб-сайтів містять інтелектуальну власністю. В даний час, бібліотека працює на підставі дозволів від власників, в цілому закон “Про обов’язковий примірник” передбачає надсилання друкованого примірника публікації для подальшого зберігання, однак передбачається також приймати електронні публікації. Тому можливості та потужності архівної програми будуть збільшуватися.

Поточний і майбутній масштаб проблеми зосереджує увагу на технічній архітектурі. Як Ви можете припустити, Кроуфорд і його команда зайнялися дослідженнями (та продовжують займатися дослідженнями), у всіх напрямках, включаючи хмарні обчислення. Початкові випробування з Amazon EC2 наприклад, підкинули проблеми з передачею даних, не тільки практичність переміщення великої кількості інформації, але і високі витрати постачальника послуг.

Тому поточна архітектура гібридна, з локальними серверами Tomcat під управлінням версії Wayback з відкритим вихідним кодом програмного забезпечення архівування, працюючи в тандемі з хмарною обробкою. Значна частина (або одна з них) є хостингом індексу архіву на EC2. Індекс є важливим компонентом з точки зору продуктивності і масштабованості, але дуже стислий і тому легше пересувається. Відправлення запитів індексу для швидкого вирішення в “хмарі”, але з підтриманням великого об’єму контенту виступає локальний механізм, він є гарним компромісом.

Як зазначає Кроуфорд, що вони тільки подряпини на поверхні, в порівнянні з тим що можливо з такими технологіями в даний час, але потенціал для аналізу шляху нації розвивається через дуже динамічне і більш демократичне інтернет середовище, що є дуже цікавим.

В майбутніх статтях ми будемо розглядати технічні аспекти деяких інших програм, які використовуються бібліотеками. У той же час, ключовим є те, що чи це є “cloud computing” чи ‘big data’, Британська бібліотека продемонструвала, що це має значення. Але існує проблема у деталях, коли мова йде про вирішення складних завдань . Інша справа, звичайно, в тому, що роль досвідчених і талановитих ІТ-фахівців стає ще більш значущою з розвитком техніки.

Джерело: www.computerweekly.com

Метричні книги

Адміністратор відомчої електронної пошти Державної архівної служби України

Анонси

26-28 листопада 2018 року

У 2018 році Міжнародна рада архівів відзначає Міжнародний день архівів під гаслом Щорічної конференції архівів (ALA-ICA) «Архіви: управління, пам’ять та спадщина». Місце проведення: м. Яунде, Камерун. Детальніше 

05 грудня 2018 року

Відбудуться дев’ятнадцяті джереловознавчі читання «Джерельний потенціал інформаційних ресурсів архівів», присвячені 100-річчю від дня народження професора Марка Варшавчика. Місце проведення: Київський національний університет імені Тараса Шевченка (м. Київ, вул. Володимирська, 60). Інформаційне повідомлення. Анкета.

6 грудня 2018 року

Відбудеться відкрита дискусія на тему: «Проблемні питання дотримання авторських та суміжних прав у діяльності державних архівів».
Місце проведення: конференц-зал ЦДАМЛМ України (м. Київ, вул. Володимирська, 22А).
Початок об 11.00.
Анкета учасникаДетальніше

Виставки онлайн