Archiving websites - Fachhochschule Potsdam
Transcription
Archiving websites - Fachhochschule Potsdam
Fachhochschule Potsdam University of Applied Sciences Fachbereich Informationswissenschaften Diplomarbeit zur Erlangung des Titels Diplom-Archivarin (FH) Archiving websites Archivierungskonzept für das Intranet der Dresdner Bank AG Vorgelegt von: Antje Schlieter Matr. Nr. 3128 Käthe-Kollwitz-Str. 19 01477 Arnsdorf Email: [email protected] Gutachter: 1. Prof. Dr. Volker Schockenhoff 2. Prof. Dr. Hartwig Walberg Bearbeitungszeitraum: 1. April – 1. Juli 2003 Vorwort Die Entwicklung des Archivierungskonzepts ist ein Ergebnis der guten Zusammenarbeit sowohl zwischen den Archiven als auch zwischen dem Historischem Archiv, der Intranetredaktion und der IT-Abteilung in der Dresdner Bank. Einen ganz besonderen Dank geht an folgende Personen: - Wolfgang Richter (Historisches Archiv) - Dirk Lixfeld (Leiter der Intranetredaktion) - Alexander Wolf (Leiter des IT-Support´s) - Bruno Pasqualotto (Mitarbeiter in der Intranetredaktion) - Daniel Oehler (Entwickler des HTML-XML-Konve rters) - Rudolf Schmitz (Archiv der sozialen Demokratie in Bonn) Die vorliegende Diplomarbeit wurde im Auftrag des Historischen Archivs der Dresdner Bank AG geschrieben. Die Nutzungsrechte Arbeitsergebnisse liegen uneingeschränkt bei dem Unternehmen. der Inhaltsverzeichnis 1. Einleitung ...............................................................................................1 2. Das Historische Archiv der Dresdner Bank und die Archivierung des Intranets ................................................................2 2.1 2.2 Ein Beispiel......................................................................................2 Das Projekt.......................................................................................3 3. Die Durchführung ................................................................................5 3.1 Vorbereitung ....................................................................................5 3.1.1 Das Projekt "Internet Archiv" im Archiv der sozialen Demokratie .............................................................................6 3.2 Analyse und Tests in der Intranetredaktion.....................................8 3.3 Abschlussbesprechung.....................................................................9 4. Archivierung von Webseiten ..........................................................10 4.1 4.2 4.3 4.4 4.5 Allgemeines ...................................................................................10 Projekte ..........................................................................................10 Herangehensweisen .......................................................................11 Metadaten ......................................................................................12 Technische Fragen.........................................................................14 5. Das Intranet der Dresdner Bank AG.............................................15 5.1 Definition des Begriffes Intranet ...................................................15 5.2 Bedeutung des Intranets für die Dresdner Bank ............................15 5.3 Entwicklung ...................................................................................16 5.4 Verantwortlichkeiten .....................................................................17 5.5 Angebote im intranet der Dresdner Bank ......................................18 5.5.1 Das Portal..............................................................................18 5.6 Verwaltung der Informationen ......................................................20 5.7 Publikation der Webcontents .........................................................20 5.7.1 Contents des Intranets ...........................................................20 5.7.2 Webpublishing-Prozess mit dem Content-ManagementSystem...................................................................................22 5.7.3 Das CMS "infosite" ..............................................................24 5.8 Der Intranet-Styleguide .................................................................24 5.8.1 Der Styleguide 2.1 ................................................................25 5.8.3 Der Styleguide 3.0 ................................................................27 5.9 Schlussfolgerung............................................................................28 6. Ablauf der Archivierung ..................................................................30 6.1. Archivierungsstrategien für das Intranet .......................................30 6.2 Ablauf der Archivierung des Intranets der Dresdner Bank ...........34 7. Die Bewertung .....................................................................................39 7.1 Ziel der Bewertung ........................................................................39 7.2 Bewertungsrichtlinien in Archiven................................................40 7.3 Bewertungsrichtlinien für (Teile von) Websites............................43 7.3.1 Auswahlkriterien für Online-Publikationen .........................43 7.3.2 Risikoeinschätzung ...............................................................47 7.4 Bewertungsstrategien.....................................................................51 I 7.5 Bewertung des Intranets der Dresdner Bank AG ..........................51 7.5.1 Allgemeines ..........................................................................51 7.5.2 Bewertungskriterien..............................................................52 7.5.3 Spiegelungsintervalle............................................................58 7.5.4 Spiegelungstiefe....................................................................60 7.5.5 Bewertung von CC UK ........................................................ 61 7.6 Zusammenfassung .........................................................................64 8. Die Spiegelung .....................................................................................66 8.1 Teleport Pro ...................................................................................67 8.1.1 Zusammenfassung der Tests mit Teleport Pro .....................68 8.2 HTTrack.........................................................................................69 8.2.1 Zusammenfassung der Tests mit HTTrack ...........................70 8.2.2 Fazit ......................................................................................71 8.3 Ansicht im Browserfenster ............................................................71 8.4 Offene Fragen................................................................................72 9. Sicherung und Erhaltung des Intranet-Archivs ...........................74 9.1 Allgemeines ...................................................................................74 9.2 Dateiformate für die Archivierung ................................................76 9.2.1 Archivierung von Daten mit XML.......................................77 9.3 Archivierungsstrategien.................................................................81 9.3.1 Migration von webbasierten Aufzeichnungen......................82 9.3.2 HTML-XML-Konverter .......................................................83 9.4 Fazit................................................................................................85 10. Zusammenfassung .............................................................................86 10.1 Empfehlungen für den Styleguide 3.0 ...........................................88 10.2 Fazit ...............................................................................................89 Glossar ........................................................................................................90 Literatur- und Quellenverzeichnis .......................................................93 Quellen im Intranet der Dresdner Bank ..................................................98 Anhang………...................................................................................99 II Abkürzungsverzeichnis BRAIN Bankwide Resources And Information Network „dresdner brain“ BINGO Business Information Goes Online CC Corporate Center (der Dresdner Bank AG) CC UK Corporate Center Unternehmenskommunikation CC UK IK Corporate Center Unternehmenskommunikation Interne Kommunikation CC UK IT Corporate Center Unternehmenskommunikation Informationstechnologie CD-ROM Compact Disc Read Only Memory CMS Content-Management-System CSS Cascading Style Sheets DVD Digital Versatile Disc HTML Hypertext Mark-up Language MIS Markinformationssystem SGML Standardized Generalized Mark-up Language TCP/IP Transmission Control Protocol/Internet Protocol URI Uniform Resource Identifier URL Uniform Resource Locator XSL Extensible Stylesheet Language XML Extenxible Mark-up Language XHTML Extensible Hypertext Mark- up Language W3C Word Wide Web Consortium III Tabellen- und Abbildungsverzeichnis Tab. 1 Tab. 2 - Archiving websites – Projekte Tabellarische Übersicht zur Darstellung und Verwaltung der Intranetangebote 99 102 Abb. 1 Abb. 2 - Abb. 3 Abb. 4 Abb. 5 - 104 105 106 107 108 Abb. 6 Abb. 7 Abb. 8 Abb. 9 - Metadata-Elemente des Dublin Core-Standards Das Intranet der Dresdner Bank – das erste Portal Wie kommen meine Informationen ins Netz? Das Intranet der Dresdner Bank – das Portal Das Intranet der Dresdner Bank - diverse Screenshots Schema des Webpublishing´s mit einem CMS Funktionsweise von Vorlagen (Templates) Content Life Cycle Meta-Tags im Styleguide 2.1 und deren Anwendung Auszüge aus dem Styleguide 3.0 Archivierungsablauf für das Intranet der Dresdner Bank AG Stadsarchief Antwerpen: Metadataschema voor gearchiveerte websites (NL/ [D]) Beispiele für die Online-Benutzung von Webarchiven Zuständigkeiten der National Library of Australia und der National Archives of Australia bei der Archivierung webbasierter Aufzeichnungen Faktoren für die Risikoanalyse der National Archives of Australia Corporate Center Unternehmenskommunikation Grafische Darstellung der Bewertung nach der Besprechung mit Herrn Pasqualotto Corporate Center Unternehmenskommunikation – Grafische Darstellung über die Umsetzung der Bewertung nach der Spiegelung Corporate Center Unternehmenskommunikation im Intranet – Screenshots zur Spiegelung mit HTTrack Teleport Pro – Screenshots der „Project Properties“ HTTrack - diverse Screenshots Das Intranet der Dresdner Bank – das gespiegelte Portal Vergleich zwischen HTML- und XML-Dokumenten Der Ablauf des HTML-XML-Konverters Abb. 10 Abb. 11 Abb. 12 Abb. 13 Abb. 14 - Abb. 15 Abb. 16 - Abb. 17 - Abb. 18 Abb. 19 Abb. 20 Abb. 21 Abb. 22 Abb. 23 - 110 110 110 111 112 113 114 115 116 117 118 120 122 123 124 125 126 127 IV Einleitung 1. Einleitung Die Entwicklung der Webtechnologie bringt neue Perspektiven mit, die auch auf die Archive zukommen und Teil der überlieferungsbildenden Aufzeichnungen darstellen. Bisher wird jedoch die Archivierung von Websites nur von wenigen Archiven bzw. Bibliotheken durchgeführt. Dieser Herausforderung will sich das Historische Archiv der Dresdner Bank stellen und mit der dauerhaften Bewahrung des Intranets, dem internen Informationsnetzwerk des Unternehmens, beginnen. Im Rahmen der vorliegenden Diplomarbeit wurde ein Ablauf zur Archivierung des Intranets der Dresdner Bank AG entwickelt. Softwareprodukte wurden zusammen mit den Mitarbeitern aus der Intranetredaktion sowie der IT-Abteilung getestet und ausgewählt. Bewertungskriterien wurden entwickelt und deren Umsetzung mit der Anwendung des Softwareproduktes nachverfolgt. Für die Erhaltung der webbasierten Aufzeichnungen über einen längeren Zeitraum wird eine Migrationsmethode vorgestellt, die im Auftrag der Allianz AG entwickelt wurde und für Webseiten des Intranets angepasst werden könnte. Mit der Darstellung der Untersuchungsergebnisse werden Empfehlungen für die Archivierung des Intranets gegeben. Nicht alle Arbeitsschritte, die für die dafür erforderlich sind, können mit der vorliegenden Arbeit eindeutig geklärt werden. Denn die Archivierung von Websites bietet noch viele Möglichkeiten für weitere Entwicklungen auf diesem Fachgebiet. 1 Das Historische Archiv der Dresdner Bank und die Archivierung des Intranets 2. Das Historische Archiv der Dresdner Bank und die Archivierung des Intranets Das Intranet der Dresdner Bank besteht seit 1996. Es enthält in den mehr als 600.000 Webseiten zunehmend Informationen, die nach Ansicht des Historischen Archivs Archivwert besitzen. Zu beobachten ist, dass Nachrichten, Pressemittelungen, aktuelle Geschäftsinformationen sowie interne Rundschreiben, die bisher vollständig im Archiv aufbewahrt wurden, mittlerweile nur noch online über das Intranet verfügbar sind. Hybridüberlieferungen1 sind vor allem bei den Rundschreiben, Geschäftsinformationen und Nachrichten am wenigsten zu erwarten. Es kann nicht davon ausgegangen werden, dass die einzelnen Unternehmensbereiche, die für die Inhalte bestimmter Intranetangebote selbst verantwortlich sind, diese auch selbst verwalten und dauerhaft sichern. Wie kommen nun die Informationen in das Historische Archiv der Dresdner Bank? Theoretisch könnten diese digitalen Informationen nach Ablauf der gesetzlichen Aufbewahrungsfrist von den Abteilungen des Unternehmens dem Archiv angeboten werden. Die Abteilungen sind jedoch gesetzlich nicht dazu verpflichtet. Demnach besteht für das Archiv die Gefahr, erst nach mehreren Jahren nicht mehr interpretierbare, unvollständige oder gar keine digitale Informa tionen zu bekommen. Schließlich existiert auch das Problem rückwirkend die Informationen in den ursprünglichen Zusammenhang darzustellen. Technisch ist dies nur mit einem sehr hohen Aufwand verbunden, das noch keine Garantie für eine authentische Überliefe rung ist. Deshalb muss das Archiv bereits während der Publikationsphase im Intranet agieren! 2.1. Ein Beispiel Ein Beispiel aus der jüngsten Vergangenheit soll das Dilemma künftiger Nutzer verdeutlichen. Seit Mitte der 90er Jahre führte die Dresdner Bank 1 Bei Hybridüberlieferungen existieren sowohl analoge als auch digitale Aufbewahrungsformen nebeneinander. 2 Das Historische Archiv der Dresdner Bank und die Archivierung des Intranets Fusionsgespräche mit verschiedenen Kreditinstituten, die jedoch scheiterten. Im März 2001 bestätigten die Allianz und die Dresdner Bank, Gespräche zur Schaffung eines integrierten Finanzdienstleisters zu führen. Im Juli übernahm dann die Allianz Group die Mehrheit des Aktienkapitals der Dresdner Bank. Zu dieser Zeit bestand das Intranet bereits. Es gab Auskunft über den aktuellen Stand der Verhandlungen. Wäre es für die Forschung nicht interessant zu wissen, wie die aktuelle Situation intern den Mitarbeitern im Intranet vermittelt wurde und wie sich die Reaktionen darauf gestalteten? Im Intranet sind sicherlich unter der Rubrik „Archiv“ Informationen zu dem Thema aus Nachrichten, Presseschau, Web-TV und „inside“ 2 verfügbar. Sie stehen aber nicht im damaligen Kontext des Intranets. Obwohl die Informationen des „Archivs“ seit 2001 in dem jetzigen ContentManagement-System noch vorliegen, ist es z. B. nicht möglich die vergangenen Nachrichten mit dem damaligen Börsenkurs anzuzeigen. Die ursprünglichen Zusammenhänge sind nicht wieder herstellbar. 2.2. Das Projekt Die Bemühungen für die dauerhafte Aufbewahrung des Intranets bestanden seitens des Historischen Archivs seit dem Frühjahr/Sommer 2002. Es existierten bisher jedoch keine genauen Vorstellungen, wie dieses Vorhaben realisiert werden sollte. Dazu soll diese Diplomarbeit einen entscheidenden Teil dazu beitragen, um Methoden und Lösungswege aufzuzeichnen. Ziel des Archivs ist es, dass die Charakteristik des Mediums erhalten bleibt, so dass eine Navigation und Recherche innerhalb des archivierten Teils des Intranets möglich ist. Die archivierten Aufzeichnungen müssen authentisch, zuverlässig, lesbar und interpretierbar sein. Das heißt, es muss gewährleistet sein, dass die ursprünglichen strukturellen Zusammenhänge, die Kontextinformationen und der Inhalt dem originalen Intranetauftritt 2 „inside“ ist eine Zeitschrift, die während der Fusionsgespräche publiziert wurde. 3 Das Historische Archiv der Dresdner Bank und die Archivierung des Intranets entspricht 3 und im Zuge der Archivierung nicht geändert wird bzw. manipulierbar ist. Technische Angaben über erforderliche Hardware- und Softwarekomponenten für die Lesbarkeit und Interpretation der Informationen müssen zusätzlich verfügbar sein. Deshalb sind weitere Metadaten sowohl aus dem Quellcode der Webseiten in Form der MetaTags als auch während des Archivierungsprozesses unbedingt notwendig. Für die Archivierung des Intranets soll auch die Migrationsstrategie eine wichtige Rolle spielen. Primär soll vorerst nichtkorrektes HTML in XHTML umgewandelt werden. Zur Realisierung von Migrationen bestehen allerdings noch keine Erfahrungen im Archiv der Bank. Für die Benutzung gibt es noch keine genaueren Vorstellungen. Herr Richter, Ansprechpartner im Historischen Archiv, schlug vor, dass die Snapshots über das Intranet für die Mitarbeitern der Dresdner Bank abrufbar sein könnten. Die einzelnen Optionen für das Online-Webarchiv müssten aber noch abgesprochen werden. Fest steht, dass eine Benutzung im Historischen Archiv möglich sein soll. Anregungen können sich aus denn bestehenden Webarchiven entnommen werden. Der Archivierungsprozess setzt die Festlegung von Abläufen und Verantwortlichkeiten voraus. Beides ergibt sich nach der Diplomarbeit. Das Archivierungskonzept sollte zudem so entwickelt werden, dass es auch für die Archivierung des Internets anwendbar ist. Wie aus den einzelnen Ideen und Vorstellungen des Historischen Archivs ein realisierbarer Ablauf für die Archivierung des Intranets der Dresdner Bank AG entstand, wird in den kommenden Kapiteln näher beschrieben. 3 Vgl. Kapitel 7.2. „Characteristics of a record“ (ISO 15489-1, 2001, S. 7). Nach dem ICA Guide bestehen elektronische Aufzeichnungen aus Inhalt, Kontext und Strukturangaben, die zusammen die Geschäftstätigkeit beweisen. „A record is recorded information produced or received in the initiation, conduct or completion of an institutional or individual activity and that comprises content, context and structure to provide evidence of the activity.” (Kapitel 2.1. in: ICA, Guide, 1997) 4 Die Durchführung 3. Die Durchführung 3.1 Vorbereitung Um dem beschriebenen Archivierungsziel näher zu kommen, fanden im Vorfeld Besprechungen mit Herrn Richter aus dem Historischen Archiv im September 2002 statt. Im November wurde ein weiteres Treffen zusammen mit dem Leiter der Intranetredaktion, Herr Lixfeld und dem Leiter für den IT-Support, Herrn Wolf, durchgeführt. In den Gesprächen wurden Ziele, Probleme und Lösungsansätze des Projektes benannt und diskutiert. Angesprochen wurden die Probleme der Datenverwaltung und der Speicherformate, vor allem HTML und XHTML. Schwerpunktmäßig sollte für die Diplomarbeit vorerst die „dresdner brain“ analysiert, bewertet und archiviert werden. Um die nötigen Untersuchungen durchzuführen, war ich eine Woche in der Intranetredaktion tätig. Während der Untersuchung hat sich der Schwerpunkt durch den Einsatz funktionsreicher Spiegelungssoftware auf den Ablauf der Archivierung verlagert. Als Vorbereitung für die Untersuchung in der Intranetredaktion informierte ich mich über bereits laufende Projekte zur Archivierung von Websites, um genauere Vorstellung über die Vorgehensweisen zu bekommen. Die überwiegende Mehrheit solcher Projekte wird von Bibliotheken betreut, die entweder nur Teile von Webseiten (z. B. elektronische Publikationen) oder Webseiten eines länderspezifischen Teils des Internets auf Dauer sichern. Einzelne ausgewählte Websites werden in den wenigsten Fällen archiviert. Im deutschsprachigen Raum sind fast gar keine Projekte solcher Art zu finden. In der Fachzeitschrift Der Archivar wurde über das Projekt „Internet Archiv“ im Archiv der sozialen Demokratie in Bonn berichtet 4 . Nach meiner Auffassung ist es derzeit das einzige Webarchivierungsprojekt in Deutschland. Dieses konnte ich vor Ort anschauen. 4 Vgl. Schmitz, Archivierung, 2002. 5 Die Durchführung 3.1.1 Das Projekt „Internet Archiv “ im Archiv der sozialen Demokratie Das Projekt „Internet Archiv“ besteht seit 1998 im Archiv der sozialen Demokratie, Abteilung Digitale Sammlung. Das Ziel des Projektes ist, die Internetauftritte der SPD zu archivieren und diese auf Dauer zu sichern. Dazu gehören die Bundestagsfraktion Auftritte und der der SPD 16 auf Bundesebene, Landesverbände mit der ihren Untergliederungen sowie die Webauftritte der Friedrich- Ebert-Stiftung, u.a. mit der Sonderseite zur Europawahl und des Archivs der sozialen Demokratie. Um die Charakteristik der Webtechnologie beizubehalten, so dass die Funktionalitäten der Navigation, Javascripten, Links und andere Besonderheiten erhalten bleiben, wird der gesamte Internetauftritt mit Teleport Pro gespiegelt 5 . Bei der Auswahl der Archivierungsmethode war für das Archiv wichtig, dass, im Gegensatz zu einem einfachen Download oder der Kopie von Dateien, die ursprünglichen Zusammenhänge erhalten bleiben. Die Kriterien für die Spiegelungsintervalle und –tiefe sind noch nicht festgelegt. Besonders die Spiegelungsintervalle sind Ziele, die noch im Rahmen eines Projektes angestrebt werden. Bisher wurden die Internetauftritte auf Bundesebene dreimal, auf Landesebene zweimal gespiegelt, die mit individuell festgelegten Terminen (z. B. bei Wahlkämpfen) ergänzt werden. Die Spiegelungstiefe richtet sich in erster Linie nach der zu spiegelnden Ausgangsseite. Allgemein wird davon ausgegangen, dass bei der Spiegelung der Startseite eine tiefergehende Linkebene gewählt wird. Innerhalb des selben Pfades wird für die Startseite von www.spd.de eine Linktiefe von sieben Ebenen angegeben. Die Spiegelung dauert je nach Einstellung nur wenige Minuten. Das heruntergeladene Ergebnis wird auf Links überprüft, die von der Software nicht weiter verfolgt Protokollmöglichkeit wurden. bietet, wird Da der Teleport Pro selbst Archivierungsprozess keine analog protokolliert. Im folgenden Schritt werden die Dateien für das Brennen aufbereitet. Von dem gespiegelten Internetauftritt wird ein Index erstellt, der mit den Daten 5 Zum Begriff „Spiegelung“ siehe S. 11f. und S. 67. 6 Die Durchführung anschließend auf CD-ROM geschrieben wird. Das Ergebnis auf CD-ROM wird abschließend mit der gespiegelten Datenmenge verglichen. Das ausgewählte Speichermediums bereitet einige Schwierigkeiten, da zusätzliche und zeitaufwendige Arbeitsschritte erforderlich sind 6 . Nach Ansicht von Herrn Schmitz stellt nicht die Speicherkapazität7 des Speichermediums das Problem dar, sondern die begrenzte Länge der Verzeichnungskette. Die Begrenzung verhindert das Abspeichern von Dateien mit langen Pfadnamen. Deshalb wird eine Komprimierung der Datenmenge, die auf das Medium gebrannt werden soll, durchgeführt. Denn die Dateien werden anschließend als Ganzes betrachtet, so dass die Länge der Dateinamen kein Problem mehr darstellt. Für die Präsentation wird vor die archivierte Website eine Eingangsseite gestellt. Sie enthält: Name, Signatur, Datum sowie die Funktionen „Seite anzeigen“, „Recherche in der Seite“ und „Beenden“. Für die Darstellung der archivierten Seiten wird der entsprechende Browser und für die eingebundenen Formate die entsprechenden Programme benötigt (Acrobat Reader, Word o.a.). Wird die Rechercheoption ausgewählt, erscheint dem Benutzer ein gewohntes Bild, wie es bei Suchmaschinen üblich ist. Die Treffer werden in einem Ranking mit dem Link angezeigt. Eine Migrationstrategie besteht zur Zeit noch nicht. Ferner werden die archivierten Snapshots nicht mit einer Archivsoftware verwaltet. Sie werden einerseits über die Verzeichnungsstruktur auf der Festplatte verwaltet und andererseits auf CD-ROM gespeichert. Um eine genaue Vorstellung von dem Spiegelungsprozess zu bekommen, hat Herr Schmitz einen Test von dem Internetauftritt der Dresdner Bank AG www.dresdner-bank.com durchgeführt. Für die Spiegelung wurde eingestellt: eine Linktiefe von 3 Ebenen, alle Arten vorhandener Inhalte sowie ein externer Link. Die Spiegelung war nach ungefähr fünf Minuten 6 Nach Meinung von Herrn Schmitz würde er aus heutiger Sicht nicht mehr CD als Speichermedium empfehlen, sondern Magnetbänder (Streamer) verwenden. 7 Die Speicherkapazität einer CD-ROM beträgt ca. 650 MB (Stichwort „CD-ROM“ in: Barnert, Brockhaus, 2003). Eine Spiegelung vom 22.11.01 umfasste 486 MB. (SCHMITZ, S. 136) 7 Die Durchführung abgeschlossen. Im Ergebnis wurden von 1440 gefundenen Dateien 1332 angenommen, die insgesamt knapp 100 MB umfassten. Was mit den restlichen Dateien passiert, konnte nicht geklärt werden. Die Präsentation des Projektes und die Durchführung einer Spiegelung waren sehr hilfreich für das weitere Vorgehen, für die Untersuchung in der Intranetredaktion der Dresdner Bank. 3.2 Analyse und Tests in der Intranetredaktion Vom 10.-14. Februar 2003 führte ich daraufhin Untersuchungen in der Intranetredaktion der Dresdner Bank AG durch, um mich genauer mit dem Intranet, dessen Aufbau, deren Verantwortlichkeiten, der eingesetzten Technik und der Verwaltung von Intranetinhalten auseinander zu setzen8 . Daraus waren Bewertungsentscheidungen und eine Archivierungsmethode abzuleiten. Herr Pasqualotto (Ansprechpartner in der Intranetredaktion für das Publizieren der Inhalte mit dem CMS) führte mich in die Komplexität des Intranets ein. Er zeigte mir an einem Beispiel, wie die Inhalte über das Content-Management-System (CMS)„infosite“ publiziert werden. Neben der Bewertung des gesamten Intranetauftrittes und deren Kategorien wurde an einem Einzelbeispiel, dem Intranetauftritt von dem Corporate Center Unternehmenskommunikation (CC UK), Bewertungskriterien aus archivischer Sicht mit denen des IT-Fachpersonals verglichen und schließlich deren Umsetzung mit der ausgewählten Spiegelungssoftware verfolgt. Die Ergebnisse werden im Kapitel „Bewertung“ ausführlich dargestellt. Die Auswahl der Spiegelungssoftware wurde gemeinsam mit den Kollegen der Intranetredaktion (Herr Pasqualotto), des IT-Bereichs (Herr Wolf) und des Historischen Archivs (Herr Richter) durchgeführt. Zur Auswahl standen die am häufigsten gewählten Softwareprodukte, die bereits in 8 Die dargestellten Ergebnisse sind aus dem Zeitraum der Untersuchung. Änderungen im Intranet, die später durchgeführt worden sind, werden nicht mehr berücksichtigt. 8 Die Durchführung Webarchivierungsprojekten angewendet werden. Das sind Teleport Pro und HTTrack. Nach mehreren Testläufen mit der Startseite des Intranets wurde sich für HTTrack entschieden. Anschließend wurden mit HTTrack Spiegelungstests mit verschiedenen Einstelllungen durchgeführt. Detaillierte Ausführungen sind im Kapitel „Spiegelung“ nachzulesen. Ein weiterer Schwerpunkt der Untersuchung lag in der Frage, wie die gespiegelten Dateien dauerhaft gesichert und erhalten werden können. Mit dem Ziel, diese Informationen den kommenden Generationen zur Verfügung zu stellen, ging es um das Problem, wie HTML-Dateien nach XHTML konvertiert werden können. Die Migration sollte ohne bzw. mit sehr geringem Informationsverlust schnell durchführbar sein. Das ist nach Ansicht von Herrn Oehler möglich. Er ist Entwickler eines HTML-XMLKonverters, der im Auftrag der Allianz AG entstand. Den Konvertierungsprozess konnte ich zusammen mit Herrn Richter anschauen. Genaueres ist im Kapitel „Sicherung und Erhaltung von Webseiten“ zu erfahren. 3.3 Abschlussbesprechung Nachdem die Ergebnisse der Untersuchung für das Projekt zur Archivierung des Intranets der Dresdner Bank in einem Entwurf der Diplomarbeit zusammengetragen und weiterentwickelt wurden, fand abschließend eine Besprechung mit den Verantwortlichen aus dem Historischen Archiv und des IT-Support´s statt. Demnach wird das Projekt nach der Untersuchungsphase fortgeführt. Das entwickelte Archivierungskonzept, der Archivierungsablauf für das Intranet und die Bewertungskriterien sind für die Dresdner Bank umsetzbar. 9 Archivierung von Webseiten 4. Archivierung von Webseiten 4.1 Allgemeines Die Webtechnologie hat sich seit Anfang der 90er Jahre des vergangenen Jahrhunderts rapide entwickelt. Es werden immer mehr Informationen über das Web verteilt und sind einer immer breiter werdende Masse an Benutzern zugänglich. Die Informationen verschwinden sehr schnell. Im Internet ändern sich Webseiten durchschnittlich alle zwei bis fünf bzw. zwei bis sechs Monate 9 . Die Computertechnologie wechselt so schnell, dass nach Meinung der National Library of Australia die Schnittstellen zwischen den Systemen, die technischen Standards und die Dateistrukturen alle 20 Jahre völlig anders sind als heutzutage 10 . Das fordert Bibliothekare und Archivare heraus. Denn auch diese Informationen sollten nicht nur für die Gegenwart sondern auch für zukünftigen Generationen erhalten bleiben. Rhetorisch stellt Johan Mannerheim die Frage, ob nicht auch historisches Interesse an wertvollen Informationen bestehe, die im World Wide Web (bzw. hier im Intranet) zu finden sind. Deshalb ermutigt er Bibliothekare mit seinem Tagungsbeitrag „The WWW and our digital heritage – the new preservation tasks of the library community“ zur dauerhaften Aufbewahrung von Webseiten11 . 4.2 Projekte Der Anstoß für die Archivierung von Webseiten kam aus dem Bibliotheksbereich, wie die Projekte 12 zeigen. Mitte der 90er Jahre des vorigen Jahrhunderts begannen einige Bibliotheken mit der Sicherung von Online-Publikationen. Auf dieser Grundlage entstanden Projekte für die Archivierung von einzelnen Websites. Zu nennen ist hier besonders das PANDORA-Projekt (Preserving and Accessing Networked Documentary Resources of Australia) der National Library of Australia. Die National Archives of Australia archivieren dabei Websites der CommonwealthRegierung. Weitere Meilensteine sind die Archivierung von Internetseiten 9 Die Angaben zur durchschnittlichen Lebensdauer variieren ein wenig. Vgl. 2-6 Monate nach: Masanès, Web Archiving, 2002; 3-5 Monate nach: Mannerheim, heritage, 2000. 10 Vgl. NLA, PANDORA, 2001. 11 Mannerheim, heritage, 2000. 12 Vgl. Tab. 1: Archiving websites – Projekte. 10 Archivierung von Webseiten durch „The Internet Archive“, die Archivierung des schwedischen Internets im Kulturarw3-Projekt, sowie die Gründung der Vereinigung EWA (European Web Archive) und der Vereinigung europäischer nationaler Bibliotheken NEDLIB (Networked European Deposit LIBrary) zur Entwicklung einer Infrastruktur für digitale Publikationen. Aus diesen Projekten der Zusammenarbeit gehen weitere Projekte hervor. Archive sind auf dem Fachgebiet noch eindeutig unterrepräsentiert. Es ist aber auch festzustellen, dass die Archivierung der Websites immer mehr zum Thema wird 13 . 4.3 Herangehensweisen In den bereits laufenden Projekten zur Archivierung von Webseiten wird zwischen zwei Vorgehensweisen unterschieden. Die eine wird oft als „comprehensive approach“ 14 (vollständige Herangehensweise), die andere als „selective approach“ (auswählende Herangehensweise) bezeichnet 15 . Die vollständige Herangehensweise stellt die Sichtweise von Computerfachleuten dar, deren Schwerpunkt es ist, eine Technologie zu benutzen, um Informationen zu verlinken. Hierbei liegt der Fokus auf der Entwicklung von Suchmaschinen. Diese Strategie setzt bereits vorhandene Technik ein, die bei Suchmaschinen wie Google oder Altavista angewendet werden. Auf eine Anfrage des Benutzers wird mit einem „Web crawler“, auch „Web harvester“ (Engl: Ernter, von „Ernten“ abgeleitet) genannt, das gesamte Web nach einem vordefinierten „web space“ durchsucht, z. B. *.de, *.com, *.dresdner.net. Das Ergebnis wird in einem Ranking dargestellt. Diese URL-Seiten werden „geholt“ und auf eingebettete Links analysiert. Das „Ernten“ von Webseiten wird erst beendet, wenn alle URLs des vordefinierten Bereichs abgefragt wurden. 13 Vgl. Schmitz, Archivierung, 2002. Auch auf der Jahrestagung 2003 der Vereinigung deutscher Wirtschaftsarchivare e.V. berichtete Frau Dr. Helen Müller, dass das Historische Archiv der Bertelsmann AG sich mit dieser Problematik auseinandersetzen muss. 14 Im Englischen wird diese Herangehensweise bezeichnet als „comprehensive approach“ oder auch „bulk approach“. Julien Masanès beschreibt diese Strategie als eine „automatic harvesting policies“ (automatisch erntende Strategie). (Masanès, Web Archiving, 2001) 15 Vgl. Masanès, Web Archiving, 2001; Lyman, Archiving WWW, 2002; Mannerheim, heritage, 2000. 11 Archivierung von Webseiten Die auswählende Herangehensweise ist aus der Sicht von Bibliothekaren bzw. Archivaren entstanden. Der Bestand (des Webarchivs) setzt sich aus einer Reihe von Snapshots 16 der Website zusammen, die erkennen lassen, dass sich der Webauftritt über einen bestimmten Zeitraum geändert hat17 . Die Snapshots werden mit einer Spiegelungssoftware erzeugt. Der Vorgang wird als Spiegelung bezeichnet und setzt Bewertungsentscheidungen nach Archivierungsintervallen und –tiefe, sowie Ein- bzw. Ausschluss von Links voraus. Aus der Sicht von Peter Lyman liegt der Fokus dieser Strategie auf dem Inhalt der Website und der Entwicklung von Katalogisierungsstrategien, wie z. B. MARC Records oder Dublin Core. Mit der Aufnahme bzw. Verzeichnung wird eine hohe Qualität des Bestandes gewährleistet. Den Bestand bilden ausgewählte Themenbereiche, die als archivwürdig betrachtet wurden. Die Bewertung erfolgt nach der historischen Tragweite und nach dem speziellen Wert der Informationen. Diese sollten bei einer intellektuellen Erschließung erfasst (z. B. in Form der Metadaten) und recherchierbar gemacht 18 . 4.4 Metadaten Die Erfassung von Metadaten ist das zentrale Element für die Verwaltung und Erhaltung authentischer webbasierter Aufzeichnungen. „The application of metadata is central to the successful management of all records including records of web-based activity.“19 „A successful preservation process relies to a large extent on description of the nature and history of the archival resources: on metadata, in short. Metadata is also required to guide the way archived objects are rendered to and understood by users.” 20 Metadaten zum Kontext und zur Struktur der Aufzeichnungen sind dabei notwendig, um die Aufzeichnungen zu verstehen und zu benutzen. 16 Definition des Begriffes “Snapshot”:“Full and accurate record copies of an agency´s public web resources captured at particular points in time.” (NAA, Guidelines, 2001, S. 9) 17 Vgl. NLA, PANDORA, 2001. 18 Vgl. Lyman, Archiving WWW, 2002. 19 NAA, Guidelines, 2001, S. 17 f. 20 NLA, PANDORA, 2001. 12 Archivierung von Webseiten „[…] This is an important concept for electronic records because metadata about the context and structure of a record is needed to make the record understandable and usable. As stated in the concept of a record, information about context is one of the necessary elements in providing evidence of the activity the record represents.” 21 Es existieren bereits Metadatenkonzepte, welche von Webpublishern und welche bei der Archivierung verwendet werden können. Für die Erschließung von Internetquellen gibt es den Bibliotheksstandard Dublin Core, deren Metadata-Elemente in den Meta-Tags der Quellcodes Anwendung finden können22 . Für die Archivierung werden jedoch nicht ausreichend Metadaten mit geliefert. Es müssten Ergänzungen vorgenommen werden, die sowohl die technische Beschreibung der webbasierten Aufzeichnungen als auch den Archivierungs- und Spiegelungsablauf betreffen. Auf diesem Fachgebiet gibt es bereits einige Projekte 23 . Nach den Guidelines der National Archives of Australia sollten die Metadaten für webbasierte Aufzeichnungen im Webarchiv folgendes beschreiben24 : Allgemeine beschreibende Metadaten - Titel, URL, (Erst-)Erstelldatum, Änderungsdatum; Von wem erstellt, geändert oder verbessert (Webpublisher, Webdesigner) - Signatur - organisatorischer Kontext - Verwaltungsgeschichte der Aufzeichnung Metadaten, die den Archivierungsprozess betreffen - Datum und Zeit der Erfassung, Erfasser - Links zur URI mit Versionen und Datum des Links auf die URI 21 Kapitel 2.2 in: ICA, Guide, 1997. Abb. 1: Metadata-Elemente des Dublin Core. 23 Vgl. NEDLIB “Metadata for long term-preservation“ (Lupovici, Metadata, 2000); The Nordic Metadata Projects. Es liegt nicht im Rahmen dieser Diplomarbeit ein Metadatenkonzept für das Intranet der Dresdner Bank zu entwickeln. 22 13 Archivierung von Webseiten - Technische Details über das Design der Website - Details über benutzte Software zur Publikation der Webquelle - Details über enthaltene Anwendungen (MS Office-Programme, o.ä.) - Details über die Clientsoftware, die zur Ansicht der Website benötigt wird Angaben zur Archivierung - Datum und Zeit der Archivierung bzw. Spiegelung, Von wem durchgeführt? - Änderungen, Fehlermeldungen o.ä. - Anzahl der gespiegelten Dateien, Verzeichnisse 4.5 Technische Fragen Welche Technologie ist nun nötig, um die Informationen in einem authentischen Zusammenhang zugänglich zu machen und wiederherstellen? Peter Lyman stellt für diese Problematik drei Lösungsansätze vor. Das ist erstens die Überführung der Informationen auf eine neue Plattform (Migration), zweitens die Überführung der Informationen in ein neues standardisiertes Dateiformat und drittens die Auswahl des Speichermediums. Denn nach seiner Ansicht wurden die digitalen Aufzeichnungen nicht für die dauerhafte Aufbewahrung, sondern eher für den vorrübergehenden Gebrauch erstellt. Sie werden schnell ungültig, nicht mehr lesbar oder verschwinden ganz. Die Technologie für die Erhaltung der Informationen, so befürchtet Lyman, wird demnach sehr komplex und teuer sein werden25 . 24 25 Vgl. NAA, Guidelines, 2001, S. 17 f.; Lyman, Archiving WWW, 2002. Lyman, Archiving WWW, 2002. 14 Das Intranet der Dresdner Bank AG 5. Das Intranet der Dresdner Bank AG 5.1 Definition des Begriffes „Intranet“ Der Begriff des Intranets wird im Allgemeinen wie folgt definiert: „A site, internal to an organisation, which uses the same network technology and protocols as a public website, but is for internal or restricted external use only.” 26 Das Intranet der Dresdner Bank AG ist ein unternehmensinternes Netzwerk, auf das nur die Mitarbeiter als definierte Benutzergruppe Zugriff über das Log- in oder den PC-Benutzerausweis ausschließlich für die interne haben. Nutzung Das bestimmt, Netzwerk wobei ist eine Kommunikation zwischen Intranet und Internet möglich ist. Das erfordert im hohen Maße Sicherheitsmechanismen, da jeder Intranet-Benutzer (der Dresdner Bank) auch gleichzeitig Internet-Nutzer ist und umgekehrt27 . Das Intranet beruht auf dem gleichen technischen Grundlagen wie das Internet28 . Internet- und Intranetkommunikation haben die gleiche Infrastruktur und nutzen identische Client-Software wie z. B. Webbrowser. Mit dem Browser werden die Informationen dem Nutzer am Bildschirm sichtbar gemacht. Die Netzwerkkonzepte des Internets und Intranets, basieren auf dem Standardprotokolle Protokoll TCP/IP des Internets. und nutzen alle weiteren Die Informationen werden z. Zt. überwiegend in der Dokumentenbeschreibungssprache HTML abgebildet. Denn HTML wird bereits in einigen Fällen im Internet durch die Dokumentenspezifikation XML von XHTML ersetzt. 5.2 Bedeutung des Intranets für die Dresdner Bank Für die Mitarbeiter hat sich das Intranet zu einer der wichtigsten Informationsplattform der internen Kommunikation entwickelt. Über das 26 Vgl. NLA, Policy, 2002, S. 5. Lienemann, Intranets, 2003, S. 6. 28 Ebd., S. 5. 27 15 Das Intranet der Dresdner Bank AG Intranet werden die Mitarbeiter schnell, gezielt und umfassend zu wichtigen Themen, Produkten und Services informiert. Ziel des Intranets ist es, dass das Unternehmen und seine Beschäftigten optimal mit Unternehmensinformationen jeder Art versorgt werden. Da das Intranet der Dresdner Bank keine geheimen Unternehmensinformationen enthält, wird es auch als „die interne Öffentlichkeit“ bezeichnet. Es werden über das Intranet allgemeine Informationen aus Wirtschaft, Politik und dem Unternehmen veröffentlicht. Daneben enthält es auch plattformübergreifende Anwendungen für das Personalwesen, Marketing, Mitarbeit- und Kundenservice sowie der Datenverarbeitung, die teils durch Passwortzugang geschützt sind. Unabhängig von der Rechner- und Betriebssystemarchitektur können diese Anwendungen für verschiedene Systeme zur Verfügung gestellt werden. Das ermöglicht die TCP/IP basierende Kommunikationstechnologie 29 . Auf das Intranet haben weltweit alle Mitarbeiter der Dresdner Bank Zugang, die über einen PC verfügen und einen Anschluss an das „Corporate Network“ haben. Sie können auf über 600.000 statische Seiten zugreifen. Nach einer Statistik vom Juli 2002 gibt es pro Tag ungefähr 220.000 Zugriffe auf das Intranet30 . 5.3 Entwicklung Wie viele Unternehmen erkannte auch die Dresdner Bank Mitte der 90er Jahre nicht nur die Vorteile und Potentiale einer Website im Internet, sondern begann die Internet- und Webtechnologie in den unternehmensinternen Netzen einzubeziehen. Seit Inbetriebnahme des Telefonverzeichnisses im Juli 1996 hat sich daraus sehr schnell das Intranet entwickelt. Zu den weiteren Meilensteinen gehört die Einführung des Marktinformationsservices (MIS) 1997. Ein Jahr später wurde die erste Version des Styleguide´s 1.0 gültig und das Nachrichtenforum sowie der PRIMA-Stellenmarkt entstand. Seit 1999 gibt es die Corporate News. Im Jahr 29 2000 gab es die zweite Version des Styleguide´s. Das Vgl. Lienemann, Intranets, 2003, S. 6f. 16 Das Intranet der Dresdner Bank AG Diskussionsforum, BINGO (Geschäftsinformationen und interne Rundschreiben) und das Publishing System wurden eingeführt. Im Jahr 2001 wurde das Informationsportal der „dresdner brain“ mit dem Styleguide 2.1 an die neuen Corporate Design-Vorgaben angepasst 31 . Der erste Intranetauftritt der Dresdner Bank stellt eine virtuelle Filiale dar32 . Die Informationstafeln in der virtuellen Filiale sind weiterführende Links, die mit den heutigen Rubriken inhaltlich nur noch teilweise identisch sind: - Firmenkunden (heute: Private Kunden und Geschäftskunden) - Privatkunden (heute: Private Kunden und Geschäftskunden) - Investmentbanking - Assetmanagement (heute: Allianz) - Mitarbeiter (früher: CC Personal, heute: CC Flächenmanagement) - Information (heute: externe Dienst MIS) - Technologie (heute: CC IT) - Kommunikation - Einheiten des Konzerns (heute: nur Geschäftsbereiche). Die Nachrichten gab es nur in der Form eines Tickers. Die Presseschau im Intranet existierte dagegen noch nicht. Die Intranetseiten wurden extern, nicht intern wie heute, publiziert. Das Design hatte sich bis zur Einführung von dem ersten Styleguide 1.0 (Frühjahr 1998) äußerlich kaum geändert. Eine Rekonstruktion des damaligen Intranetauftrittes ist nicht mehr möglich, sondern liegt optisch nur noch als Screenshot vor. 5.4 Verantwortlichkeiten Die Verantwortlichkeiten für das Intranet sind sowohl zentral als auch dezentral gelagert33 . Die übergreifende Leitung liegt im Unternehmensbereich CC UK IK Redaktion Intranet (kurz: Intranetredaktion). Sie sind Ansprechpartner bei Fragen zum Design. Zusammen mit dem Unternehmensbereich CC IT werden die technischen Anforderungen abgestimmt und realisiert. 30 Vgl. Lienemann, Intranets, 2003, S. 6f. CC UK, Factsheet, 2002. 32 Abb. 2: Das Intranet der Dresdner Bank – das erste Portal (Screenshot ohne Datum). 33 Abb. 3: „Wie kommen meine Informationen ins Netz?“ 31 17 Das Intranet der Dresdner Bank AG Die Verantwortung für Unternehmensbereiche ist die einzelnen dezentral Intranetauftritte angelegt. Für die der inhaltliche Darstellung der Intranetauftritte sind Koordinatoren und deren technischen Umsetzung (nach Styleguide) sind Webpublisher der einzelnen Unternehmensbereiche verantwortlich. Der Publishing-Prozess kann auch auf Wunsch einzelner Unternehmensbereiche von den Mitarbeitern der Intranetredaktion durchgeführt werden34 . 5.5 Angebote im Intranet der Dresdner Bank Die bankübergreifende Startseite wird als die „dresdner brain“, kurz BRAIN, bezeichnet. Dazu gehört das Informationsportal, der Konzernavigator, A- Z Index, über die Startseite zugängliche spezielle Angebote sowie auch solche, die sich in den Rubriken rechts von der Inhaltsseite befinden35 . Das Intranetportal ermöglicht einen schnellen Einstieg zu bankrelevanten Unternehmensnachrichten, zur Presseschau mit übergreifenden Inhalten36 , sowie Wirtschaftsmeldungen und Newsticker mit Links zu weiterführenden Hintergrundinformationen. Besonders im Intranetauftritt der Dresdner Bank kommt die Fusion mit der Allianz zur Geltung. Ehemalige Unternehmensbereiche der Dresdner Bank, die zum größten Teil der Allianz angegliedert wurden, haben im Titel eine grün-blaue Färbung. 5.5.1 Das Portal Das Intranetportal besteht aus einer Metanavigationsleiste mit den Links zur Startseite, zum Telefonbuch und zur Suchfunktion. Über die vertikale Navigationsleiste kann direkt auf den Konzernnavigator und dessen Bestandteile die Corporate Centers, Corporate Services, Corporate & Markets, „Private Kunden und Geschäftskunden“ zugegriffen werden. Außerdem werden über diese Navigationsleiste folgende 34 Zum Beispiel wird der Intranetauftritt des Historischen Archivs über die Intranetredaktion eingepflegt. 35 Abb. 4: Das Intranet der Dresdener Bank – das Portal, Abb. 5: Das Intranet der Dresdner Bank – diverse Screenshots vom 12.02.2003. 18 Das Intranet der Dresdner Bank AG Dienstleitungen angeboten: A-Z-Index, BINGO, Business Travel Service, MIS (aktuelle Börsennachrichten), Mitarbeiter und PRIMA (interner Stellenmarkt). Die horizontale Navigationsleiste enthält die Rubriken Nachrichten, Presseschau, Webmail, Web-TV, Archiv und Forum. Über Webmail kann der Nutzer seine Emails durch sein persönliches Log- in abrufen. Das WebTV stellt Videoaufzeichnungen zu relevanten Themen der Dresdner Bank, Stellungnahmen und Interviews digital zur Verfügung. Zu besonderen Anlässen werden sie auch live übertragen. Alle Beiträge sind ab 2001 im Web-TV-Archiv oder über die Rubrik Archiv zu finden. Über den Link Archiv kann Presseschau, auf die Web-TV, zurückliegenden von „inside“ Beiträge und auf der Nachrichten, Mitteilungen des Bundesverbandes deutscher Banken e.V. zugegriffen werden. Der Zugr iff auf die hinterlegten Informationen erfolgt nicht über eine Datenbankabfrage, sondern über eine Verlinkung des Datums oder der Edition. Das Intranet ist auch eine Plattform, die den Dialog und das Feedback ermöglicht. Das Diskussionsforum (kurz: Forum) bietet die Möglichkeit des internen Dialogs. Es gehört zum Forum der Allianz Group und ist im Rahmen des Projektes Intranet Deutschland Forum in einem anderen Styleguide erstellt worden. Weitere Möglichkeiten des Dialogs bieten diverse Newsgroups, um sich über spezifische Themen zu informieren und mit Kollegen Meinungen austauschen zu können. Über die Mailbox „offen gesagt“ 37 kann der Mitarbeiter Missstände im Unternehmen nennen, die durch eine neutrale Stelle weiter bearbeitet werden. Im Inhaltsframe des Informationsportals werden die aktuellen Nachrichten und Presseschau mit einer kurzen Einleitung (Teaser) angedeutet. Rechts davon befinden sich mehrere Infoboxen. Dazu zählten zur Zeit der Untersuchung: Turnaround-Programm, MIS-News (einschließlich mit 36 Die Presseschau ist untergliedert in Dresdner Bank, Allianz AG, Banken und Versicherungen, Wirtschafts- und Konjunkturpolitik, Politik und Wirtschafts -TV. 37 Vgl. CC UK IK, Plattform, 2002. 19 Das Intranet der Dresdner Bank AG Börsendiagramm), Allianz.com News, Sicherheitshinweise und Gallileo (Informationsseite zum neuen Dresdner Bank-Hochaus „Gallileo“). 5.6 Verwaltung der Informationen Es kann keine allgemeingültige Aussage getroffen werden, wie die Informationen des gesamten Intranetauftrittes abgelegt werden. Denn die Verantwortlichkeiten liegen in den einzelnen Fachbereichen selbst. Es können nur Aussagen getroffen werden über die Contents der BRAIN 38 und teilweise von CC UK, die im Zuständigkeitsbereich der Intranetredaktion liegen bzw. eingepflegt werden. Nach Schätzungen von Herrn Lixfeld und Herrn Wolf liegen ca. 20-30 % der Inhalte in Content-Management-Systemen39 . Die Inhalte der „dresdner brain“ und Teile des Intranetauftrittes von CC UK werden über das CMS „infosite“ der Firma Sitepark GmbH40 von verschiedenen Redakteuren eingepflegt. Die Serverstruktur ist sehr vielfältig. Es wird davon ausgegangen, dass eine dreistellige Anzahl von Servern existiert. Die Intranetredaktion hat nur auf eine begrenzte Anzahl von Servern Zugriff. Auf dem zentralen Server des Intranets (BRAIN-Server) sind mehr als 45.000 Seiten abgelegt 41 . Im Anhang befindet sich eine Übersicht zur Verwaltung der Intranetangebote 42 . 5.7 Publikation der Webcontents 5.7.1 Contents des Intranets Die Informationen im Intranet der Dresdner Bank werden als HTML dargestellt. Darüber hinaus werden externe Dateien in verschiedenen Formaten eingebunden (v.a. .gif, .jpg, .pdf, .doc, .wmv 43 sowie vereinzelt .mpg und .ppt). Für die Formatierung der Intranetseiten entsprechend Styleguide werden Vorlagen nach den Cascading Style Sheets (CSS) online 38 Siehe S. 18. Mündliche Auskunft von D. Lixfeld und A.Wolf. 40 Vgl. auch http://www.infosite.de/reference/dresdner.html . 41 Konzernweit sind es etwa 250 Server (mündl. Auskunft von D. Lixfeld und A. Wolf). 42 Vgl. Tab. 2: Tabellarische Übersicht zur Darstellung und Verwaltung der Intranetangebote. 43 Windows Media Format - .wmv 39 20 Das Intranet der Dresdner Bank AG bereitgestellt. Dynamische Informationen und Interaktionen werden teilweise mit Skriptsprachen ausgeführt, z. B. mit Javascript 44 . Die Webseiten sind überwiegend in Frames gestaltet, so dass mehrere HTML-Dokumente eine Webseite bilden. Innerhalb einer URL können verschiedene HTML-Dokumente aufgerufen werden. Der Intranetauftritt enthält überwiegend statische Webseiten. Charakteristisch für statische Webseiten ist, dass sie genau einen Zustand nach ihrer Erstellung besitzen45 . Dazu können die Nachrichten oder Pressemitteilungen, Eingangsseiten, „Philosophie und Zielsetzung“ von einzelnen Corporate Centers, technische Dokumentationen oder auch Standards wie der Styleguide zählen. Nur vereinzelte Webseiten oder Informationsangebote werden dynamisch generiert. Sie unterliegen einem hohen Grad an Aktualität, der mit einem hohen Anspruch an die Verarbeitung und Verwaltung gebunden ist 46 . Dazu zählen auch Webseiten, deren inhaltliche Darstellung durch Nutzerangaben bestimmt werden. Die Ausgabe jener Inhalte erfolgt durch Datenbanken, in denen die Dokumente als Objekte hinterlegt sind. Zu den dynamischen Informationseinheiten des Intranets gehören u.a. das Telefonbuch, die Suchfunktion, der Börsenkurs und Newsticker, MIS, Webmail 47 , vereinzelte Intranetauftritte von Unternehmensbereichen (z. B. von CC Risikocontrolling) und das Bildarchiv (Recherche in der hinterlegten Bilddatenbank). Zum Beispiel werden für eine Kundenberatung Anwendungen des Intranets verwendet, die aus einer hinterlegten Datenbank von dem Unternehmensbereich „Private Kunden und Geschäftskunden“ bereit gestellt werden. 44 Javascript wurde 1998 als Standard verabschiedet und ist in seinen westlichen Funktionen und Eigenschaften in den Browserversionen von Mircosoft, Netscape Communicator und Opera Software verfügbar. (Lienemann, Intranets, 2003, S. 170) 45 Vgl. Büchner, WCM, 2001, S. 29 ff. 46 Ebd. 47 Um die persönliche Email abrufen zu können, benötigt der Benutzer kein separates Programm. Eine HTML-basierte Benutzerschnittstelle stellt alle Funktionen innerhalb der Website zur Verfügung. Die Email selbst stellt als Einzeldokument eine statische Informationseinheit dar. Der gesamte Inhalt der Mailbox ist jedoch Änderungen unterworfen und zählt demnach zu einer dynamisch generierten Informationseinheit. (Büchner, WCM, 2001, S. 32) 21 Das Intranet der Dresdner Bank AG Eine Mischform aus statischen und dynamischen Seiten sind sogenannte semidynamische Webseiten. Sie haben überwiegend statischen Charakter und ändern sich unter bestimmten Bedingungen. Dazu können zählen Telefonlisten, Organigramme oder Veranstaltungskalender. 5.7.2 Webpublishing-Prozess mit dem Content -Management -System Allgemeines zu Content-Management-Systemen Mit einem Content-Management-System (CMS) können nahezu sämtliche Administrationsprozesse von Webseiten vollständig übernommen werden. Sie repräsentieren den gesamten Publikationsablauf und stellen dafür umfangreiche Funktionen48 , je nach Anforderungen, zur Verfügung. Der Ablauf beginnt mit der Informationsrecherche, der Zusammenstellung der Informationen, Einbettung von Layoutkomponenten, Versionskontrolle, Auslösung und Steuerung der Aktualisierungsprozess bis hin zur Veröffentlichung der Contents. Die einzelnen Bestand teile der Webinhalte liegen in bestimmten Dateien vor. Neben den herkömmlichen Contents - wie Texte, Bilder oder Grafiken treten auch multimediale, applikationsgebundene, transaktionelle und Community-Contents auf. Die einzelnen Contents werden gesammelt, strukturiert und dargestellt. Sie werden getrennt gespeichert und sind dadurch sehr flexibel weiter zu verwenden49 . Das Hauptcharakteristikum von CMS ist die Trennung von Inhalt-, Strukturund Layoutangaben50 . Die Informationen werden separat gespeichert und verwaltet. Das erhöht die Qualität der Website, da die einzelnen Seiten leichter, besser und schneller aktualisiert werden können. Im 48 Zugangskontrolle und Protokollfunktionen, Datensicherungs- und Rollback-Funktionen, Mehrplatzfähigkeit, Check-In/ Check-Out für die Bearbeitung von Contents, vordefinierte und (benutzerdefinierte) Metainformationen sowie Festlegung von Verwaltungsfunktionalitäten, Anfragefunktionalitäten und die Fähigkeit zur Durchführung von Massenoperationen. Bei umfangreicheren Webauftritten sollte das CMS weitere Funktionen wie Bearbeitung und Verifikation (Prüfung), Aufzeichnung atomarer Änderungen, Aggregierung und Beziehungen, Versionsverwaltung, Mehrsprachigkeit, Workflow, Gestaltung, Verarbeitungsfunktionen und die Fremdformatumwandlung aufweisen. (Rothfuss, CMS, 2001, S. 63 ff) 49 Büchner, WCM, 2001, S. 85 f. 50 Büchner, WCM, 2001, S. 90 f, 101. 22 Das Intranet der Dresdner Bank AG Publikationsprozess ohne CMS nimmt der Webmaster eine zentrale Stellung ein, die bei starken Änderungen sich nachteilig auswirkt und zum „Flaschenhals“ im Publikationsprozess wird. Mit dem CMS erfolgt der Prozess nun unabhängig von der Website-Programmierung51 , so dass Personen ohne technisches Hintergrundwissen einfach Webseiten publizieren können. Mehrere Redakteure können gleichzeitig publizieren. Die Arbeitsabläufe und Verantwortlichkeiten werden durch WorkflowFunktion automatisch gesteuert und verwaltet52 . Zum Publizieren werden die Contents in die Vorlagen, den sogenannten Templates geladen und anschließend in HTML bzw. XHTML generiert53 . Bei statischen Webseiten wird die komplette Seite gespeichert. Werden dagegen dynamische Seiten aufgerufen, werden die Inhalte erst dann in die Templates geladen und publiziert. Content Life Cycle Jede Art von Content durchläuft den Content Life Cycle in den folgenden Etappen54 : - Erstellung der Inhalte in verschiedenen Dateiformaten - Kontrolle durch autorisierte Mitarbeiter - Freigabe zur Veröffentlichung bzw. Wiedervorlage an den Publisher - Publikation im Intranet 55 - Archivierung der Contents nach Ablauf der Publikationszeit (Sie werden nicht im archivischen Sinn bewertet, sondern sind nicht mehr veränderbar bzw. überschreibbar und werden für eine bestimmte Dauer abgelegt. 51 Büchner, WCM, 2001, S. 90. Abb. 6: Schema des Webpublishing´s. 53 Abb. 7: Laden in Templates. 54 Abb. 8: Content Life Cycle. Vgl. Büchner, WCM, 2001, S. 83 ff. 55 Wird eine Seite aufgerufen, werden die dazugehörigen Vorlagen und die jeweiligen Contents geöffnet. Die Contents werden in die Templates geladen und dargestellt. Bei statischen Informationen wird die komplette HTML-Seite auf der Festplatte des WebServers hinterlegt, die dieser dann bei Abfrage ohne Rückgriff auf das CMS ausliefern kann. Inhalte einer dynamischen Webseite werden erst durch Anfrage eines Benutzers zusammengestellt (Büchner, WCM, 2001, S. 107; Bager, CMS, 2002, S. 173). Diese ausführliche Darstellung des Publikationsprozesse könne bei der Auswahl der Archivierungsmethode eine Rolle spielen. Um die Web-Contents über eine Schnittstelle aus dem CMS in ein Archivsystem zu exportieren, muss dabei in Betracht gezogen werden, 52 23 Das Intranet der Dresdner Bank AG - „Archivierte“ Contents können als Vorlage neu zu publizierender Webseiten dienen 5.7.3 Das CMS „infosite“ Die Intranetredaktion arbeitet seit Anfang 2001 mit dem CMS „infosite“ der Sitepark GmbH. Mit „infosite“ arbeiten verschiedene Redakteure der Intranetredaktion. Damit können Inhalte leicht bearbeitet und verändert werden. Mit der Funktion „Verschlagwortung“ werden (Publikations- bzw. Änderungs-) Datum und Titel für die Suchmaschine eingeben. Das System bietet nicht die Möglichkeit der inhaltlichen Verschlagwortung. Über diese Funktion können ausschließlich der Dokumententyp und dessen Platzierung auf der Webseite definiert werden. Welche Inhalte mit „infosite“ eingepflegt werden, ist in der Tabelle 2 ersichtlich56 . 5.8 Der Intranet-Styleguide Mit der Einführung des Styleguide´s im Frühjahr 1998 wurden erstmals Regeln und Empfehlungen für die Strukturierung, die optische Gestaltung und die technische Umsetzung von Intranetangeboten geschaffen57 . Mit zunehmender Nutzung des Intranets als Informations- und Dialogplattform war eine Anpassung hinsichtlich der Bedienbarkeit, Transparenz und Zugriffsgeschwindigkeit notwendig geworden58 . Der Styleguide wurde in Zusammenarbeit von Kommunikationsfachleuten, Technikern, Produzenten und Nutzern gemeinsam überarbeitet und weiterentwickelt. Neu angepasst und standardisiert wurden Design- Vorgaben, die Technik sowie die Funktionalitäten. Dieses sollte für den Nutzer zu einer besseren Orientierung innerhalb des Intranets beitragen. Die Erstellung der Seiten sollte für die Webpublisher erleichtert werden. Die Design-Vorgaben für das Intranet sollten zu mehr Einheitlichkeit und Unterstützung der Corporate Identity nach innen führen. Im Mai 2001 wurde das neue Corporate Design der Dresdner Bank vorgestellt. Im Zuge der bankweiten einheitlichen Umsetzung wurde die dass die dynamischen Inhalte nicht in dem CMS vorliegen und auch nur bedingt auf dem BRAIN-Server abgelegt sein können. 56 Vgl. Tab. 2. 57 Vgl. CC UK IK, Styleguide 2.1, 2001, S. 2. 58 Vgl. CC UK, Intranet-Styleguide, 2002. 24 Das Intranet der Dresdner Bank AG Überarbeitung des Styleguide´s notwendig. Das Ergebnis war die noch heute aktuelle Version, der Styleguide 2.1. Diese Version ist seit dem 28. September 2001 gültig und behielt überwiegend Bestandteile der Vorgängerversion bei. Die Änderungen betrafen in erster Linie die Präsentation der Marke. Alle Seiten, die nach der Vorgängerversion gestaltet wurden, mussten bis zum 1. Mai 2002 angepasst werden. Das betraf eine Reihe allgemeingültiger Dateien, die ausgetauscht werden sollten (CSS, Javascript, Icons, Logo etc). Die neuen Intranetseiten müssen nach Styleguide 2.1 unter Verwendung der online verfügbaren Vorlagen publiziert werden. 5.8.1 Der Styleguide 2.1 In dem Styleguide 2.1 werden drei verschiedene Arten der Navigation59 definiert, Richtlinien für die Gestaltung der Inhalte sowie für die technische Beschreibung gegeben. Darin ist u.a. enthalten, dass die Vorlagen sowohl für die Icons als auch für die Logos im GIF-Format vorliegen. Ferner wird empfohlen, Grafiken mit einer maximalen Größe von 10 KB und im GIFFormat einzubinden60 . Die Dokumentenbeschreibungssprache ist HTML61 , wobei ein HTML-Standard nach dem W3C nicht verbindlich vorgegeben wird. Für Formatierungen und Objekteigenschaften werden einige Möglichkeiten von den Cascading Style Sheets Standards des W3Cs, Standards CCS 1 und CCS 2, verwendet. Entsprechend dem Corporate Design wurden mit CSS Vorlagedateien gestaltet 62 . Der Standard-Browser der Dresdner Bank ist im Styleguide 2.1 der Internet Explorer 5.x63 . 59 Die sogenannte I-Navigation besteht aus der Metanavigationsleiste (grüne Farbe, Logo, Links: Home, Suche, Telefonbuch), Bereichsbezeichnung, der Navigationsleiste links und dem Inhaltsframe. Die sogenannte L-Navigation besteht aus der Metanavigation, Bereichsbezeichnungen, einer horizontalen und vertikalen Navigationsleiste und dem Inhaltsframe. Die Portale enthalten die Metanavigation, Bereichsbezeichnung und den Navigationsbereich. ( CC UK IK, Styleguide 2.1, 2001, S. 6 ff) 60 CC UK IK, Styleguide 2.1, 2000, S. 19, 28 f., 51. 61 Ebd. S. 32. 62 Ebd. S. 45. 63 Ebd. S. 46. Der Internet Explorer 5.x ist bereits in der Lage XML zu interpretieren. 25 Das Intranet der Dresdner Bank AG Metainformation im Meta-Tag Nach dem Styleguide 2.1 ist eine Einbindung von neun Meta-Tags in die HTML-Seiten vorgesehen. Die Angaben der Metadaten dienen primär dazu, die Rechercheeffektivität von der Suchmaschine im Intranet zu verbessern64 . Die Umsetzung des Styleguide´s 2.1 Die Untersuchung des Intranets hat ergeben, dass die Richtlinien und Empfehlungen, die mit dem Styleguide 2.1 vorliegen, sehr unterschiedlich umgesetzt werden. Überwiegend werden die Vorgaben zum Corporate Design verwendet. Für wenige Intranetangebote werden eigene Style Sheets verwendet 65 . Die Analyse der Dateiformate ergab, dass die Webseiten nicht nach einem HTML-Standard produziert worden waren. Es werden verschiedene Versionen von HTML verwendet, bei denen nicht nachzuprüfen war, ob sie den W3C-Standards folgen. Ursache liegt in der Akzeptanz der Browser, die auch nicht-korrektes HTML anzeigen können. Logos und Icons liegen, wie im Styleguide beschrieben, im GIF-Format vor. Bei der Einbindung von Bildern und Fotos wird zunehmend JPEG verwendet. Die Formate für Videoaufzeichnungen sind nicht im Styleguide festgehalten. Nach Auskunft von Herrn Boenke (Redaktion Web-TV, Corporate Publishing) werden die Beitrage des Web-TV´s im Windows Media Format gespeichert. Andere Videopräsentationen liegen sowohl im Real als auch im Windows Media Format vor. Vereinzelt sind PowerPoint-Präsentationen im PPT-Format zu finden. Es werden zur Zeit nur in Einzelfällen ausführliche Metadaten über die Meta-Tags eingepflegt 66 . Zum Beispiel weist die Intranetseite des Historischen Archivs diese neun Meta- Tags auf. Sie wurden per Hand in die Templates des CMS „infosite" eingepflegt. 64 Vgl. Abb. 9: Meta-Tags im Styleguide und deren Anwendung, Abb. 9.1: Vorgaben von Meta-Tags im Styleguide 2.1. 65 CC Risikocontrolling, Corporate & Markets Intranet, Tochtergesellschaften/ Beteiligungen, Geschäftsfeld/ Zahlungsverkehrsservice. 26 Das Intranet der Dresdner Bank AG 5.8.2 Der Styleguide 3.0 Der kommende Styleguide 3.0 befindet sich zur Zeit in Entwicklung und wird noch in dem Jahr 2003 eingeführt. Der Anlass für die Anpassung des Styleguide´s waren: - Verbesserungs wünsche aus einer Nutzerbefragung der Internen Kommunikation - Ergebnisse einer Nutzungsuntersuchung von dem TÜV-Rheinland - Berücksichtigung der gesetzlichen Anforderungen zur Barrierefreiheit für die Benutzung des Webs durch Behinderte Die Änderungen betreffen einmal das Verständnis des Intranets selbst. Das Intranet soll weniger zur Selbstdarstellung genutzt werden. Es soll als ein aufgabenorientiertes Arbeitsmedium betrachtet werden. Übergreifende Informationen der Dresdner Bank sollen immer verfügbar sein. Die Unterscheidung nach verschiedenen Navigationstypen fällt weg. Alle Seiten haben den gleichen Aufbau. Navigationspfade, Sitemaps 67 sowie Neuordnung und Vereinheitlichung der Navigation sollen zur Verbesserung der Orientierung beitragen. Die unterschiedlichen Seitentypen resultieren aus den unterschiedlichen Anforderungen für die Darstellung der Informationen. Die visuelle Kennzeichnung soll durch Reduktion verbessert werden. Das Intranet soll browser- und plattformunabhängig zugänglich sein. Die Realisierung soll standardmäßig durch das CMS NPS 5.2 der Infopark AG erfolgen. Die interne Kommunikationssprache dieses CMS ist XML68 . Zudem soll die Suchmaschine verbessert bzw. ausgetauscht werden69 . In den Präsentationsunterlagen des technischen Arbeitskreises werden bereits einige Beispiele angeführt70 . 66 Vgl. Abb. 9.2: Meta-Tags im Quellcode des Intranetportals (Inhaltsframe); Abb. 9.3: Meta-Tag im Quellcode der Presseschau. 67 In den Sitemaps werden die Contents in der Mappenstruktur angelegt, ähnlich der Anordnung von Karteikarten. Sie geben einen schnellen Überblick über die Struktur und Inhalte, die unter einer Webadresse zu finden sind. 68 Weiter Informationen zum CMS NPS 5.2 sind in dem Datenblatt nachzulesen. (NPS 5.2, Datenblatt, 2002) 69 Techn. Arbeitskreis, Styleguide 3, 2003, S. 2-4. 70 Vgl. Abb. 10: Auszüge aus dem Styleguide 3.0. 27 Das Intranet der Dresdner Bank AG 5.9 Schlussfolgerung Die Analyse des Intranets hat ergeben, dass die Verantwortlichkeiten sowohl zentral bei der Intranetredaktion als auch dezentral bei Verantwortlichen der Unternehmensbereiche liegen. Die Intranetredaktion hat keine Übersicht über die Verwaltung einzelner Angebote des Intranets, die außerhalb ihres Zuständigkeitsbereichs liegen. Ferner werden die Inhalte nicht zentral über ein CMS verwaltet und auf einem Server abgelegt. Die abgelegten Inhalte auf dem BRAIN-Server sind nicht identisch mit den Inhalten im CMS „infosite“. Die Intranetredaktion hat keine Übersicht, welche Intranetangebote wie und mit welchen CMS publiziert werden. Das Beispiel von „infosite“ zeigt, dass ein CMS keine Dauerlösung darstellt und nach wenigen Jahren durch die technische Entwicklung überholt ist. Es ist davon auszugehen, dass auch andere Unternehmensbereiche ihre Technik entsprechend der Entwicklung ändern. Der Technikeinsatz für die Publikation von Intranetseiten ist Änderungen unterworfen. Es ist eine große Anzahl von Webservern vorhanden, deren Dokumente der Intranetredaktion zu einem geringen Teil zugänglich sind. Von der IntranetRedaktion werden mehrere Server gleichzeitig verwaltet. Das Intranet besteht überwie gend aus statischen, weniger aus dynamisch generierten Webseiten. Die Inhalte werden in HTML ausgegeben. Es ist nicht festzustellen, inwiefern die W3C-Standards für diese Dokumentenbeschreibung umgesetzt werden. Vielmehr muss damit gerecht werden, dass bei der hohen Anzahl an Webseiten (> 600.000) viele davon in nicht-korrektem bzw. älterem HTML-Standards vorliegen. Im Hinblick auf die Archivierung muss in Betracht gezogen werden, dass diese Webseiten nach kürzerer Zeit nicht mehr gelesen werden könnten. Das ist eine Tatsache, die allgemein für digitale Aufzeichnungen zutrifft, die nicht in einem Standardformat abgespeichert sind. Das erfordert einen zusätzlichen Migrationsschritt. 28 Das Intranet der Dresdner Bank AG Die Vorgaben des Styleguide´s sind für das Intranet verbindlich, werden jedoch nicht von allen Publizierenden 100%ig angewandt. Es ist festzustellen, dass nur im geringem Umfang Metadaten in Meta-Tags aufgenommen werden. Nur wenige Metadaten liegen über die Herstellung einer Webseite vor, so dass sie keine Basis für die Archivierung des Intranets bilden. Die Intranetredaktion kann aus Zeitgründen die Aufgabe nicht übernehmen, alle Beiträge des Intranets auf ihre Konformität zu den Styleguide-Vorgaben zu überprüfen. Das CMS NPS 5.2, als Standard im Styleguide 3.0 enthalten, wird sich vorteilhaft auf die Archivierung des Intranets auswirken, da die Datenbasis bereits im XML vorliegt und in XHTML ausgegeben werden kann. Mit dem CMS NPS 5.2 können Metadaten besser verwaltet und angewendet werden. Es ist festzustellen, dass der neue Styleguide 3.0 nicht nur den Benutzern sondern auch den archivischen Belangen entgegen kommt und sich vorteilhaft für die Archivierung des Intranets auswirken kann. Es besteht noch die Möglichkeit, Ergänzungen im Entwurf von dem Styleguide 3.0 vorzunehme n71 . 71 Ergänzung für den Styleguide 3.0 werden in der Zusammenfassung der Diplomarbeit genannt. (Siehe S. 88) 29 Ablauf der Archivierung 6. Ablauf der Archivierung Die Entwicklung des folgenden Ablaufes zur Archivierung des Intranets der Dresdner Bank ergab sich aus den Ergebnissen der Voruntersuchung. Das Ziel des Archivierungsablaufes ist es, die Charakteristik des Mediums, die Inhalte, deren Struktur und damit verbundene Kontextinformationen dauerhaft zu sichern und Benutzern zugänglich zu machen. Seitens des Historischen Archivs war von Bedeutung, dass der gesamte Prozess wenig Zeit in Anspruch nimmt, einfach zu handhaben ist und ein authentisches Archivierungsergebnis des Intranets liefert. 6.1. Archivierungsstrategien für das Intranet Zur Bildung eines sogenannten „Intranetarchivs“, einem Bestand aus Snapshots des Intranets, ist es erforderlich, organisatorische Strategien zu entwickeln, um diesen Prozess zu managen72 . Im Fall des Intranets der Dresdner Bank stehen drei Archivierungsstrategien zur Diskussion: 1. Datenexport aus dem CMS „infosite“ oder von dem BRAIN-Server über eine XML-Schnittstelle in das Archivsystem (FAUST) bzw. auf den Archivserver 2. Verwendung von Web Crawlern zur vollständigen Archivierung des Intranets 3. Verwendung einer Spiegelungssoftware zur selektiven Archivierung des Intranets 72 Vgl. Lyman, Archiving WWW, 2002. 30 Ablauf der Archivierung 1. Datenexport aus dem CMS infosite oder von dem BRAIN-Server über eine (XML-) Schnittstelle in das Archivsystem (FAUST) bzw. auf den Archivserver Mit dem Datenaustausch über eine (XML-) Schnitstelle des CMS bzw. vom BRAIN-Server in das Archivsystem könnte die vollständige Übernahme der enthaltenen Contents ohne großen Zeitaufwand gewährleistet werden. Nachteilig jedoch ist, dass nicht alle archivwürdigen Intranetangebote in dem CMS bzw. auf dem Server vorliegen. Viele Inhalte und Anwendungen, wie MIS oder BINGO, wären nicht verfügbar, da sie externe Dienste sind. Es steht die Frage, ob der Intranetauftritt dann noch authentisch erscheint, da der Zusammenhang der Informationen verloren gehen würde. Demnach wäre es z. B. nicht möglich, Nachrichten und Pressemitteilungen im Zusammenhang mit den Börsenwerten erscheinen zu lassen. Ein Vorteil des Mediums, verschiedene extern gespeicherte Informationen miteinander zu verbinden, wäre mit dieser Archivierungsstrategie nicht möglich. Zudem ergibt sich ein weiteres Problem. Das Archivsystem ist nicht alleine in der Lage, die Contents in die Templates zu laden. Dazu müsste entweder ein Emulator für „infosite“ entwickelt oder aber das gesamte Programm archiviert werden. Eine Emulation ist sehr fehleranfällig und erfordert eine offengelegte Programmdokumentation. Die Entwicklung des Emulators ist sehr zeit- und kostenaufwendig. Emulationstests unter der Leitung von Jeff Rothenberg zeigen zwar, dass diese Archivierungsstrategie für die Archivierung digitaler Informationen anwendbar ist73 . Aber bisher gibt es noch keine praktischen Erfahrungen und ist daher abzulehnen. Zudem ist eine Archivierung des CMSs prinzipiell abzulehnen, da für die dauerhafte Erhaltung und Sicherung der Aufzeichnungen immer eine nichtproprietäre Lösung gewählt werden sollte. 73 Bischoff, Emulation, 1999, S. 18 ff; Rothenberg, Emulation, 2000, S. VI, 83-84. 31 Ablauf der Archivierung 2. Verwendung von „Web crawlers“ zur vollständigen Archivierung des Intranets „The goal is to collect everything on the Internet by means of automatic software.“74 Die „Web crawlers“ ermöglichen das vollständige, automatische Archivieren von bestimmten Webbereichen75 . Sie finden vorwiegend Anwendung bei Projekten76 , die das Ziel verfolgen, das gesamte Web, oder einen bestimmten Bereich des Webs bzw. eine bestimmte Top- LevelDomäne 77 , „vollständig“ und regelmäßig zu archivieren. 78 Ich teile die Meinung von Julien Masanès und sehe „Web crawler“ als nicht geeignet an, um einzelne, individuelle Websites zu archivieren und die Archivierungsfrequenz anzupassen. Denn einmal müssen für den Einsatz bestimmte Begriffe, Themen oder Pfadnamen ausgewählt werden, die den Wert einer historischen Überlieferung entsprechen könnten. Im Fall des Intranets der Dresdner Bank ist dies sehr schwierig, da es thematisch nicht überschaubar ist und eine Vielzahl an Pfadnamen enthält, die eingeschlossen werden müssten. Die Gefahr wichtige Informationen zu verlieren, die nicht dem definierten Raum entsprechen, wäre sehr hoch. Es könne aber auch die URL des Intranetportals eingegeben werden. Von diesem Pfadnamen aus würden alle weiterführenden URLs weiterverfolgt kopiert und heruntergeladen werden. Die Grenze zwischen Intranet und Internet könne nicht eingehalten werden, da einige Intranetseiten Links zu Internetauftritten aufweisen, z. B. Online-Publikationen. Die fehlenden F Filtermöglichkeiten stellen ein weiteres Problem dar, denn aus archivischer Sicht sind nicht alle aufrufbaren Informationen archivwürdig79 . Nachteilig ist ferner, dass die Dauer des „Erntens“ nicht abzuschätzen ist. Denn der Kopiervorgang wird erst abgebrochen, wenn alle Dateien aus dem 74 75 76 77 78 79 Vgl. Arms, Minerva, 2001. Vgl. Hakala, NEDLIB, 2001. Vgl. Tab. 1 – Projekte: „The Internet Archive“, „Kulturarw3“, „EWA“, „NWA“. Zum Beispiel: .se für Schweden, .fr für Frankreich, .com Vgl. Lyman, Archiving WWW, 2002. Vgl. Kapitel „Bewertung“. 32 Ablauf der Archivierung definierten Bereich gefunden wurden. Schwierig gestaltet sich zudem die Darstellung des Ergebnisses. Alle gefundenen Informationen werden in einem Ranking angezeigt und würden nicht in ihrem ursprünglichen Zusammenhang des Intranets stehen. Das widerspricht dem Ansatz zur Archivierung von digitalen Aufzeichnungen, deren Inhalt, 80 Kontextinformationen und strukturelle Zusammenhänge zu erhalten . 3. Verwendung einer Spiegelungssoftware zur selektiven Archivierung des Intranets „… there is the selective approach where documents deemed worthy of preservation are selected by humans.“ 81 Bei einer aus wählenden Herangehensweise werden archivwürdige Dokumente durch die intellektuelle Bewertung für die Archivierung mittels einer Spiegelungssoftware ausgewählt. Dieses Vorgehensweise eignet sich, um den Archivierungsbereich bereits ausgewählte Websites einzugrenzen82 . Mit der Software werden alle Dateien einer URL bis in eine bestimmte Verzeichnungsstufe kopiert und heruntergeladen. Es können verschiedene Filtereinstellungen vorgenommen werden. Die Spiegelung dauert nur wenige Minuten. Nachteilig ist, dass es mit der Software schwer möglich sein wird, umfangreiche Websites vollständig zu archivieren. Eine Spiegelung ist nicht geeignet für Websites mit interaktiven und überwiegend dynamischen Webseiten. Während der Untersuchung und Testphase für die Archivierung des Intranets im Februar 2003 schien für das Intranet die auswählende Herangehensweise mit einer Spiegelungssoftware am geeignetsten. Aus 80 „The preservation of electronic records poses new and demanding challenges for archivists [...] for records to srve as evidence, the content, context and structure of the records - which in the electronic environment are independent of the medium – must be retained. („Records Preservation“ in:: ICA, Guide, 1997) 81 Arvison, Kulturarw3Project, 2000. 82 “A selective approach based on pre-selection, capture and cataloguing of individual Web sites.” (Masanès, Web Archiving, 2002) 33 Ablauf der Archivierung diesem Ansatz heraus resultieren die weiteren Ausführungen zum Ablauf der Archivierung des Intranets. 6.2 Ablauf der Archivierung des Intranets der Dresdner Bank Im folgenden werden die einzelnen Stationen zum Ablauf der Archivierung des Intranets, wie sie im Schema 83 zu erkennen sind, kurz beschreiben. In weiteren Kapiteln werden die Bewertung, die Spiegelung sowie der Migrationsschritt genauer betrachtet. Intranet Das Intranetportal ist der Einstieg zu verschiedenen Informationen, die sowohl innerhalb als auch außerhalb des Intraents (Intranetx ) sich befinden können. Bewertung Da nicht das Ziel ist alle enthaltenen Informationen zu archivieren, müssen Auswahlkriterien getroffen werden. Die Bewertungsentscheidungen sind zu protokollieren und ständig zu überprüfen. Spiegelung Mit dem Einsatz der Spiegelungssoftware werden die Bewertungsentscheidungen umgesetzt. Es werden demnach bestimmte Filter gesetzt und die Spiegelungstiefe angegeben. Vor jeder Spiegelung muss ein neues Verzeichnis im Computer angelegt werden. Das Programm lädt entsprechend der Einstellung alle Dateien und Ordner der Intranetseiten in dieses Verzeichnis nach der originalen Datenstruktur ab. Nach wenigen Minuten liegt ein Snapshot des Intranets (Intranety1 ) auf der Festplatte bzw. dem Server vor. Die ausgewählte Spiegelungssoftware HTTrack erstellt zu jeder Spiegelung eine Protokolldatei im ASCII-Format, die im gleichen Verzeichnis automatisch gespeichert wird. Anschließend muss der Snapshot mit dem originalen Intranetauftritt verglichen und kontrolliert werden. Jeder weitere Snapshot (Intranety1+ n) wird in einem neuen Verzeichnis abgelegt. 34 Ablauf der Archivierung XML-Dokument mit Metadaten Metadaten stellen ein wichtiges Element für die Archivierung webbasierter Aufzeichnungen dar. In einer XML-Datei müssen Kontext- und Strukturangaben angegeben werden. Die Datei wird im gleichen Verzeichnis wie die Dateien des Snapshot´s abgelegt. Vorbereitende Dokumente können als Ergänzung für die Dokumentation dienen (z. B. Struktur der Website/Webseite, Installationsrichtlinien, System- beschreibung, Richtlinien für den Administrator, Styleguide, o.ä.) 84 . Für die Erfassung der Metadaten kann eine Vorlagedatei, ein XMLDokument, verwendet werden. Im Anhang ist eine solche Vorlagedatei auf Niederländisch zu finden85 . Die fehlenden Metadaten aus dem Quellcode können jedoch nicht rückwirkend ergänzt werden. Deshlab ist es wichtig, bereits bei der Erstellung der Webseiten aussagekräftige Metadaten anzugeben! Migration Die Migration betrifft in erster Linie HTML-Dateien, da nicht-korrektes HTML für die dauerhafte Archivierung ungeeignet ist. Es wurde bereits erwähnt, das Herr Oehler einen HTML-XML-Konverter entwickelt hat, der für die Umwandlung von HTML-Seiten des Intranets in XHTML angepasst werden könnte. Der Vorgang könnte im Anschluss an die Spiegelung durchgeführt werden, da die Dateien liegen dort bereits in einer Ordnerstruktur vor. Drohen andere Text-, Grafik-, Audio- oder Videodateiformate zu veralten, müssen schließlich auch für diese Formate Migrationsmethoden angewendet werden. Dafür gibt es aber noch keine Lösungsansätze. Das Ergebnis ist ein Snapshot des Intranets mit migrierten Dateien (Intranety1´) 83 Vgl. Abb. 11: Archivierungsablauf für das Intranet der Dresdner Bank. “Houd binnen elke versiemap een XML-bestand met de historiek van de website bij (metadata_versie_X_Y.xml). Vul de metadata aan bij elke wijziging [Veränderung] aan de website (niet de gekoppelde toepassingen zoals databanken). Met behulp van dit XMLbestand documenteer je de historiek van de website en kun je achteraf achterhalen waneer welke webpagina on line was. [Mit Hilfe des XML-Bestandes wird die Geschichte der Website dokumentierte und kann später ermittelt werden, wann welche Webseite online war.]” (Broudrez, David Nr. 5, 2002, S. 5 f.) 85 Abb. 12: Stadsarchief Antwerpen: Metadataschema voor gearchiveerte websites (NL/[D]). 84 35 Ablauf der Archivierung Indexierung Von der gespiegelten und migrierten Intranetseite (und evtl. von der XMLDatei mit den Metadaten) wird ein Index (Indexy1´) mittels einer Indexierungssoftware erstellt. Es besteht bereits eine Vielzahl von Softwareproduktenzur Indexierung des Webs. Erfahrungen zu dieser Thematik gibt es bereits aus dem Projekt der Nordic Web Archives 86 . Ein Produkt wurde bisher noch nicht ausgewählt. Der Index wird auf das Archivierungs- und Benutzungsmedium gepseichert. Damit wird eine Suche innerhalb dieses Mediums möglich. Recherche und Zugang Für die Auswahl eines bestimmten Snapshot´s muss eine Suche über die gesamten Indizes durchgeführt werden. Die Anzahl der gesamten Indizes ergibt sich aus der Summe der Indizes jedes Indizes eines Spiegelungsprojektes (Indexy1´ + Indexy2´ + Indexy1+n´). Über die eindeutige Identifikation des Mediums kann anschließend auf den Snapshot des Intranets bzw. auf das Speichermedium zugegriffen werden. Archivierungs- bzw. Speichermedium Für die Archivierung ist ein Speichermedium auszuwählen, dass handhabbar ist, eine lange Lebensdauer aufweist und für eine Benutzung geeignet erscheint. Als Archivierungs- und Benutzungsmedium entschied sich das Historische Archiv für die CD-ROM. Sie bietet folgende Vorteile: - Die CD-ROM ist sehr weit verbreitet und eignet sich als Benutzungsmedium. - Das Auszeichnungsformat ist in der Norm ISO 9660 festgelegt. - Die Zugriffszeit ist im Vergleich zu Magnetbändern sehr kurz. - Die durchschnittliche Lebensdauer beträgt ca. 30 Jahre. - Die Speicherkapazität der CD-ROM liegt bei ungefähr 650 MB. Durch die Weiterentwicklung Speicherkapazität 86 von gibt 700 es bereits oder aber CD-ROMs auch 850 mit einer MBV. Die Vgl. http://nwa.no/aboutNwaT.php 36 Ablauf der Archivierung Speicherkapazität ist demnach ausreichend für einen Snapshot des derzeitigen Intranets 87 . Die Einschränkung für die Länge der Verzeichnungskette, die dem Archiv der sozialen Demokratie Schwierigkeiten bereitete, kann nach Ansicht von Herrn Wolf auch durch bestimmte Einstellungen an der Spiegelungssoftware verhindert werden. Welche konkreten zusätzlichen Arbeitsschritte tatsächlich notwendig sind, um den Snapshot mit dem Index auf das Medium zu brennen, wird die Praxis zeigen. Die Nachfolgetechnologie der CD-ROM, die DVD, wird vorerst nicht verwendet, da die höhere Speicherkapazität von 4,7 GB für die derzeitigen Snapshots des Intranets nicht relevant sind. Wohl aber könnten mehrere Snapshots auf ein Medium gespeichert werden und so eine snapshotübergreifende Recherche ermöglichen. Das Medium sollte regelmäßig kontrolliert und erne uert werden. Präsentation Abschließend muss das Medium für die Präsentation aufbereitet werden. Für die Benutzung im Historischen Archiv müsste eine Eingangsseite gestaltet werden, die die Signatur, den Titel, das Datum der Spiegelung und die Optionen „Re cherche“ und „Sitzung beenden“ enthalten. Für die Nutzung über das Intranet müsste eine andere Präsentationsform gewählt werden, da nur in Auszügen archivierte Intranetauftritte zur Verfügung gestellt werden sollen. Auch dafür muss eine Webseite gestaltet werden. Anregungen dazu können aus bereits bestehenden Projekten entnommen werden88 . Festzuhalten ist, dass der Bestand des Webarchivs von dem Stadsarchief Antwerpen online tabellarisch präsentiert wird und eine gute Übersicht darstellt. Der Benutzer kann die Metadaten über einen Link 87 Vgl. Spiegelungstest der BRAIN. Sie umfassten 100-200 MB. Die Testergebnisse sind aber nur vorläufig und sollten nach Festlegung der Bewertungsentscheidung nochmals durchgeführt werden. Es ist aber auch zu vermuten, dass die maximale Speicherkapazität der CD-ROM nicht überschritten wird. 88 Abb. 13: Beispielge für die Online-Benutzung von Webarchiven. 37 Ablauf der Archivierung einsehen. Im Projekt „Nordic Web Archiv“ kann der Nutzer über einen Zeitstrahl die Versionen einer Website einsehen und vergleichen. Beide Präsentationen sind sehr komfortabel. Zu beachten ist auch, dass die PCs mit der entsprechenden Hardware- und Software ausgestattet sein müssen, damit die Inhalte und Anwendungen lesbar und interpretierbar bleiben. Dazu zählen u.a. der Browser sowie Text-, Bild- und Videoverarbeitungsprogramme. 38 Die Bewertung 7. Die Bewertung Nach der auswählenden Archivierungsstrategie, die mit einer Spiegelungssoftware durchgeführt wird, muss nun ein Bewertungskonzepts entwickelt werden, nachdem eine authentische Überlieferung gebildet werden kann. Im Rahmen der Untersuchung in der Intranetredaktion der Dresdner Bank wurden die Richtlinien für die Auswahl bestimmter Intranetauftritte erarbeitet. Diese Kriterien wurden an dem Beispiel des Corporate Centers Unternehmenskommunikation angewendet, mit Herrn Pasqualotto (Content Manager) besprochen und deren Umsetzung mit der Spiegelungssoftware HTTrack beobachtet. Die Bewertung findet bereits im vorarchivischen Aufgabenfeld, während der Publikationsphase der Intranetseiten, statt. Im Archivierungsablauf für das Intranet steht die Be wertung am Anfang. Denn daraus ergeben sich die Spiegelungsintervalle und –tiefe, sowie die Einbeziehung und der Ausschluss bestimmter Links, Pfade oder Domänenbezeichnungen. 7.1. Ziel der Bewertung Bereits am Anfang wurde beschrieben, welche Ziele das Historische Archiv mit dem Projekt verfolgt 89 . Das Intranet der Dresdner Bank soll dauerhaft gesichert und aufbewahrt werden. Es ist nicht das Ziel, das gesamte Intranet zu archivieren. Deshalb müssen Auswahlkriterien entwickelt werden. Ein Ergebnis der Bewertung ist die Erhaltung der Beweiskraft von aufgezeichneten Aufgaben, Prozessen, Aktivitäten und Vorgängen die von dem Unternehmen bzw. deren Beschäftigten ausgeführt werden. Ein anderes zielt darauf hin, die Aufgaben und Funktionen des Registraturbildners wiederzugeben. Für die National Archives of Australia kann der Beweiswert für die Geschäftstätigkeit in Form eines Snapshots des Intranets sein oder in Dokumenten liegen, die sich im Intranet befinden. 89 Siehe „Das Projekt“, S. 3 39 Die Bewertung „An internal agency document which provides evidence of business activity (it may be a document on an intranet, a snapshot of an intranet, an internal draft of a publication, a record of a transaction carried out through a website, an email message, or some other form of electronic document)”90 William G. LeFurgy stellt jedoch auf Grund der Flüchtigkeit der Informationen und deren Technik fest, dass der Beweiswert nicht in webbasierten Auszeichnungen, sondern in anderen elektronischen Systemen oder in Papierdokumenten liegen müsste. „And while things may change in the future, the critical documentary evidence of an organization’s activities most often reside somewhere others than the web, such as in other electronic systems or in paper documents.”91 Trotz der Kontroversen über das, was Bewertung wiedergeben sollte, steht für das Historische Archiv der Dresdner Bank fest, dass das Intranet Informationen beinhaltet, die evident für das Unternehmen sind. Dazu zählen vor allem die internen Rundschreiben und aktuellen Geschäftsinformationen, die über BINGO ausschließlich digital zur Verfügung stehen. Ein weiteres Ziel der Bewertung ist, dass die einzelnen Intranetinhalte im ursprünglichen Zusammenhang erscheinen und für eine spätere Nutzung lesbar und interpretierbar sind. Ferner sollen die Bewertungsansätze aus Sicht der Arbeitsökonomie ohne großen Zeit- und Personalaufwand gut umsetzbar sein. 7.2. Bewertungsrichtlinien in Archiven Charakteristisch für das Intranet ist, dass es den Mitarbeitern firmeninterne und –externe Informationen bereitstellt. In der Papierwelt entspräche es einer umfassenden, regelmäßig erscheinenden Unternehmenspublikation, 90 91 NAA, Policy, 2002, S. 10. LeFurgy, Management, 2001. 40 Die Bewertung deren Ausgaben vollständig vorliegen sollte92 . Denn die Publikation gibt Auskunft über Ziele und Schwerpunkte der Unternehmenstätigkeit, mit der sich häufig Zuständigkeiten und Organisation des Unternehmens ändern. Dazu zählen u.a. Beteiligungen, Tochtergesellschaften und Fusionen. Publikationen, öffentliche Verlautbarungen des Unternehmens, Geschäftsberichte, Image- und Produktbroschüren, Pressemittelungen und interne Rundschreiben stellen eine wichtige Quelle für die spätere Forschung dar 93 . Diese sind vollständig dauerhaft aufzubewahren. Die Ausführungen von Renate Köhne-Lindenlaub im „Handbuch für Wirtschaftsarchive“ über archivwürdige Materialien, sind mit denen des Historische n Archivs der Dresdner Bank identisch94 . Im Intranet befindet sich eine Vielzahl der genannten Publikationsarten. Da die Archivierung des gesamten Intranets nicht im Sinne des Historischen Archivs ist, müssen Bewertungsentscheidungen nach formalen, systematisch- inhaltlichen und nachfrageorientierten Kriterien getroffen werden. Sie werden für die Bewertung von Akten verwendet. Ein Ziel der Kriterien ist, Doppelüberlieferungen zu vermeiden. Das betrifft zum Beispiel Online-Publikationen, die in gedruckter Form vorliegen. Auswahlkriterien dafür wurden im Rahmen des PANDORA-Projektes entwickelt 95 . Weitere Kriterien sind der Aggregierungsgrad der dargestellten Informationen, die Lesbarkeit, die Interpretierbarkeit, die Zugänglichkeit, die Aufbewahrungsfristen (z. B. für aktuelle Geschäftsinformationen/ 92 Köhne-Lindenlaub, Bewertung, 1998, S. 118f. Ebd. 94 Archivwürdige Materialien sind für das Historischen Archiv: Geschäftsberichte, Hausund Kundenzeitschriften, Festschriften zu Jubiläen, Gebäude- und Zweigstelleneinweihungen und Fusionen, Dokumentationen, veröffentlichte Artikel, Vorträge, Bücher von Mitgliedern der Vorstände oder sonstiger Leitungsorgane, Presseverlautbarungen, und Werbematerialien. 95 Vgl. NLA, Selection, 2001. 93 41 Die Bewertung Rundschreiben96 ) sowie die zu erwartende interne als auch externe Nutzernachfrage 97 . Für die praktische Umsetzung der Bewertung gibt es vier Bewertungskategorien: - eindeutig archivwürdig - eindeutig nicht archivwürdig - Grenzfälle - prinzipiell archivwürdig mit Reduzierung bei großen Überlieferungen Die Bewertungskriterien, die eben genannten Kategorien und die Protokollführung zu dem Bewertungsprozess können in der digitalen Umgebung übernommen werden98 . Denn die Bewertung digitaler Aufzeichnungen folgt den gleichen Prinzipien. Sie müssen aber, entsprechend der Charakteristik digitaler Informationen, angepasst werden. Allgemeine Richtlinien für die archivische Bewertung digitaler Informationen sind in Preserving Digital Information aufgeführt. Es ist das Ergebnis der Arbeitsgruppe Task Force on Archiving of Digital Information und bildet die Grundlage für verschiedene Projekte, die sich mit der Archivierung von einzelnen Websites befassen99 . Darin heißt es, dass Auswahlkriterien eine Bewertung beinhalten nach dem Inhalt des Objektes in Beziehung zum Sammlungsziel des digitalen Archivs, der Qualität und der Einzigartigkeit des Objektes: „In general, selection criteria include an appraisal of the content of the object – its subject and discipline – in relation to the collection 96 Die gesetzliche Aufbewahrungsfrist für interne Rundschreiben als Arbeitsanweisungen oder Organisationsunterlagen [die] zum Verständnis der Buchführung erforderlich“ ist, beträgt 10 Jahre. (Dauen, Aufbewahrungspflichten, 2002, S. 92) Auch die Dresdner Bank besitzt einen internen Fristenkatalog. Inwiefern die Aufbewahrungsfristen für Intranetangebote durch die verantwortlichen Unternehmensbereiche eingehalten werden, kann nicht kontrolliert werden. Da Rundschreiben und Geschäftsberichte für das Archiv sowieso archivwürdig sind, hat das dieses Kriterium keine Auswirkungen bei der Auswahl der Intranetangebote. 97 Köhne-Lindenlaub, Bewertung, 1998, S. 109. 98 Ebd. S. 116. 99 Vgl. Lyman, Archiving WWW, 2002. 42 Die Bewertung goals of the digital archives, the quality and uniqueness of the object.“100 7.3. Bewertungsrichtlinien für (Teile von) Websites Für die Bewertung von Webseiten müssen die allgemeinen Richtlinien in Preserving Digital Information für Hypertextdokumente angepasst bzw. umgesetzt werden. Ausgehend vom Ziel des Projektes, werden erste Bewertungsentscheidungen getroffen, die von der Herangehensweise abhängen. Projekte der vollständigen Herangehensweise definieren die TopLevel-Domain101 , um diese mittels „Web crawler“ in einem regelmäßigen Zyklus zu archivieren. Sie führen eine Bewertung auf Makroebene durch. Projekte der auswählenden Herangehensweise wählen z. B. elektronische Publikationen, Diskussionslisten, einzelne Websites oder nur eine Website aus. Für die auswählende Archivierungsmethode gibt es Richtlinien zur Auswahl von Online-Publikationen und für die Einschätzung des (Archivierungs-)Risikos, die als Grundlage für die Spiegelungstiefe, Archivierungsintervalle und den Einsatz bestimmter Filter dienen. 7.3.1. Auswahlkriterien für Online-Publikationen In Guidelines for the Selection of Online Australia Publications Intended for Preservation by the National Library of Australia102 werden Richtlinien zur Auswahl von Online-Publikationen gegeben. Die Nationalbibliothek verfolgt das Ziel, nur australische Online-Publikationen auf Dauer zugänglich zu machen. Dazu zählen die traditionellen Sammlungsobjekte von Bibliotheken (Bücher, Magazine, Zeitschriften, Zeitungen u.ä.), die öffentlich über das Internet in elektronischer Form zugänglich sind. Organisatorische Aufzeichnungen oder einzelne Materialien, die im Zuständigkeitsbereich von Archiven liegen, werden von den National Archives of Australia bewertet und archiviert 103 . 100 Task Force, Preserving Information, 1996, S. 21. Zum Beispiel: „The Internet Archive“ - .com; „Kulturarw3-Projekt“ - .se 102 NLA, Selection, 2001. 103 Abb. 14: Zuständigkeiten der National Library of Australia und der National Archives of Australia bei der Archivierung webbasierter Aufzeichnungen. 101 43 Die Bewertung Die National Library of Australia erklärt die Notwendigkeit von Auswahlkriterien damit, dass nicht alle Versionen bzw. Editionen aufbewahrt werden können. Diese Vorgehensweise gleicht der für die Auswahl von Printausgaben. Die Festlegung der Archivierungsintervalle hängt ab von dem Publikationsmuster, der Bedeutung enthaltener Informationen sowie der Stabilität der Website. So sollten einige „Titel“ so vollständig wie möglich vorliegen. Bei anderen dagegen würden einige Snapshots ausreichen. „The National Library will not attempt for preserve all versions/editions of a selected online title, just as we do not attempt to preserve all stages of a print loose item. In the online environment, publications can and often do change frequently and it is not feasible to capture all instances of change. A decision will be made on the frequency of capture of the information, and the stability of the site will be factors that affect this decision. Some titles will be captured as comprehensively as possible, while others may have a just a one off ‘snapshot’ taken of them.”104 Liegt die australische Online-Publikation in anderen Speichermedien vor, wie z. B. in Papierform oder auf Mikrofilm, wird die Online-Version nur aufbewahrt, wenn sie wichtige zusätzliche Informationen oder Bedeutung hat. Sonst wird generell die gedruckte Form bevorzugt. Sind die gleichen Informationen sowohl online als auch auf CD-ROM oder auf Diskette verfügbar, wird die Online-Version bevorzugt. Eine hohe Priorität haben maßgebliche Publikationen mit einem hohen zu erwartenden Nachfragewert. In der weiteren Ausführung zu „authoritative publication“ wird erklärt, dass zu einem authentischen Titel sowohl die Organisation bzw. Person, die für die Publikation verantwortlich ist, als auch die Qualifikation des Webpublishers bekannt sein sollte. „High priority is given to authoritative publications with long term research value. […] In order to determine the authority of a title, it should be clear which organization or individual is responsible for 104 Vgl. Kapitel 3.5 in: NLA, Selection, 2001. 44 Die Bewertung producing it and what the qualifications or expertise of the creator/s are. Ideally, background information about the organisation or individual should be available.” 105 Entspricht die Online-Publikation nicht den genannten Kriterien zur Authentizität und Nachfrage, wird sie auch nicht archiviert. Publikationen mit einem geringem Aggregierungsgrad, deren Informationen bereits woanders vorliegen, werden nicht aufbewahrt. „Where an online publication provides a superficial view of information which is readily available elsewhere, either electronically or in print, it will not be selected for preservation.”106 Informationen über Sponsoren oder sonstige Unterstützungen können die Bewertung zur Auswahl positiv beeinflussen. Auch innovative Beispiele von Internetpublikationen, die für die spätere Forschung interessant sein könnten, werden für die dauerhafte Aufbewahrung ausgewählt. „Innovative examples of types of Internet publications that may have future research value because of experimental use of new technology may be selected.“107 Die Auswahl nach thematischen Gesichtspunkten dient nur dazu, die gedruckte Sammlung zu ergänzen bzw. mit weiterreichenden Informationen zu vervollständigen. Für Australien werden die Beispiele der Aborigines und der Olympischen Spiele genannt. „The intention is not to duplicate the print collections, but to complement them by providing the broader context.“108 105 Kapitel 4.3.1 in: NLA, Selection, 2001. Kapitel 4.3.3 in: ebd. 107 Kapitel 4.3.5 in: ebd. 108 Kapitel 4.4 in: ebd. 106 45 Die Bewertung Wichtig für die Auswahl von Websites ist es, die Grenzen zu definieren. So sollten nur interne Links archiviert werden. „If a publication has a number of internal or external links, the boundaries of the publication need to be decided. Internal links only are archived.”109 Größere Websites sollten in einzelne Komponenten zerlegt und diese dann nach den einzelnen Bewertungskriterien ausgewählt werden. Können die Komponenten dagegen nicht separat betracht werden, sollte die Website als Ganzes archiviert werden. „However, sometimes the components of larger publications or sites do not stand well on their own but together do form a valuable source of information. In this case, if it fits the guidelines, the site should be selected for archiving as an entity.”110 Neben den allgemeinen Auswahlrichtlinien gibt es auch Regeln für spezielle Publikationsformen, wie Jahresberichte, digitalisierte Materialien oder aber auch Zeitungen. Für online-verfügbare Jahresberichte gilt, dass diese nur dann ausgewählt werden, wenn sie nicht in gedruckter Form vorliegen oder nicht regelmäßig in anderen Publikationsformen (wie CD-ROM oder Diskette) erscheinen. Bei Zeitungen und Zeitschriften wird ähnlich wie bei Jahresberichten vorgegangen. Online-Publikationen werden nicht aufbewahrt, wenn die Informationen der gedruckten Ausgabe nur dupliziert werden. Digitalisierte Materialen, deren Original z. B. in Papierform vorliegt, werden generell nicht aufbewahrt, da die National Library of Australia davon ausgeht, dass die Abteilungen ihre eigenen digitalen Materialien sichern. Es gibt aber auch Ausnahmefälle, die die Bewertungsentscheidung beeinflussen. Demnach werden digitalisierte Materialien ausgewählt, wenn es sich erstens um historische Dokumente handelt und deren Archivierung unterstützt werden soll und zweitens, wenn die Webseite mehr als eine digitalisierte Kopie enthält. 109 Kapitel 4.5.1 in NLA, Selection, 2001.: 46 Die Bewertung Im Unterschied zum archivischen Aufgabenfeld, dass von den National Archives of Australia bearbeitet wird, wählt die National Library of Australia keine organisatorischen und persönlichen Seiten aus. Gleiches gilt für Entwürfe und Arbeiten, die noch im Prozess sind. Denn es sollen möglichst nur vollständige, komplette Dokumente ausgewählt werden. 7.3.2. Einschätzung des Risikos Für die Bewertung von einzelnen Webauftritten ist nach dem Guidelines for Keeping Records of Web-based Activity in the Commonwealth und der Publikation An Approach to Managing Internet and Intranet Information for Long Term Access and Accountability eine Risikoanalyse der Webseiten entscheidend. Wie oft ein Snapshot einer Website durchgeführt werden soll, hängt von dem Ergebnis der Einschätzung ab. Bei der Risikoanalyse wird mit Blick auf die dauerhafte Aufbewahrung des Snapshots untersucht, welche Probleme auftreten, warum und was dagegen getan werden kann. Das Risiko bezieht sich auf den Verlust der Daten und dem Verwaltungsaufwand, um dies zu vermeiden. Man spricht auch von „risk management“. „Risk management is defined as the systematic application of policies, procedures and practices to the tasks of identifying, analysing, evaluating, and monitoring risk. Essentially it involves anticipating what can go wrong, why and what can be done.”111 Wird das Risiko hoch eingeschätzt, müssen mehr Anstrengungen für die Bewahrung und Erhaltung der digitalen Aufzeichnungen unternommen werden. Dies beeinflusst die Festlegung der Archivierungsintervalle und die Auswahl bestimmter Websites oder einzelner Webseiten. Risikoeinschätzung der National Archives of Australia Die Richtlinien zur Einschätzung des Risikos durch die Abteilungen der Commonwealth-Regierung werden ausführlich in Guidelines for Keeping Records of Web-based Activity in the Commonwealth beschrieben. Darin 110 111 Kapitel 4.5.2 in: NLA, Selection, 2001. Appendix 11 – Risk analysis in DIRKS, in: NAA, DIRKS, 2003. 47 Die Bewertung heißt es, dass die Bewertung das Ergebnis einer Risikoanalyse ist. Sie wird von der entsprechenden Abteilung, die für die Inhalte der Webseite verantwortlich ist, durchgeführt. „`Any commonwealth agency that administers a website must assess the business risk it faces in maintaining an online presence…´ The policy does not explicitly prescribe the extent of recordkeeping required, because the result of a risk assessment will guide agencies´ selection of recordkeeping strategies. Where an agency faces high levels of risk exposure, comprehensive records will need to be captured and maintained, possibly over long period of time.”112 “This policy does not dictate how often agencies should make records of their web resources […]. Such decisions can only be made intelligently in the context of an agency´s particular business risk environment.” 113 Das Ergebnis der Risikoeinschätzung ist zu dokumentieren und soll zu einer Strategie für webbasierte Aufzeichnung in der Abteilung bzw. Behörde führen. Wird ein hohes Risiko ermittelt, müssen die Aufzeichnungen für eine dauerhafte Aufbewahrung vollständig erfasst werden. Im Hintergrund liegende Informationen müssen freigelegt und verfügbar sein (z. B. Informationen aus Datenbanken). Für die Einschätzung des Risikos werden von den National Archives of Australia vier Faktoren genannt 114 : 1. Sichtweise der Öffentlichkeit auf die Behörde Das öffentliche Profil wird beeinflusst durch die Aufgaben der Behörde und deren Wechselwirkung mit der Öffentlichkeit. Das heißt, dass frei zugängliche Informationen einer Abteilung, die mehr 112 Australian Standard AS 4390.5-1996, Records Management, 6.3 (zit. aus: NAA, Guidelines, 20001, S. 20), NAA, Guidelines, 2001, S. 20. 113 NAA, Policy, 2002, S. 15. 114 Vgl. NAA, Guidelines, 2001, S. 20-23; Abb. 15: Faktoren für die Risikoanalyse der National Archives of Australia. 48 Die Bewertung im Blick der Öffentlichkeit steht, in eine höhere Risikogruppe einzuordnen ist, als jene Abteilung, die überwiegend im Hintergrund ihre Geschäftstätigkeit ausführt. Zur hohen Risikogruppe gehören auch Webseiten, auf denen Veränderungen von Sachverhalten direkt angezeigt werden (z. B. in der Organisation oder bei Funktionen). 2. Ziel der Website Auf Websites werden eine Vielzahl von Informationen und Funktionen bereitgestellt, mit denen verschiedene Absichten verfolgt werden. Dazu zählen die Veröffentlichung von Informationen, die Kommunikation, die Dienstleistungen und Kooperation, den Zugang das zu Anbieten von Produkten. Eine Risikoeinschätzung zum Ziel der Website wird im Zusammenhang mit der Funktion der Abteilung und deren öffentlichen Profil getroffen. 3. Komplexität der Website Je komplexer die Website ist, desto größer ist das Archivierungsrisiko. Ein geringes Risiko besteht bei statischen oder dokumentorientierten Webseiten. Dynamisch generierte und anwendungsbasierte Webseiten weisen ein viel höheres Risiko auf. Denn der Aufwand, die Informationen zu selektieren, zu sichern, lesbar und interpretierbar zu behalten, ist höher als bei statischen Webseiten. 4. Häufigkeit und Regelmäßigkeit der inhaltlichen Änderungen Häufig ändernde Webseiten sind nach den National Archives of Australia Seiten, deren Inhalte innerhalb von drei Monaten gewechselt werden. Änderungen, die nach mehr als drei Monaten stattfinden, werden dagegen als weniger häufig eingeschätzt. Ein weiteres Kriterium ist die Frage, ob die Inhalte in regelmäßigen Zeitintervallen geändert werden. Ein hohes Risiko liegt vor bei 49 Die Bewertung Webseiten, deren Inhalte entweder nicht häufig aber regelmäßig oder häufig aber nicht regelmäßig durchgeführt werden. Risikoeinschätzung des Information Management Forums In den Richtlinien An Approach to Managing Internet and Intranet Information for Long Term Access and Accountability des Information Management Forums 115 wird das Risiko nach ähnlichen Faktoren, wie eben genannt, eingeschätzt. Das Risiko wird in drei Niveaus (hoch, mittel, gering) nach folgenden Kriterien eingeteilt: - Evidenz- und Informationswert der dargestellten Informationen - angemessene Umgebung der bestehenden Verwaltungsstrukturen der Website - Existenz grundlegender Verwaltungsstrukturen, wie Daten- verwaltung und Klassifikationsschemen - Änderungsintervalle und –häufigkeit Die Einteilung basiert auf einem Model der Autoren Charles R. McClure und J. Timothy Sprehe 116 . Ein geringes Risiko liegt vor, wenn die Inhalte einer Website unter einer wirkungsvollen Kontrolle publiziert werden. Dies ist auch der Fall, wenn die Website überwiegend aus statischen Seiten und wenigen interaktiven Element besteht, die Inhalte alle im Datenhaltungssys tem vorliegen (z. B. CMS) und enthaltene Online-Publikationen noch in anderen Speichermedien publiziert werden. Ein mittleres Risiko besteht bei Websites, deren Kontrolle nicht ausreichend bei einer wachsenden Anzahl von Webseiten ist. Die Webseiten sind teils statisch teils dynamisch, mit einer zunehmenden interaktiven Funktion. Die Contents liegen nicht alle im Datenhaltungssystem vor und für OnlinePublikationen existiert nicht immer eine äquivalente Printausgabe. Bei Websites mit einem hohen Risiko spitzt sich die Situation zu. Eine Kontrolle über die Inhalte ist nur sehr schwer möglich. Die Webseiten sind 115 116 Vgl. IM Forum, Approach, 1999. Vgl. McClure, Analysis, 1998 (zit. aus: IM Forum, Approach, 1999). 50 Die Bewertung dynamischen und interaktiven Charakters, liegen überwiegend nicht im Datenhaltungssystem vor und viele Online-Publikationen haben keine gedruckte Ausgabe mehr. 7.4. Bewertungsstrategie Für die Umsetzung der Bewertungskriterien werden von den National Archives of Australia zwei Bewertungsstrategien117 , „object-driven“ (objektgesteuert) oder „event-driven“ (ereignisgesteuert), vorgeschlagen. Für welche der beiden sich entschieden werden sollte, hängt ab von der Komplexität der Webquelle, der Art der webbasierten Interaktionen, von dem Ergebnis der Risikoeinschätzung sowie der Analyse für die Anforderungen an die Datenhaltung. Eine Kombination der beiden Strategien wird jedoch empfohlen118 . Die objektgesteuerte Bewertungsstrategie ist geeignet für statische Websites, die eine Sammlung von HTML-Dokumenten umfassen und keine komplexen Interaktionen enthalten. Folglich könnten Snapshots in periodischen Zeitabständen von der Website gemacht werden. Die ereignisgesteuerte Bewertungsstrategie wird empfohlen für Webauftritte, die aus einer Reihe von interaktiven oder dynamisch generierten Webseiten bestehen. Sie liefern eine Antwort unikaten Charakters auf eine bestimmte Anfrage. Diese Vorgehensweise ist Bestandteil einer funktionalen Bewertung für die Geschäftstätigkeit einer Abteilung. Denn damit werden auch Ereignisse oder Transaktionen erfasst, die zwischen der Webseite und dem Nutzer stattfinden119 . 7.5. Bewertung des Intranets 7.5.1. Allgemeines Die Gesamtheit der aufgeführten Bewertungskriterien können nicht 1:1 für die Bewertung des Intranets übertragen werden. Die Grundprinzipien der 117 Vgl. NAA, Guidelines, 2001, S. 24. „Agencies may consider object-driven or event-driven approaches or, better still, a combination of the two.“ (NAA, Guidelines, 2001, S. 24) 119 Dazu gehört: Benutzerprofil, Style Sheets, Suchmaschinen, Skripte und Programme, regelmäßige Snapshots der Datenbank selbst und Datenbanktransaktionsprotokolle („database transaction logs“). 118 51 Die Bewertung Bewertung, dargestellt im „Handbuch für Wirtschaftarchive“, müssen an das digitale Medium angepasst werden. Die Risikoanalyse, wie sie von den National Archives of Australia und des IM Forums vorgeschlagen wird, hat für die Bewertung des Intranets nur für das Kriterium der „Zugänglichkeit und Erhaltungszustand“ der Aufzeichnungen eine Bedeutung. Aus diesem Grund wird auf eine ausführliche Einschätzung des Risikos für das Intranet verzichtet. 7.5.2. Bewertungskriterien Aus den verschiedenen Bewertungsansätzen kristallisierten sich folgende Bewertungskriterien heraus: 1. Ziel der Archivierung 2. archivischer Zuständigkeitsbereich des Historischen Archivs der Dresdner Bank 3. Gesamtfunktion der Abteilung bzw. des Intranetangebotes im Unternehmen 4. Evidenzwert für die Dresdner Bank 5. Aggregierungsgrad der enthaltenen Informationen 6. Häufigkeit und Regelmäßigkeit der Änderungen 7. Redundanzen vermeiden 8. Recherche- und Nachfragewert 9. Zugänglichkeit und Erhaltungszustand 10. Benutzung Einzelne Intranetangebote wurden daraufhin analysiert und das Ergebnis schriftlich festgehalten120 . 1. Ziel der Archivierung Wie bereits erwähnt, ist das Ziel der Archivierung das Intranet der Dresdner Bank. Für die Anwendung der Spiegelungssoftware HTTrack reicht es 120 Die schriftlich festgehaltene Analyse, die in der vorliegenden Diplomarbeit, präsentiert wird, kann als ein Protokoll für die durchzuführende Bewertung betrachtet werden. Es ersetzt aber nicht das Protokoll, dass während des Archivierungsprozesses erstellt werden sollte. „Über die durchgeführte Bewertung ist ein Protokoll zu schreiben. Darin wird der gesamte Ablauf der Aktion geschildert [...] damit die Benutzer, aber auch die späteren 52 Die Bewertung jedoch nicht aus, nur den Link der Startseite http://brain.dresdner.net/ bis in eine bestimmte Tiefe 121 zu spiegeln. Denn nur ein geringer Teil des Intranetangebotes ist unter dem genannten Pfad zu finden. Deshalb muss auch eine externe Spiegelungstiefe mit angegeben werden. Links, die außerhalb des Intranets der Dresdner Bank liegen, müssen in der Voreinstellung Internetauftritten ausgeschlossen von Unternehmensbereichen der werden. Dresdner auch Dazu Bank Internet zählen oder bzw. neben von den einzelnen Intranet der Tochtergesellschaften und Beteiligungen. Domän- bzw. Pfadnamen von der Allianz können direkt ausgeschlossen werden. Hierbei muss jedoch beachtet werden, dass das Diskussionsforum unter dem Pfad der Allianz Group läuft. Dieser Link sollte entsprechend den Archivierungsintervallen wieder eingeschlossen werden. 2. Zuständigkeitsbereich Der Zuständ igkeitsbereich des Historischen Archivs der Dresdner Bank kann im Intranet relativ klar abgetrennt werden. Theoretisch liegen alle Angebote des Intranets der Dresdner Bank im Zuständigkeitsbereich. Ausnahmen bilden Schnittstellen zum Mutterunternehmen Allianz AG. Zunehmend werden Unternehmensbereiche der Dresdner Bank der Allianz zugeordnet 122 . Als Hilfestellung dient hierbei der Domänname und die Zuordnung im Konzernnavigator zu der Rubrik „Allianz“ oder den anderen Rubriken, die zur Dresdner Bank gehören. 3. Gesamtfunktion im Unternehmen Das Intranetangebot wird nach der Gesamtfunktion im Unternehmen bewertet. Das betrifft die Auftritte der zentralen Abteilungen und der Corporate Centers, der Filialen bzw. Niederlassungen sowie der Tochtergesellschaften und Beteiligungen. Hohe Priorität haben die zentralen Abteilungen und die Corporate Centers. Danach folgen die Filialen/ Archivare wissen, wie der archivierte Bestand gebildet wurde.“ (Köhne-Lindenlaub, Bewertung, 1998, S. 117) 121 Die Spiegelungssoftware unterscheidet zwischen einer internen- und ext ernen Verzeichnungstiefe. Die interne Verzeichnungstiefe geht von der angegebenen URL als Startpunkt aus. Verzeichnungsnamen, die nicht die URL enthalten, können unter Angabe einer externen Verzeichnungstiefe mitgespiegelt werden. 53 Die Bewertung Niederlassungen und schließlich die Tochtergesellschaften und die Beteiligungen. Mit Blick auf die Spiegelung wurden bei der Analyse des Intranets die relevanten Verzeichnungsebenen der einzelnen Corporate Centers ermittelt. Deren Intranetauftritte sind überwiegend in Frames aufgebaut, so dass wenige Verzeichnungsebenen ausreichen, um den wesentlichen Inhalt der Intranetauftritte wiederzugeben. Die Angaben schwanken zwischen der zweiten und sechsten Verzeichnungsebene, wobei überwiegend die zweite und dritte Ebene ausreicht. Die Zuordnung erfolgt entlang des Konzernnavigators, der die Struktur und die Organisation des Unternehmens wiedergibt. Die Präsentation bzw. das Publikationsmuster wird durch den Intranet-Styleguide vorgeschrieben und im Regelfall umgesetzt. 4. Evidenzwert für das Unternehmen Es wurde bereits erwähnt, dass der Evidenzwert nicht unbedingt in Webseiten zu erwarten ist. Für das Archiv enthält jedoch das Intranet Angebote, die diese Unternehmensstruktur, Funktion einnehmen. Informationen zur Diese enthalten die Unternehmensentwicklung, Rundschreiben und Geschäftsinformationen, öffentliche Verlautbarungen, geben Auskunft über die Aufgaben und Funktion der einzelnen Unternehmensbereiche. Dazu können im einzelnen Informationen zählen, die über das Informationsportal direkt angezeigt werden. Das sind u.a.: Konzernnavigator, Nachrichten, Presseschau, Web-TV, Archiv, Corporate & Markets Intranet, Corporate Service, MIS und BINGO. Auch die Organigramme der Abteilungen haben evidenzwert. Die archivierten Intranetseiten sind erst evident, wenn neben dem Inhalt auch strukturelle Zusammenhänge und Kontextinformationen abgebildet werden. Unter dem Aspekt der Evidenz müssen auch die Zugänglichkeit, Lesbarkeit und Interpretierbarkeit der Informationen betrachtet werden. Denn das Ziel ist, es authentische Aufzeichnungen zu archivieren. 122 Siehe S. 18. 54 Die Bewertung 5. Aggregierungsgrad der enthaltenen Informationen Entscheidend für die Bewertung von Intranetangeboten ist deren Informationsgrad 123 . Es ist dabei zu beachten, dass die gleichen Informationen nicht mehrfach vorliegen und demnach die Webseiten auszuwählen sind, die den höchsten Aggregierungsgrad besitzen. Treten die selben Informationen an anderer Stelle ausführlicher auf, sollte diese Webseite bevorzugt werden. Das bedeutet, dass z. B. die einleitende Seite (auch Teaser genannt) für darauffolgende Seiten bei Nachrichten und Presseschau nicht mit archiviert werden muss. Unter „Archiv“ werden die Beiträge ohne Teaser gesammelt abgelegt. Dieser Rubrik kommt daher eine hohe Bedeutung zu. 6. Häufigkeit und Regelmäßigkeit der Änderungen Änderungen von Intranetangeboten können von der Intranetredaktion nur pauschal bestimmt werden, da sie nur für einen Teil der Inhalte verantwortlich ist. Diese könnten wie folgt in vier Gruppen unterteilt werden: 1. Ständige Aktualisierung (dynamisch generierte Webseiten) z. B. Börsenkurse, Newsticker, Suche 2. tägliche Aktualisierung z. B. Nachrichten, Presseschau, Archiv, BINGO 3. wöchentliche oder monatliche Aktualisierung z. B. Veranstaltungskalender, PRIMA-Stellenmarkt 4. Aktualisierung zwischen 2-6 Monaten z. B. Intranetauftritte von einzelnen Unternehmensbereichen „Ansprechpartner“, Publikationen, Projekte, Werbematerialien, Vorlagen u.ä. 5. Aktualisierung mehr als 6 Monate 124 z. B. Intranetauftritte von einzelnen Unternehmensbereichen „Philosophie und Zielsetzung“, anwendungsbasierte Webseiten (z. B. Reisekostenabrechnung) 123 Aggregierungsgrad: Grad der enthaltenen Informationen. Herr Pasqualotto geht davon aus, dass die meisten statischen Webseiten innerhalb von sechs Monaten mindestens einmal geändert werden. 124 55 Die Bewertung 7. Redundanzen vermeiden Zur Vermeidung von Redundanzen liefern die ausgeführten Guidelines for the Selection of Online Australian Publications der National Library of Australia eine gute Grundlage. Werbematerialien bzw. Kataloge über verfügbare Produkte 125 sind über das Intranet verfügbar und können heruntergeladen werden. In den meisten Fällen liegen sie noch in Papierform oder auf einem anderen Speichermedium126 vor und brauchen deshalb nicht archiviert werden. Um Doppelüberlieferungen zu ermeiden, sollten Online-Publikationen wie „dresdner banker“ oder „dresdner dwm“, die auch analog vorliegen, nicht archiviert werden. Es ist die Papierform zu bevorzugen. Ebenso sollte bei digitalisierten Materialien, wie Fotos, vorgegangen werden. Sind aber historisch wertvolle Dokumente digitalisiert worden, können die online vorliegenden Aufzeichnungen für die Bestandserhaltung verwendet werden. Der Intranetauftritt des Historischen Archivs enthält eine Vielzahl digitalisierter Materialien. Einerseits ist es nicht notwendig, diese noch einmal zu archivieren, da sie bereits im Archiv digital vorliegen. Andererseits ist es nicht sinnvoll auswählend vorzugehen, da der Kontext und der strukturelle Zusammenhang verloren gehen kann, bzw. schwer wiederherstellbar ist. 8. Recherche - und Nachfragewert Einfluss auf Bewertungsentscheidungen nimmt der Aspekt der späteren internen als auch externen Nachnutzung. Leider gibt es noch keine Benutzererfahrung auf Zugriffe von sogenannten „Web Archives“. Über das Intranet gibt es aber (Benutzungs-)Statistiken, die regelmäßig durchgeführt werden. Demnach sollten die häufig aufgerufenen Intranetangebote regelmäßig und eventuell vollständig archiviert werden. Dazu zählen die Nachrichten und Pressemittelungen, das Web- TV Diskussionsforum. Aus archivischer Sicht sollten diese und das speziellen Intranetangebote ergänzt werden durch solche, die sowohl vom historischen 125 Das sind zum Beispiel Kataloge mit Kundengeschenken, Drucksachen, Broschüren und Videoclips laufender Werbeaktionen. 126 Es werden zum Beispiel die Videoaufzeichnungen des Web-TV´s nach Aussage von Herrn Boenke (Ansprechpartner für das Web-TV) gelegentlich auf CD-ROM aber immer auf Betacam-SP gespeichert. 56 Die Bewertung Interesse für das Unternehmens als auch für die spätere Wissenschaft und Forschung sind. Zu den bereits genannten archivwürdigen Intranetangeboten sollten auch Funktio nalitäten, Animationen o. ä. archiviert werden, die die Charakteristik von Webseiten unterstreichen (z. B. Ticker, Interaktionen, Kommunikations- und Dialogmöglichkeiten). In den kommenden Jahren ist zu erwarten, dass funktionale Bewertungsentscheidungen zunehmen werden und ein Konzept für die ereignisgesteuerte Archivierung erfordert. In den kommenden Jahren werden in der Benutzung sicherlich onlineverfügbaren Publikationen eher bevorzugt werden als Printausgaben. Deshalb sollte der Aspekt bei Doppelüberlieferungen, nachdem nur die gedruckten Ausgaben zu bevorzugen und deren Online-Publikationen auszuschließen sind, mit Blick auf die Benutzung nochmals überlebt werden. Die Online-Ausgaben könnten separat mit der Spiegelungssoftware heruntergeladen und abgespeichert werden. Ein Sonderfall ist sicherlich auch das online-verfügbare Telefonbuch. In der Papierwelt haben Informationen des Telefonbücher nicht Online-Telefonbuchs dauerhaften werden aus Archivwert. hinterlegten Datenbanken je nach Abfrage unterschiedlich dynamisch generiert. Nach Wunsch des Historischen Archivs soll es jedoch archiviert werden. Folglich müsse ein Konzept für die Archivierung dieser Daten aus den Datenbanken entwickelt werden. 9. Zugänglichkeit und Erhaltungszustand Die digitalen Informationen müssen für die Archivierung zugänglich sein. Werden für bestimmte interne Bereiche, die mit archiviert werden sollen, Passwörter benötigt (z. B. „UK-info“ ist ein geschützter Informationsbereich für Mitarbeiter), müssen diese verfügbar sein, so dass dieser Bereich des Intranets gespiegelt werden kann. Das Ziel, eine vollständige und genaue Kopie der Website von einem bestimmten Zeitpunkt aus der Vergangenheit zur Verfügung zu stellen, stößt an Grenzen, wenn Fehlermeldungen auftreten. Mit der Spiegelungssoftware HTTrack besteht die Möglichkeit, die Spiegelung zu einem anderen 57 Die Bewertung Zeitpunkt mit den gleichen Voreinstellungen zu wiederholen und die nicht verfügbaren Seiten zu ergänzen. Ändert sich in der Zeit die Webseite, kann aber nicht mehr von einem authentischen Ergebnis ausgegangen werden. Denn der neue Inhalt wurde in der bereits archivierten Website eingefügt und entspricht nicht dem Ist-Zustand der ersten Spiegelung. Eine Möglichkeit, mit dem Problem umzugehen, ist es, die Fehlermeldungen als Teil der Momentaufnahme zu betrachten und als ein Ergebnis mitzuspiegeln. Ferner sollten die enthaltenen Informationen lesbar und interpretierbar sein. Liegen die Informationen nicht in einem Standardformat vor, sollte entsprechend dem Informationsgehalt entschieden werden, ob es sich lohnt, diese zu archivieren und ggf. zu migrieren. Hierbei denke ich besonders an Text-, Grafik-, Sound- und Videoformate die nicht plattformunabhängig sind und von wenigen Anwendungen unterstützt werden. 10. Benutzung Mit Blick auf die Benutzung sollte darauf geachtet werden, dass die Intranetseiten navigierbar und recherchierbar bleiben. „The archive must be organised in such a way that navigation in the material (surfing the historic web) is easy. […] Free-text is the next access method to be added. Here a lot of commercial and noncommercial software exists.” 127 Entsprechend müssen die Benutzer-PCs mit Software- und Hardwarekomponenten ausgestattet werden. 7.5.3. Spiegelungsintervalle Als Grundlage für die Definition der Archivierungsintervalle wird die objektgesteuerte Vorgehensweise der National Archives of Australia 128 empfohlen. Ausschlaggebend ist das Resultat der Bewertungskriterien. Der primäre Gedanke ist, dass nicht alle Änderung archiviert werden können. Von den sich ständig ändernden Inhalten können nur Momentaufnahmen 127 128 Arvidson, Kulturarw3Project, 2000. Vgl. NAA, S. 24. 58 Die Bewertung zum Zeitpunkt der Archivierungsintervalle Spiegelung so gemacht gewählt werden. werden, das Deshalb die sollten wesentlichen Änderungen erfasst werden sowie im Rahmen der finanziellen und personellen Ressourcen liegen. Vollständig archiviert werden Rundschreiben und Geschäftsinformationen, die durch BINGO bereitgestellt werden ebenso Nachrichten, Pressemitteilungen und die Web- TV-Beiträge. Da die Änderungsintervalle unterschiedliche sind, könnten auch verschiedene Archivierungsintervalle festgelegt werden. Es könnte z. B. ein Hauptarchivierungsintervall gewählt werden. Die Archivierung könnte demnach z. B. vor und/oder nach jeden Quartalsbericht oder aber auch monatlich erfolgen. Ein kürzerer Intervall müsse z. B. bei BINGO gewählt werden. Denn die Informationen werden ca. 14 Tage vorgehalten und sind später über eine Suche recherchierbar. Um eine ereignisorientierte Archivierungsstrategie zu vermeiden, könnte die URL von BINGO wöchentlich oder 14-tägig gespiege lt werden. Eine höhere Frequenz ist für weniger relevante bzw. sich seltener ändernde Informationen geeignet. Zwar ändern sich sehr häufig Nachrichten, Presseschau und Beiträge von dem Web-TV, eine Spiegelung einmal pro Jahre würde hier bereits ausreichen. Denn die Beiträge unter der Rubrik „Archiv“ sind schon seit mehreren Jahren vollständig abrufbar. Die regelmäßigen Archivierungsintervallen sollten durch zusätzliche Spiegelungen ergänzt werden. Das können wichtige, anstehende oder auch plötzliche Ereignisse im Unternehmen, in der Politik oder in der Wirtschaft sein. Nach Ansicht von Herrn Wolf besteht auch die Möglichkeit, sogenannten Zeitfenstern einzusetzen. Darunter versteht man, dass permanent die Spiegelung durchgeführt und in einem festgelegten Zeitrahmen von mehreren Tagen bis eine Woche gehalten wird bzw. mitläuft. Werden in periodischen Abständen entsprechend den Archivierungsintervallen Snapshots archiviert, bietet die Verwendung von Zeitfenstern die 59 Die Bewertung Möglichkeit, während und nach dem gewählten Archivierungszeitpunkt Reaktionen im Intranet zu archivieren. Ein Vorschlag über verschiedene Spiegelungsintervalle: Wöchentlich oder 14-tägig - BINGO Vierteljährlich (fast alles, was direkt über die Startseite aufrufbar ist) - Startseite http://brain.dresdner.net/, MIS, Gallileo, einzelne Corporate Centers Jährlich - Regionen und Beteiligungen, Niederlassungen, Archiv Tochtergesellschaften/ (Nachrichten, Presseschau, Web-TV- Beiträge, etc.), Business Travel Service, Geschäftsfeld und Zahlungsverkehr, Forum der Allianz Group Grenzfälle - Corporate & Markets Intranet, „Private Kunden und Geschäftskunden“, Mitarbeiter, PRIMA (identisch mit CC Personal), Telefonbuch 7.5.4. Spiegelungstiefe Mit dem Einsatz von HTTrack kann sowohl eine interne als auch externe Spiegelungstiefe eingestellt werden. Demnach bestehen zwei Möglichkeiten zur Festlegung der Spiegelungstiefen: Die erste Variante besteht darin, eine mittlere Verzeichnungstiefe von vier bis fünf Ebenen für die Startseite des Intranets auszuwählen. Da diese Einstellung der Spiegelungstiefe nicht alle relevanten Intranetangebote einschließt, müssen bestimmte Pfade, Links, Domänen o.ä. eingeschlossen werden. Die URL´s tieferliegender Intranetauftritte müsste als Startseite für weitere Spiegelungen genommen werden (zum Beispiel die einzelnen URL´s der Corporate Centers). Der Vorteil hierbei ist, dass das Portal und die Intranetauftritte der einzelnen Unternehmensbereiche vollständig mit wenig Ballast verfügbar sind. Nachteilig ist jedoch, dass der Zusammenhang im Intranet verloren geht. 60 Die Bewertung Denn eine Navigation zwischen den einzelnen Corporate Centers wird nicht möglich sein. Bei der zweiten Variante werden für die Startseite des Intranets sehr hohe interne als auch externe Verzeichnungstiefen (>7) eingestellt, so dass die tieferliegenden Intranetangebote mitgespiegelt werden. Der Vorteil ist, dass nur eine Spiegelung für einen Snapshot des Intranets durchgeführt wird. Es ist aber mit einem höheren Ballast zu rechnen, der nur durch den Ausschluss mehrerer Links verringert werden kann. Beide Varianten sollten noch einmal getestet werden, um den Anforderungen des Historischen Archivs gerecht zu werden. 7.5.5. Bewertung des Intranetauftrittes von CC UK Der Intranetauftritt des Corporate Center Unternehmenskommunikation (CC UK) wurde als Beispiel ausführlich in mehreren Schritten bewertet und die Umsetzung getestet: 1. Bewertungsvorschlag 2. Abgleich des Bewertungsvorschlages mit dem Content Manager (Herrn Pasqualotto) 3. Umsetzung der Bewertungsvorschläge mit der Spiegelungssoftware HTTrack Der erste Vorschlag für die Bewertung von CC UK umfasst alle dargestellten Rubriken und Unterrubriken des Intranetauftrittes. Eindeutig archivwürdige Webseiten wurden mit gelb, eindeutig nicht archivwürdige Webseiten mit rot, Grenzfälle mit grün markiert. Der überwiegende Teil wurde als archivwürdig empfunden. Dazu zählen das Portal von CC UK als grafische Darstellung der Struktur des Unternehmensbereichs und alle Intranetauftritte der dazugehörigen Abteilungen mit deren Unterrubriken. Im Detail handelte es sich überwiegend um die „Philosophie und Zielsetzung“ der Abteilungen, Organigramme, Richtlinien sowie um bereichsspezifische Themen und Produkte. 61 Die Bewertung Eindeutig nicht archivwürdig waren Online-Publikationen129 (außer Eingangsseite, aber nicht die Publikation selbst), Ansprechpartner (nur wenn ein Organigramm vorhanden war), externe Links, Blanco- bzw. Online-Formulare sowie Feedback-, Kommunikations- und Dialogfunktionen. Grenzfälle waren z. B. nicht verfügbare Seiten, der online-verfügbare Geschäftsbericht sowie themenbezogene Rubriken, deren Unterrubriken aus internen Links einzelner Abteilungen von CC UK darstellten („Intranet und Informationsdienste“ enthielt Links zu „Public Relations“ und „Public Affairs“. „Produkte und Medien“ enthielt Links zu „Corporate Publishing“, „Corporate Sustainability“ und „Interne Kommunikation“). Nach dem Gespräch mit Herrn Pasqualotto gingen keine wesentlichen Änderungen hervor 130 . Die Grenzfälle bezüglich der Verweisung interner Links wurden aufgehoben, da die Links bereits in den einzelnen Auftritten der Abteilungen als archivwürdig mit eingeschlossen wurden. Allerdings erwähnte Herr Pasqualotto, dass es schwierig sein wird, einzelne Links auszugrenzen. Denn die Webseiten von CC UK sind überwiegend in Frames aufgebaut sind. Die einzelnen HTML-Seiten eines Frame lassen keine separate URL im Browserfenster erkennen, die zum Ausschluss in die Voreinstellung übernommen werden kann. Bei der Spiegelung von http://cc-uk.bww.dresdner.net\index.html wurde in der Voreinstellung eine interne Verzeichnungstiefe von vier Ebenen und eine externe von drei Ebenen vorgegeben sowie bestimmte Links bzw. Pfadnamen ausgeschlossen. Einzelne Webseiten über Ansprechpartner, Feedback o.ä., die in Frames enthalten sind, wurden nicht extra ausgegrenzt, da der Aufwand zur Ermittlung der individuellen URL zu groß war. Die Spiegelung dauerte nur wenige Sekunden. Abschließend wurde von HTTrack ein Fehlerprotokoll erstellt. Das Ergebnis wird auf der Festplatte gespeichert und im Browser angezeigt. 129 „dresdner banker“ und „dresdner dwm“. Vgl. Abb. 16: Corporate Center Unternehmenskommunikation - Bewertungsbeispiel – Darstellung des Bewertungsansatzes nach der Besprechung mit Herrn Pasqualotto. 130 62 Die Bewertung Innerhalb der gespiegelten Seite kann in den ersten zwei bis drei Hierarchieebenen, abhängig von den Frames, navigiert werden. Alle Contents innerhalb eines Frames werden angezeigt. Der Ausschluss von bestimmten Links bzw. Pfadnamen wurde umgesetzt, so dass z. B. die Online-Publikationen nicht mitgespiegelt wurden131 . Viele Intranetauftritte verweisen auf die Portalseite von CC UK. Oft sind diese als statische Links vorgegeben. Wird dieser Link auf der gespiegelten Website benutzt, gelangt man automatisch auf die originale Intranetadresse. Die URL im Browserfenster verweist nicht mehr auf das lokale Verzeichnis. Dieses Problem kann beseitigt werden, indem im Quellcode der Intranetseite der statische durch einen relativen Link ersetzt wird. Ergebnis Obwohl aus Zeitgründen nur eine Spiegelung von CC UK vorgenommen wurde, kann man mit dem Ergebnis recht zufrieden sein. Der Intranetauftritt von CC UK konnte fast vollständig kopiert werden. Bestimmte externe Links waren ausschließbar. Gleiche Webseiten, die über verschiedene Rubriken aufrufbar sind und auf den ersten Blick mehrfach vorlagen, konnten nicht reduziert werden. Denn es handelte sich um eine Verweisung auf die gleiche URL. Wäre dieser Link ausgeschlossen, gingen automatisch auch die anderen Webseiten verloren. Interne Links, die Teil eines Frames sind, wurden nicht separat ausgeschlossen. Es besteht aber auch die Möglichkeit über „Datei-MenüEigenschaften“ die URL einer einzelnen HTML-Seite aus dem Frame anzuzeigen, diese zu kopieren und als ausschließenden Links in die Voreinstellung von HTTrack einzufügen. Für mehrere einzelne HTMLSeiten aus Frames, wäre dieser Arbeitsschritt sehr aufwendig. 131 Abb. 17: Corporate Center Unternehmenskommunikation – Grafische Darstellung über die Umsetzung der Bewertung nach der Spiegelung. Abb. 18: Corporate Center Unternehmenskommunikation im Intranet – Screenshots zur Spiegelung mit HTTrack. 63 Die Bewertung 7.6. Zusammenfassung Für die Bewertung von Intranetseiten sind die Kriterien aus dem „Handbuch für Wirtschaftsarchive“ im allgemeinen anwendbar. Für die Auswahl von Online-Publikationen gibt es die Richtlinien der National Library of Australia. Eine Einschätzung des Ris ikos Informationen zu verlieren, wird für das Intranet vorerst nicht vorgenommen. Das Risiko kann sicherlich als gering eingestuft werden. Die Software bietet die Möglichkeit, Bewertungskriterien umzusetzen. Unterschiedliche Archivierungsintervalle mit verschiedenen Einstellungen können schnell und einfach durchgeführt werden. Bei der Archivierung zu einem bestimmten Zeitpunkt kann außerdem entschieden werden, eine komplette Spiegelung durchzuführen oder aber die Voreinstellungen bereits durchgeführter Spiegelungsprojekte beizubehalten und nur geänderte Dateien herunterzuladen. Unveränderte Dateien werden für das neu gestartete Spiegelungsprojekt kopiert und veränderte Webseiten durch die neuen Dateien ersetzt. Verschiedene Ausgangsseiten in verschiedenen Verzeichnungsebenen können gespiegelt werden. Umfangreiche Funktionen zum Einschluss bzw. Ausschluss von Links, Pfaden oder Domänen sind vorhanden und können einfach bedient werden. Schließlich steht sich die Frage, ob es sinnvoll ist, eine ausführliche Voreinstellung vorzunehmen, die arbeits- und zeitaufwendiger ist, jedoch mit Blick auf die zur Verfügung stehende ausreichende Speicherkapazität nicht notwendig erscheint. Die verschiedenen Tests sowohl mit der Startseite des Intranets als auch mit der des Corporate Centers Unternehmenskommunikation zeigten, dass auch bei wenigen Filteranwendungen die Grenze von 650 MB, was der heutigen Speicherkapazität einer CD-ROM entspricht, bei weitem nicht überschritten wurde (< 200 MB). Auch wenn der Speicherplatzbedarf nur knapp die Einschränkung unterschreiten sollte, müsste auch in Betracht gezogen werden, dass die Speichermedien weiterentwickelt werden und in Zukunft mehr Speicherplatz zur Verfügung stellen. Ein weiterer Gesichtspunkt, der diese Bewertungsmethode bestärkt, ist, dass Speicherplatz immer weniger 64 Die Bewertung kostenintensiv wird und demnach kein Problem darstellt. Deshalb könnten auch die Archivierungsintervalle kleiner gewählt werden, z. B. wöchentlich oder monatlich, so dass größere Intervalle wegfallen würden. Eine weitere Frage stellt sich bei der Auswahl von Online-Publikationen. Denn werden zukünftige Nutzer nicht eher die digitale Version bevorzugen? Die elektronischen Publikationen müssten in einem separaten Spiegelungsvorgang gesichert werden, da sie über das Internet verfügbar sind. Aber ist das archivische Bewertung? - Nein! Die Bewertung von Webseiten beschränkt sich am Ende auf die Spiegelungstiefe, - intervalle und dem Ausschluss von bestimmten externen Links, wie *allianz*, www.dresdner-bank.com und/oder *telefonbuch* sowie dem Einschluss bestimmter Links, die sonst verloren gehen würden. Ziel der Bewertung von Webseiten ist schließlich auch, den Arbeitsaufwand und die Kosten gering zu halten. Denn auch bei der Bewertung analoger Aufzeichnungen wird in der Regel eine Einzelblattkassation nicht durchgeführt. 65 Die Spiegelung 8. Die Spiegelung Das Intranet der Dresdner Bank wird mit einer Spiegelungssoftware kopiert. Die Software kopiert entsprechend der Voreinstellung automatisch alle Dateien der Website bis hin zu einer bestimmten Verzeichnungsebene zu einem bestimmten Zeitpunk t. Dabei extrahiert das Programm alle Links, die auf der selben Website platziert sind. Die einzelnen Webseiten werden von dem Webserver auf einen Computer für das Webarchiv heruntergeladen, bis die Website vollständig kopiert wurde. Alle kopierten Dateien, die zu dem Snapshot gehören - eingeschlossen Text, Grafiken, Videos, Style Sheets, verfügbare Programme, Javascript u.a. Skriptsprachen132 - werden auf der lokalen Festplatte des PCs in einem separaten Verzeichnis gespeichert. In dem Verzeichnis sollten zusätzlich (XML-)Dateien mit Metadaten abgelegt werden. Snapshots einer Website sollten regelmäßig durchgeführt werden, so dass eine vollständige Reihe an Snapshots vorliegt, die das Webarchiv bilden. „Snapshots are taken periodically, so that the archive has a sequence of snapshots for each site. Each snapshot is stored with provenance metadata, such as the date on which the snapshot was taken.”133 Der Snapshot kann alle Dateien und Unterverzeichnisse der Site enthalten. Bei umfangreichen Websites sollten Filter bei der Voreinstellung verwendet werden, mit dem Risiko, vielleicht auch wichtige Materialien zu verlieren. Dieses Risiko soll mit den Bewertungsentscheidungen jedoch gering gehalten werden. „Snapshots should include all files that are part of a site, but sometimes it pays to be selective. Much of the complexity of Web sites lies in the files that contain executable computer programs, and many of the largest files are in special formats, such as audio and 132 Skriptsprachen repräsentieren leistungsfähige Entwicklungswerkzeuge zur Darstellung dynamischer Informationen und Interaktionen im Internet bzw., Intranet. Je nachdem, wo der Skriptcode ausgeführt werden soll, spricht man von Client-side oder Server-side Scripting. Die Ausführung von JavaScript kann sowohl auf dem Webserver als auch innerhalb des Intern-Browsers erfolgen. (Lienemann, Intranets, 2003, S. 169) 133 Arms, Minerva, 2001. 66 Die Spiegelung video files. Ignoring these files greatly simplifies the task of collecting Web sites, but at the cost of losing important materials.”134 Im Rahmen der Untersuchung in der Intranetredaktion der Dresdner Bank wurden zwei verschiedene Spiegelungssoftwareprodukte, Teleport Pro und HTTrack, getestet. Laut Erfahrungen des Archivs der sozialen Demokratie bieten diese Softwarelösungen die größten Spezifikationen an, da sie auf die einzelnen Projekte zugeschnitten werden können. Beide Lösungen finden Anwendung bei Archivierungsprojekten135 . Die Entscheidung, welche Software den Bedürfnissen der Dresdner Bank am ehesten entspricht, wurde zusammen von den Verantwortlichen für Inhalt, Technik und Archiv zusammen getroffen. Nach verschiedenen Spiegelungstests wurde HTTrack ausgewählt. Sie unterscheiden sich durch die Bedienung und das gesamte Leistungsspektrum. Beide Softwarelösungen bieten aber die gleichen Grundfunktionen an: - Kopieren einer Website, Wiederholung eines Spiegelungsprojektes mit den selben Voreinstellungen - Angabe der Spiegelungstiefe (wobei HTTrack zwischen internen und externen Ebenen unterscheidet) - Filterungsmöglichkeiten (z. B. Schlagwörter in Dateinamen, Links oder im Quellcode; Dateiformate, Scriptsprachen, Links, Domänen, Pfadnamen, Speichergröße, Umfang der Dateien) 8.1 Teleport Pro Entsprechend dem Vorschlag des Archivs der sozialen Demokratie in Bonn wurde der Website-Kopierer Teleport Pro Version 1.29 der Firma tenmax getestet. Verschiedene Spiegelungen wurden mit der Testversion durchgeführt, die über die Homepage zur Verfügung gestellt wird. Mit der Demoversion können maximal 500 Dateien pro Projekt gespiegelt werden. 134 Arms, Minerva, 2001. HTTrack: Archiveringsproject partijsites (Documentatiecentrum Nederlandse Politieke Partijn, Universiteitsbibliotheek van de Rijksuniversiteit Groningen), Minerva (Library of Congress), PANDORA (Library of Australia, National Archives of Australia), DAVIDProject (Stadsarchief Antwerpen). Teleport Pro: Internet Archiv (Archiv der sozialen Demokratie). 135 67 Die Spiegelung Erst mit dem käuflichen Erwerb der Software und der verbundenen Registrierung wird die Beschränkung aufgehoben. Das Programm ist in englischer Sprache und enthält eine ausführliche Hilfsfunktion zu den einzelnen Einstellungsmöglichkeiten. Die Funktionalitäten werden nach dem Menüauswahlverfahren eingestellt. 8.1.1 Zusammenfassung der Tests mit Teleport Pro Bei der Einstellung größerer Linktiefen wurde der Spiegelungsvorgang mit der Demoversion nach Erreichen der Einschränkung abgebrochen, so dass keine genaue Einschätzung über die Spiegelungsqualität getroffen werden konnte. Die Einstellung von Filtern ist bei Teleport Pro auf den ersten Blick etwas unübersichtlich, wohl aber bietet die Software auch die Möglichkeit, über Exclusion Webseiten nach Schlagwörtern, Dateinamen, Dateiformaten, Domänen oder bestimmten Linkadressen auszuwählen. Die Filter für den Einschluss von bestimmten Dateien sind unter File Retrieval einzugeben, insbesondere Dateigröße oder Dateiformate 136 . Bei der Durchführung verschiedener Tests schienen uns die Funktionalitäten und die Filtermöglichkeiten im Vergleich zu HTTrack geringer sowie nicht modular zusammenstellbar. Ferner konnte während des Spiegelungsvorganges nicht direkt nachvollzogen werden, welche Dateien gerade kopiert wurden. Es war nicht einsehbar, welche Dateien sehr umfangreich sind, dem Prozess viel Zeit kosten und demnach ausgeschlossen werden könnten. Es wurde kein Protokoll erstellt. Im Ergebnis wurden die gesamten kopierten Dateien von Teleport Pro in eine Datenstruktur gebracht. Für den Content Manager war es nicht ersichtlich, ob die ursprüngliche Datenstruktur beibehalten wurde. Die Datenstruktur ist ein wichtiges Hilfsmittel, um zu kontrollieren, welche(s) Dateien/Verzeichnis kopiert bzw. ausgelassen worden sind/ist. 136 Abb. 19: Teleport Pro – Screenshots der „Project Properties“. 68 Die Spiegelung 8.2 HTTrack HTTrack wird von der gleichnamigen Firma frei über die Homepage zur Verfügung gestellt und liegt zur Zeit in der Version 3.2.3 (08/03/2003) vor. Es können verschiedene Programmsprachen eingestellt werden, u.a. auch Deutsch. Die Bedienung des Programms ist eine step-by-step-Abfrage. Mit HTTrack können zahlreichere Einstellungen vorgenommen werden. Es bestehen mehr Filtermöglichkeiten zum Einschluss bzw. Ausschluss von Webseiten, für deren Recherche, sowie für die Einstellung der Dateistruktur. Die Standardeinstellung entspricht der vorgegebenen Struktur des Webservers. Als Spiegelungstiefe kann sowohl eine interne als auch externe Linktiefe gewählt werden. Während der Spiegelung kann der Nutzer verfolgen, welche Dateien kopiert werden, welche sehr umfangreich sind und viel Zeit in Anspruch nehmen. Über einen Button können diese Webseiten ausgeschaltet werden. Das ist sehr nützlich, um zu erkennen welche Links bzw. Pfade bei einer folgenden Spiegelung ausgeschlossen werden sollten. Als Teil der Spiegelung werden technische Metadaten über die Spiegelung von der Software in einer Protokolldatei im ASCII-Format gesammelt, das in dem gleichen Verzeichnis des Snapshots abgelegt wird. Festgehalten werden Datum und Uhrzeit der Spiegelung, die Voreinstellungen sowie eine Liste der Fehlermeldungen. Die Protokollfunktion stellt ein ausschlaggebendes Kriterium zur Entscheidung für HTTrack dar 137 . Ein Nachteil von HTTrack ist, dass kaum Hilfsfunktionen angeboten werden. Über die Homepage wird die Bedienung von HTTrack im Allgemeinen erklärt. Im Vergleich zu Teleport Pro ist es jedoch unzureichend, deutschsprachigen um eine Feineinstellung Ausführungen können vorzunehmen. die Die vorzunehmenden Einstellungen aber erleichtern. 137 Abb. 20: HTTrack - diverse Screenshots. 69 Die Spiegelung 8.2.1 Zusammenfassung der Tests mit HTTrack Im ersten Schritt wurden verschiedene Einstellungen für die Spiegelung der Startseite http://brain.dresdner.net ausprobiert138 . Die interne Verzeichnungstiefe wurde höher/ oder gleich der externen angegeben. Bei einer internen Verzeichnungstiefe von fünf Ebenen dauerte der Spiegelungsvorgang sehr lange und wurde aus Zeitgründen nach einer halben Stunde abgebrochen. Bei einer geringeren Spiegelungstiefe betrugt der gesamte Prozess ungefähr fünf Minuten. Verschiedene Einstellungen zum Ein- bzw. Ausschluss von Webadressen, Pfadnamen o.ä. wurden ausprobiert. Mit der Zunahme an Tests nahm auch der Ausschluss bestimmter Pfadnamen zu. Denn durch die Protokollfunktion von HTTrack konnte nachverfolgt werden, welche Links kopiert werden. Demnach wurden ausgeschlossen: Links zu den Internetauftritten der Dresdner Bank, der Allianz sowie das Online-Telefonbuch. Bei der Spiegelung mit einer hohen Verzeichnungstiefe wurden die Intranetauftritte der Corporate Centers, die Niederlassungen sowie Tochtergesellschaften/ Beteiligungen, aber auch deren Internetauftritte bis in die 2./3. Hierarchieebene mitgespiegelt wurden. Nachteilig war bei dieser Einstellung, dass der Spiegelungsprozess länger dauerte. Die überwiegende Darstellung der Intranetseiten in Frames hat den Vorteil, dass bei einer Spiegelung keine zu hohe Linktiefe eingestellt werden muss. Schwierig wird es jedoch bei der Selektion einzelner HTML-Seiten, da die individuelle URL nur über Menü-Datei-Eigenschaften angezeigt und kopiert werden könne. Eine Orientierung während der Spiegelungstest war der Intranetauftritt des Historischen Archivs, eine Unterrubrik des Corporate Centers Unternehmenskommunikation. Ein gutes Spiegelungsergebnis lag vor, wenn der Intranetauftritt des Archivs vollständig kopiert wurde und die Bildergalerie aufrufbar war 139 . 138 139 Abb. 21: Das Intranet der Dresdner Bank – gespiegeltes Portal. Vgl. Abb. 18. 70 Die Spiegelung 8.2.2 Fazit Trotz verschiedener Test kann jetzt noch keine endgültige Empfehlung zu den Einstellungen geben werden. Es ist erforderlich, dass verschiedene Möglichkeiten entsprechend der Archivierungsintervalle und der Umsetzung der Bewertungsvorschläge von den verantwortlichen Personen selbst noch einmal getestet werden. In der begrenzten und kurzen Zeit, die für die Ana lyse des Intranets in der Intranetredaktion zur Verfügung stand, war es für mich nicht möglich die idealste Voreinstellung mit HTTrack zu definieren. Wie bereits bei den Bewertungsvorschlägen und deren Umsetzung angedeutet wurde, muss die Dresdner Bank entscheiden, welchen Weg sie wählt. Entweder wird eine hohe interne Spiegelungstiefe für die Intranetstartseite gewählt Intranetauftritte der und damit Corporate versucht, Centers, externe Links Niederlassungen/ der Filialen, Tochtergesellschaften/ Beteiligungen u.ä. einzuschließen. Oder es wird für die Intranetstartseite eine geringere Spiegelungstiefe gewählt und einzelne Intranetauftritte extra gespiegelt. Das erfordert jedoch mehr Arbeitsschritte, wobei als Ergebnis die Webseiten vollständig vorliegen könnten bzw. auch besser kontrollierbar wären. Nachteilig ist dabei, dass innerhalb der gespiegelten Intranetauftritte es nicht möglich wäre, zwischen verschiedenen Angeboten hin und her zu navigieren bzw. auf die Startseite des Intranets zuzugreifen. 8.3 Ansicht im Browserfenster Wenn man den gespiegelten Intranetauftritt bzw. einen Ausschnitt dessen im Browserfenster betrachtet, ist auf den ersten Blick kein Unterschied erkennbar 140 . Die Grafiken sind sichtbar, die Banner funktionieren, der Newsticker erscheint und das Web-TV arbeitet. Betrachtet man das Ergebnis genauer, ist zu erkennen, das die URL auf das lokale Verzeichnis verweist (C:\\...). Das zeigt dem Betrachter, dass die Informationen lokal geladen werden. 140 Vgl. Abb. 21: Das Intranet der Dresdner Bank – das gespiegelte Portal. 71 Die Spiegelung Bei dem Aufruf statischer Links wird automatisch auf die originale Internetbzw. Intranetseite verwiesen141 . Ein Problem, was bisher nicht erklärt werden konnte, ist die Anzeige der horizontalen Navigationsleiste und bestimmter Icons. Wird die gespiegelte Intranetseite aufgerufen, werden keine Wörter auf der Navigationsleiste bzw. Icons in der rechten Infobox angezeigt. Erst wenn der Cursor über die leeren Elemente bewegt wird, erscheinen die Wörter. Dieses Phänomen wird nach Ansicht von Herrn Wolf und Herrn Pasqualotto mit Javascript in Verbindung gesetzt. 8.4 Offene Fragen Das Ergebnis kann bei guter Voreinstellung den Bewertungsvorstellungen entsprechen, wohlwissend, dass auch in der analogen Bewertungspraxis keine Einzelblattkassation vorgenommen wird. Die internen Links funktionieren und gewährleisten eine Navigation innerhalb der gespiegelten Intranetseite. Entscheidend ist die Einstellung der Filter. Was passiert aber bei nicht verfügbaren Intranetseiten? Ist das Ergebnis dann auch authentisch? Das Archiv der sozialen Demokratie betrachtet das Problem als ein Bestandteil des Snapshots zu einem bestimmten Zeitpunkt. So ist eine nicht anzeigbare Webseite ist ein Teil des Ergebnisses. Als Lösung bieten beide Softwaremöglichkeiten an, den Spiegelungsvorgang mit den vorgenommenen Einstellung zu wiederholen bzw. fehlende Seiten zu ergänzen. Wurde die Webseite in der Zwischenzeit geändert und anschließend bei der wiederholten Spiegelung in den ursprünglichen Kontext eingebaut, entsteht die Frage, ob dieses Ergebnis noch authentisch für den vorangegangen Zeitpunkt ist. „A deficiency of this approach is that a snapshot only provides a picture of a website at a particular point in time. If snapshots are captured in the absence of other records of web-based activity, it will be impossible to reconstruct the site together with its functionality at any other point in time.”142 141 142 Siehe S. 63. NAA, Guidelines, 2001, S. 26. 72 Die Spiegelung Es wurde bereits erwähnt, dass sich Snapshots mit einer Spiegelungssoftware nicht für dynamische, interaktive Webseiten oder Quellen aus Datenbanken oder Transaktionen eignen. Aus diesem Grund wird es schwer möglich sein, diese Seiten mit ihren Funktionalitäten zu einem bestimmten Zeitpunkt zu rekonstruieren. Deshalb ist eine Protokollierung zum Intranetauftritt bzw. zu den Funktionalitäten unbedingt erforderlich und sollte in einer (XML-)Datei festgehalten werden. Sicherlich wird die Protokollierung zukünftig nicht ausreichen. Um die Funktionalität für die Nachwelt zu erhalten, muss eine neue, ereignisgesteuerte Archivierungsmethode angewendet werden. 73 Sicherung und Erhaltung des Intranet-Archivs 9. Sicherung und Erhaltung des Intranet-Archivs 9.1 Allgemeines Die Snapshots des Intranets liegen nach der Spiegelung auf der Festplatte im Archiv vor. Sie sollen nun auf Dauer gesichert und erhalten werden. Die kurze Lebensdauer der physikalischen Speic hermedien und die schnelle Entwicklung von Hard- und Software erfordern weitere Archivierungsstrategien. Sie ist eng verbunden mit dem Archivierungsziel – warum die Snapshots aufbewahrt werden sollten143 . Es wird dabei zwischen drei Schwerpunkten unterschieden: 1. „Preservation of bits“ - Ziel ist es, die exakte Bitsequenz zu erhalten, wie sie im Original vorliegt 2. „Preservation of content“ – Ziel ist es, den Inhalt jedoch nicht die volle interaktive Natur der Website zu erhalten (z. B. Text, Grafiken, Audio) 3. Preservation of experience“ – Ziel ist es, das vollständige Erlebnis der Interaktionen mit dem digitalen Material zu bewahren, einschließlich dem Sehen und Fühlen sowie den Ausführungen von dynamischen Elementen Der Fokus des Historischen Archivs der Dresdner Bank liegt auf der Erhaltung des Inhalts der Webseiten, so dass eine authentische Kopie des Intranets zur Verfügung steht. Um die Informationen in einem authentischen Kontext wiederherzustellen, sind neben den Metadaten auch die entsprechenden Hardware- und Softwarekomponenten erforderlich144 . 143 Arms, Minverva, 2001. „Technologies to reproduce the Web object – however defined – must be preserved, including the hardware and software necessary to access the information in an authentic context or to recreate is. This is difficult in the best of cases.“ (Lyman, Archivierung WWW, 2002) 144 74 Sicherung und Erhaltung des Intranet-Archivs Welche Komponenten die Funktionalität der Snapshots beeinflusst, werden von den National Archives of Australia zusammengefasst 145 . Dazu gehören: - Verwendung von unterschiedlichen Versionen und Typen von HTML, die auch verschiedene Funktionalitäten besitzen - Plattformabhängigkeit von Software, Suchmaschinen oder datenbankbasierte Fragetools - Korrekte Einbettung und Verlinkung von verschiedenen Versionen von Anwendungen, die für deren Funktionalitäten inklusive Applets, JavaScript und software plug- ins gebraucht werden - Beschränkungen von einigen (älteren) Browsern - Geschätzte physikalische und/oder kommerzielle Lebensdauer des Mediums, auf dem die Snapshots und die Metadaten gespeichert sind - Langzeitverfügbarkeit der Hardware und der Plattform des Betriebsystems, die notwendig ist, um den Zugang zu den gespeicherten Aufzeichnungen auf verschiedenen Medientypen zu erhalten Zum Aspekt der dauerhaften Erhaltung webbasierter Aufzeichnungen gehören146 : - Auswahl der Archivierungsstrategien; das regelmäßige Überprüfen und Erneuern der Speichermedien sowie die Migration, - Verwendung von weit verbreiteten Standards, nicht allein für die Datenformate, sondern auch für Programme und Softwaretools; Umsetzung nichtproprietärer Lösungen - Einführung von Sicherheitsmerkmalen gegen bewusste oder unbewusste Änderungen - Verwendung von dauerhaften Identifikationen/ Signaturen - Sicherung von Kontroll- und Überwachungsmechanismen über die Umwelteinflüsse - 145 146 Auswahl des Speichermediums Vgl. NAA, Guidelines, 2001, S. 32. Vgl. Ebd., S. 33 f. 75 Sicherung und Erhaltung des Intranet-Archivs 9.2 Dateiformate für die Archivierung Damit bei einer Migration keine Informationen verloren gehen und das Dokument authentisch bleibt, muss ein standardisiertes Speicherformat ausgewählt werden, das folgenden Anforderungen gerecht wird 147 : - Verfügbarkeit - Strukturierbarkeit - Konvertierbarkeit, Austauschbarkeit - Recherchierbarkeit - Präsentation - Standardisierung - Archivierbarkeit 148 Das gilt nicht nur für den Archivierungsprozess, sondern sollte schon im Vorfeld, bei der Erstellung der Webseiten, Anwendung finden. Für die dauerhafte Bewahrung der webbasierten Aufzeichnungen gelten im Prinzip die gleichen Grundsätze wie für andere digitale Aufzeichnungen. Nach Mannerheim ist die Situation jedoch etwas einfacher, da 95% der Dateien in standardisierten Formaten vorliegen. „Long-term preservation of web publications is in principle not different from long-term preservation of any other digital information. Maybe the situation is a little easier because over 95 percent of the files, HTML and image files, are in standardised formats. So the prospect of having software reading them in the future is better than in other areas using proprietary software.”149 Für die Archivierung von Hyperlink-Dokumenten wird SGML und zu deren Präsentation HTML empfohlen. Mit Blick auf die Weiterentwicklung steht 147 Ohst, Dateiformate, 1998. Der Schwerpunkt der Studienarbeit von Daniel Ohst liegt auf Dateiformaten für das elektronische Publizieren. 148 „Günstige Vorraussetzungen für eine längerfristige Archivierbarkeit sind eine hohe Strukturierung des Dokuments, die Verwendung offener Standards und gute Konvertierungsmöglichkeiten. [...] Falls verwendete Dateiformate, Speichermedien oder Progra mme wesentlich ändern sollten, sind die Dokumente möglichst verlustfrei in ein neues Format zu konvertieren.“ (Ohst, Dateiformate, 1998) 149 Mannerheim, heritage, 2000. 76 Sicherung und Erhaltung des Intranet-Archivs aus heutiger Sich die Kombination beider Standards in XHTML zur Verfügung. Bei der Auswahl von Grafik-, Audio- und Videodateiformaten sind, sowohl für die Archivierung als auch für das Publizieren im Intranet, neben der Verfügbarkeit, Konvertierbarkeit, Standardisierung, Recherchierbarkeit und Archivierbarkeit auch die Dateigröße, Qualität und Authentizitätsmerkmale der Datei entscheidend 150 . Auf diese Thematik kann jedoch im Rahmen dieser Diplomarbeit nicht weiter eingegangen werden. 9.2.1 Archivierung von Daten mit XML Die Extensible Mark- up Language, abgekürzt XML, ist eine Metasprache zur Beschreibung der grammatischen Struktur von gleichförmig aufgebauten Textdokumenten. Sie ist keine Auszeichnungssprache, sondern ein Regelwerk zur Schaffung solche r Sprachen151 . Als Teilmenge des Standards SGML ist der XML-Standard bzw. die XML-Standardfamilie schlanker und modularer aufgebaut. Im Gegensatz zum HTML-Standards, welcher auch ein Subset von SGML ist, besteht bei XML die Möglichkeit, selbst definierte DTDs zu benutzen und zu erweitern. Die Möglichkeit DTDs zu benutzen bestand schon bei SGML, wobei deren Anwendung viel komplizierter ist. Die reine Spezifikation XML 1.0 beschreibt aber keinen Hypermedienmechanismus und enthält keine Formatierungsangaben152 . Sie können mit anderen (XML-basierten) Standards, z. B. CSS oder XSL, gelöst werden. Das bedeutet, obwohl CSS nicht XML-basiert ist, kann es mit XML kombiniert werden. Nachteilig ist dann jedoch, dass die XML-Vorteile nicht genutzt werden können. Der Standard ist besonders gut geeignet für die Strukturierung von Daten. Das XML-Dokument kann somit nach inhaltlichen Kriterien analysiert, bearbeitet und nach einzelnen Datenbestandteilen durchsucht werden. Metadaten können zusätzlich erfasst werden. 150 151 152 Vgl. Büttner, Formate, 2002. Vgl. Becker, XML, 2002. Abb. 22: Vergleich zwischen HTML- und XML-Dokumenten. 77 Sicherung und Erhaltung des Intranet-Archivs XML ist plattformunabhängig, rein textbasiert, modularisierbar und erweiterbar und trennt Inhalt, Struktur sowie Layoutangaben. Durch die strengen Regeln wird die Validisierung der XML-Dokumente, an die auch die Softwareproduzenten gebunden sind, gewährt. Ferner wird bei der Erstellung eines XML-Dokuments in der Deklaration eine Zeichenkodierung angegeben, nach der die Daten zu interpretieren sind. Die internationale Zeichenkodierung erfolgt auf der Basis der ISO/EC20646-Norm (Unicode). Damit wird es möglich fast alle wichtigen Sprachen, ohne Gefahr der Doppelbelegung der Codes, darzustellen. Mit der Cross-Media-Fähigkeit von XML können archivierte XMLDokumente in verschiedene Formate (z. B. .pdf, .rtf, .html, .xhtml) und Medien ausgegeben werden. XML ist datenorientiert und leicht maschienenlesbar. Deshalb eignet es sich sowohl als technisches Format für die Erfassung als auch als Datenaustauschformat (für den Import von zu archivierenden Daten). So entstehen bei der Konvertierung von Informationen aus externen Datenbanken kaum Informationsverluste. Das liegt daran, dass inhaltliche Beschreibungen von den Rohdaten getrennt gespeichert sind. So können auch Metadaten vollständig übernommen werden. Wurde ein Dokument auf einer XML-basierten Sprache beschrieben, lassen sich Vokabeln bzw. Grammatik verstehen und verarbeiten, denn alle XML-Applikationen haben die selben grundlegenden Aufgaben153 : - das Laden von XML-Dokumenten - das Parsen der Dokumentenstruktur - das zur Verfügung stellen der Inhalte des Dokuments in strukturierter Form und - eventuell die Ausgabe von Daten als XML-Datei Dokument Typ Definition (DTD) Die XML-Dateien werden in einer sogenannten XML-DTD mit eigener Syntax definiert. Sie gibt die Struktur und die Elemente verbindlich vor. Damit können Strukturierungsschablonen, ein Templates oder Dokumentvorlagen für eine Klasse von Dokumenten festgelegt werden. Die 153 Rothfuss, CMS, 2001, S. 227. 78 Sicherung und Erhaltung des Intranet-Archivs DTD stellt sicher, dass alle XML-Dokumente gleichermaßen klassiert werden. Nur wohlgeformte XML-Dokumente, deren Syntax der DTD entsprechen, können von XML-Prozessoren geparst, d. h. für gültig empfunden und angezeigt werden. Im Fall von HTML werden auch Dokumente von den Browsern akzeptiert, die nicht exakt dem HTML-Standard folgen. XMLAnwendungen werden von Browsern erst mit den neueren Versionen gelesen (Internet Explorer ab 5.x, Netscape ab 6.x). XHTML Wesentliche Anforderungen können von HTML nicht bzw. unzureichend erfüllt werden. In HTML sind Struktur- und Layoutangaben miteinander verbunden. Ferner steht durch die begrenzte Anzahl von Tags nur ein fest definiertes Set von Strukturierungen zur Verfügung. Es besteht demnach nicht die Möglichkeit das HTML-Dokument nach inhaltlichen Kriterien zu analysieren, zu recherchieren und zu bearbeiten154 . XHTML 1.0 ist die Neuformulierung von HTML 4.01 in einer XMLAnwendung und liegt seit Januar 2000 als Empfehlung des W3Cs vor. Die vorhandenen Tags und Attribute von HTML 4.01 werden übernommen. Als eine XML-Sprache ist XHTML syntaktisch 100%ig kompatibel mit anderen XML-Anwendungen. Der Arbeitsentwurf der neue n Version XHTML 2.0 liegt vom 6. Mai 2003 vor. Damit wurden missbillige Elemente und Attribute herausgelassen. So ist ein Hyperlink nicht mehr an das Anker-Element gebunden, sondern wird durch das Attribut `href ´ vielen Elementen zugeordnet155 . Für DTD stehen drei Versionen zur Verfügung 1. XHTML-1.0-Strict Die Version der DTD ist geeignet für Dokumente, die den strengen XHTML-Regeln genügen. Elemente, die aus älteren HTML-Versionen 154 155 Vgl. Endres, Bibliotheken, 2000, S. 243. http://www.w3.org/TR/xhtml1/, http://www.w3.org/TR/xhtml12/ 79 Sicherung und Erhaltung des Intranet-Archivs bekannt sind aber nicht mehr empfohlen werden, können in der strikten Version nicht angewendet werden. 2. XHTML-1.0-Transitional Der DTD Transitional ist eine Version, die den Übergang vom normalen HTML nach XHTML begünstigt. Demnach könnten sich die meisten HTML-Dokumente ohne weitere Konvertierungen oder Veränderungen an diese XHTM L-DTD anpassen lassen156 . 3. XHTML-1.0-Frameset Die Version der XHTML-DTD beinhaltet die Definition von Framesets und sollte von Dokumenten, die Framesets verwenden, angewendet werden. Für die Migration von HTML 4.01 nach XHTML 1.0 müssen folgende Anpassungen vorgenommen werden157 . - Einfügen der XML-Deklaration für die Verarbeitung vom Browser sowie die Angabe des Dokumententyps Beispiel: <?xml version=“1.0“ encoding=UTF-8“?> <!DOCTYPE html PUBLIC „-//W3C//DTD XHTML 1.0 Transitional//EN“ http://www.w3.org/TR/xhtml1/DTD/xhtml1transitional.dtd> - Namenraumangabe im HTML-Wurzelelement <html xmlns=http://www.w3.org/1999/xhtml> <!-- Inhalt der Datei --> </html> - Korrektes Verschachteln von Elementen, falsch eingebettete Tags sind verboten - Kleinschreibung von Element- und Attributnamen - Schlusstags für alle Elemente - Leere Elemente müssen abgeschlossen werden (z. B. <p></p> oder <p/>, <hr/>) 156 157 Pott, xml, 2000, S. 300. Vgl. Münz, html, 2001. 80 Sicherung und Erhaltung des Intranet-Archivs - Optionale Tags, die in HTML möglich sind, müssen Anfangs- und Schluss-Tag haben - Attributwerte in Anführungszeichen setzen - Attributnamen dürfen nicht minimiert werden (z. B. in HTML <TABLE BORDER> möglich, in XHTML muss das Attribut einen Wert besitzen <table border=“1“>) - Verwendung von speziellen Attributen „id“ und „name“ für Verweise zu Ankern - Für die Anzeige der verwendeten Sprache muss das Attribut xml:lang - (statt in HTML „LANG“) verwendet werden Behandlung von Leerzeichen innerhalb von Werten für die Attribute ist genau definiert. Mehrere Leerzeichen einschließlich Zeilenumbrüche sollten vermieden werden, denn sie werden mit genau einem Leerzeichen ersetzt. - Spezielle Zeichen, die im HTML Kontext verboten sind, außer wenn sie als Teil eines Markierungstags verwendet werden, sind in XHTML ebenfalls verboten, auch in eingebetteten Script- und Style Sheets-Bereichen, wie <,>,&[]´. Alternativ können diese in der DTD platziert oder in einer externen Datei abgelegt werden. 9.3 Archivierungsstrategien Die Lesbarkeit und die Zugänglichkeit der Informationen hängt nicht zuletzt von Archivierungsstrategien wie Emulation oder Migration ab. In allen Archivierungsprojekten für Websites wird der Weg der Migration gewählt, wobei die Vorgehensweise auch kritisch betrachtet wird 158 . Die Migration ist ein ständig fortlaufender Prozess, der mehr Personal erfordert und hohe, permanente Kosten verursacht. Ein schwerwiegender Nachteil der Migration ist, dass dabei oft Informationen verloren gehen. „...it is not always possible to make an exact digital copy or replica of a database or other informational object as hardware and 158 Bei der Emulation werden Programme (Emulatoren) entwickelt, die auf zukünftigen Systemen, das Verhalten veralteter Betriebssysteme nachahmen. Mit der Migration werden die Daten entweder von einer Hardware/Software-Konfiguration auf die Nächste oder aber sie werden von einer Generation der Computertechnologie auf die darauffolgende übertragen. (nach: Task Force, Preserving Information, 1996, S. 4 f.), Vgl. NLA, PANDORA, 2001. 81 Sicherung und Erhaltung des Intranet-Archivs software change and still maintain the compatibility of the object with the new generation of technology.”159 Die Migration stellt aber für alle bisherigen Projekte die einzige umsetzbare Archivierungsstrategie dar. Zwar gibt es noch das „Refreshing“, bei dem die Informationen auf ein neues Medium kopiert werden. Die Informationen sind aber nur so lange lesbar, bis die Hard- und Software nicht mehr zur Verfügung steht. „Refreshing“ kann nur eine Lösung für kurze Zeit sein160 . 9.3.1 Migration von webbasierten Aufzeichnungen Wenn der Datentyp veraltet oder nicht für die Archivierung geeignet erscheint, muss es auf einen neuen, equivalenten Datentyp konvertiert werden. Die Migration muss bei der hohen Anzahl von Dateien, die zu einem gespiegelten Intranetauftritt gehören, automatisch für jede einzelne Datei durchgeführt werden. Um eine vollständige Webseite zu konvertieren, muss nicht nur die Dokumentenbeschreibungssprache HTML, sondern auch alle eingebunden Text-, Grafik- und Videodateien sowie Style Sheets und Skriptsprachen migriert werden. Zum Beispiel: HTML 3.2 HTML 4.0 XHTML 1.0, CSS 1.0 CSS 2.0 XSL 1.0, Java 1.0 Java 2.0. Theoretisch wird in den meisten Fällen der Inhalt konvertiert. Es kann aber auch die Darstellung bzw. das Ergebnis konvertiert werden161 . Die Migration der Dateien sollte so oft wie nötig durchgeführt werden162 . Dabei ist zu achten, dass die originalen Dateien immer erhalten bleiben, da eine Migration häufig mit Informationsverlusten verbunden ist. Zum Ablauf der Migration ist ein Protokoll anzufertigen und mit in dem Verzeichnis des durchgeführten Spiegelungsprojektes abzulegen ist. 159 Task Force, Preserving Information, 1996, S. 5. „Refreshing thus cannot serve as a general solution for preserving digital information.“ (Ebd., S. 4) 161 Vgl. Arms, Minerva, 2001. 162 „Web-based records and their associated metadata should be migrated as often as necessary to avoid technological obsolescence for as long a the records are required.” (NAA, Guidelines, 2001, S. 33) 160 82 Sicherung und Erhaltung des Intranet-Archivs 9.3.2 HTML-XML-Konverter Die Umwandlung von HTML 4.01 zu XHTML 1.0 ist theoretisch einfach durchzuführen, da XHTML ja bekanntlich eine Umformulierung von HTML 4.01 ist. Um Probleme bei der Validierung zu XHTML zu vermeiden, müssen die HTML-Dokumente gefiltert und korrigiert werden, da sonst viele Einbettungsfehler und Probleme bei XHTML auftreten können. Für die eigentliche Umwandlung existieren bereits automatische Konverter-Tools, die über das Internet aufrufbar sind. Sie enthalten Tidy163 , eine Anwendung, die HTML-Codes überprüft und korrigiert wird. Darüber können jedoch nur einzelne Webseiten korrigiert und transformiert werden. Auf Grund der hohen Anzahl von HTML-Dateien, die nach einer Spiegelung vorliegen, ist ein Konverter erforderlich, der automatisch mehrere HTML-Dateien korrigiert und in XHTML umwandelt. Herr Oehler, Mitarbeiter der Dresdner Bank - Bereich STA Software- Technologie und –Architektur für die Allianz Gruppe Deutschland – Content Management hat einen HTML-XML-Konverter im Auftrag der Allianz entwickelt, der diese Anforderungen erfüllt. Damit ist es möglich, ein Verzeichnis mit mehreren unkorrekten HTML-Dateien in reine XMLDateien umzuwandeln. Der Prozess kann zwischen wenigen Sekunden bis ein paar Minuten dauern. Das hängt von der Anzahl der HTML-Dateien im Verzeichnis und dem Grad der Fehler in HTML ab. Ablauf Mit Hilfe von Batch-Dateien werden auf DOS-Ebene die einzelnen Arbeitsschritte nacheinander durchgeführt 164 . Bevor der Konvertierungsablauf beginnt, werden die Dateien in einem Verzeichnis abgelegt, das in den folgenden Schritten immer als Gesamtheit betrachtet wird. Es werden ferner Verzeichnisse und Protokolldateien für die Ergebnisse angelegt. Im ersten Schritt wird der HTML-Code der Dateien gefiltert, um nicht 100%ige korrekte HTML-Codes auf die Anwendung von Tidy vorzubereiten. Dazu gehören die Kleinsetzung von HTML-Tags sowie die 163 Entfernung definierter Tags. An dieser Stelle tritt der Tidy: http://www.w3.org/People/Raggett/tidy/ 83 Sicherung und Erhaltung des Intranet-Archivs Informationsverlust auf, wenn im Vorfeld nicht festgelegt wurde, wie die Tags ersetzt werden. Die gefilterten HTML-Dateien werden nun von Tidy geprüft und korrigiert. Die Quellcodes der HTML-Dateien werden auf Übereinstimmung mit den HTML-Standards 4.0 des W3C überprüft. Es werden die fehlenden Abschlusstags ergänzt und falsch geschachtelte Elemente richtig umgestellt. Als Ergebnis liegt korrektes HTML vor. Anschließend wird der HTML-Code in einen XHTML-Code umgewandelt. Dabei wird z. B. die <doctype> ausgetauscht und bestimmte, vereinbarte Tags geändert. Abschließend werden die XHTML-Codes mit Hilfe einer XSL-Datei in XML umgewandelt. Dafür werden ein Parser und ein XSLTProzessor benutzt. Notwendige Anpassungen für die Konvertierung von HTML-Codes der Snapshots Die Entwicklung von Herrn Oehler könnte bei der Migration von Webseiten des Intranets der Dresdner Bank Anwendung finden. Das Programm müsste für die Migration von Intranetseiten wie folgt angepasst werden165 . 1. Anpassung des Filters: Es müssen Vereinbarungen getroffen werden, die über das Verbleiben veralteter HTML-Tags entscheiden, damit der Informationsverlust vermieden wird. 2. Übergabe der CSS-Dateien an die Java-Parser und Erstellen einer XSL-Datei. Bei verschiedenen Styleguide-Versionen müssten eventuell auch verschiedene XSL-Dateien erstellt werden. 3. Anpassung des Konverters mit folgendem Ablauf: a. Der Code der HTML-Datei wird erst einmal gefiltert. Eine Datei mit geändertem Dateinamen wird erzeugt. b. Der HTML-Code des ersten Zwischenergebnisses wird mit Tidy korrigiert, entsprechend des HTML 4.01 -Standards. Der Dateiname bleibt gleich. c. Der HTML-Code des zweiten Zwischenergebnisses wird zu XHTML transformiert und erhält einen neuen Dateinamen. d. Das dritte Zwischenergebnis wird mittels XSL-Dateien im Browser dargestellt. 164 Vgl. Abb. 23: Der Ablauf des HTML-XML-Konverters. 84 Sicherung und Erhaltung des Intranet-Archivs Über den finanziellen Aufwand, der für das Historische Archiv anfallen würde, konnte Herr Oehler noch keine genaue Auskunft geben. 9.4 Fazit Die Entwicklung von Herrn Oehler bietet eine automatische Umwandlung von HTML zu XHTML. Der Migrationsprozess nimmt wenig Zeit in Anspruch und könnte im Anschluss an jeder Spiegelung durchgeführt werden, um die HTML-Dateien in ein zukünftiges Standardformat zu migrieren. Ein archivisches Problem war mit der Frage verbunden, welche Informationen bzw. Funktionalitäten bei einer Migration von vielleicht unkorrekten HTML nach XHTML verloren gehen. Nach Herrn Oehler wird die Migration kaum Verluste haben, wenn die Intranetseiten styleguidekonform sind und entsprechende XSL-Dateien erstellt werden. Was mit veralteten HTML-Tags geschieht, könne vereinbart werden, so dass der erwartete Informatiosnverlust ausbleibt. Denn es können zum Beispiel Gestaltungsanweisungen in Stylesheets abgelegt werden. Für das Historische Archiv sind zur Zeit auch finanzielle Aspekte ausschlaggebend. Sprengt der Kostenvoranschlag das zur Verfügung stehende Budget, so lässt sich daraus schließen, dass der Migrationsprozess ausgelassen und später nachgeholt wird. 165 Nach: Gespräch vom 13.02.2003, Email vom 26.03.2003. 85 Zusammenfassung 10. Zusammenfassung Die vorliegende Diplomarbeit beschreibt die Erarbeitung eines Konzeptes zur Archivierung des Intranets der Dresdner Bank, das im Auftrag des Historischen Archivs des Unternehmens durchgeführt wurde. Im Rahmen der Voruntersuchung wurden Gespräche mit Verantwortlichen aus Archiv, Intranetredaktion sowie der Technikabteilung durchgeführt und die Ziele definiert sowie Probleme und Methoden argumentiert. Die Auseinandersetzung mit der Charakteristik des Mediums von Webseiten bzw. des Intranets sind unumgänglich gewesen, um Archivierungsmaßnahmen beurteilen zu können. Webseiten/ Intranetseiten sind sehr kurzlebig und unterliegen der schnellen technischen Entwicklung im Bereich des Webs. Dadurch wird der Vorgang erschwert, Webseiten einzufangen und auf Dauer zu sichern. Berichte über bereits laufendende bzw. durchgeführte Archivierungsprojekte von Websites sind primäre Quellen für das weitere Vorgehen betreffs des Intranets gewesen. Von besonderer Bedeutung war die Präsentation des Projekts „Internet Archiv“ durch Herrn Schmitz, aus der sich weitere Maßnahmen für das Intranet ergaben. Im Februar 2003 wurden innerhalb einer Woche Untersuchungen in der Intranetredaktion durchgeführt. Es wurde analysiert die Datenhaltung, die Datenverwaltung und die Umsetzung von dem Styleguide 2.1. Ferner wurde eine Spiegelungssoftware ausgewählte, die für die Archivierung des Intranets als geeignet erschien. Daraus wurde ein Ablauf zur Archivierung des Intranets mit den folgenden Schritten entwickelt: 1. Bewertung 2. Spiegelung mit HTTrack 3. XML-Dokument für Metadaten 4. Migration von HTML nach XHTML 5. Indexierung des migierten Snapshots 6. Aufbereitung für das Archivierungs- und Benutzungsmedium 86 Zusammenfassung 7. Brennen der Dateien des Snapshots und des Indexes auf die CDROM 8. Aufbereitung der CD-ROM für die Benutzung 9. Benutzung 10. Recherche und Zugriff auf den Snapshot bzw. auf die CD-ROM über die gesamte Anzahl der Indizes Zuständigkeiten im Archivierungsablauf wurden noch nicht eindeutig festgelegt. Mit HTTrack kann die Bewertung in Form der Festlegung von Spiegelungstiefe und - intervalle sowie mit Ein- und Ausschluss von Links, Pfadnamen, Dateinamen etc. erfolgen. Die Bewertungskriterien orientieren sich an denen von Renate Köhne-Lindenlaub aus dem „Handbuch für Wirtschaftsarchive“. Die Umsetzung der Kriterien wird auf Grund der ausreichenden Speicherkapazität des Archivierungs- und Benutzungsmediums in Frage gestellt. Welche Einstellungen mit HTTrack und wie häufig die Spiegelung schließlich vorgenommen werden sollen, muss von den Verantwortlichen für die Archivierung des Intranets der Dresdner Bank in weiteren Tests definiert und festgehalten werden. Diese Voreinstellungen sollten in regelmäßigen Abständen überprüft und ggf. neu definiert werden. Metadaten sind für die Archivierung unumgänglich, aber im Quellcode der Intranetseiten nicht ausreichend mitgeliefert. Es muss ein Metadatenschema für die Publikation und für die Archivierung der Intranetseiten definiert werden. Genauere Vorschläge werden im Rahmen der Diplomarbeit nicht bearbeitet. Die Metadaten sollten in einem XML-Dokument gespeichert werden. Nach dem Spiegelungsablauf sollte im Anschluss die Migration der Dateien erfolgen. Dazu kann der entwickelte HTML-XML-Konverter angepasst werden, um gespiegelte HTML-Seiten des Intranets in XHTML umzuwandeln. Bisher wurde seitens des Historischen Archivs aber noch 87 Zusammenfassung keine Entscheidung getroffen, diese Möglichkeit der Migration im Archivierungsablauf anzuwenden. Genaue Vorstellungen zur Indexierung der webbasierten Aufzeichnungen bestehen noch nicht. Als Benutzungs- und Archivierungsmedium wurde die CD-ROM ausgewählt. Die Art und Weise der Benutzung ist jedoch noch ungeklärt. Ferner ist noch ungeklärt, wie die archivierten Snapshots mit den Metadaten verwaltet werden. Zur Zeit wird das Archivprogramm FAUST 3 verwendet. Mit der neuen Version FAUST 5 bestehe die Möglichkeit HTML-Seiten zu verwalten. Tests mit der Demo-Version konnten das Archiv nicht eindeutig überzeugen. Das vorgestellte Archivierungskonzept ist nach dem technischen Stand des Intranets im Februar 2003 gut und schnell realisierbar. Die Komplexität der Webseiten wird jedoch immer mehr zunehmen und eine Anpassung der Archivierungsstrategie erfordern. 10.1. Empfehlungen für den Styleguide 3.0 Aus den Ergebnissen der Untersuchung und der Entwicklung des Archivierungsablaufes ergeben sich Vorschläge 165 , die noch in den Styleguide 3.0 integriert werden können. Die Umsetzung dieser Empfehlungen würde die Archivierung des Intranets zukünftig erleichtern. - Umsetzung der Styleguide-Vorgaben sollte als Unterstützung für die zukünftige Archivierung des Intranets betont werden - Verwendung von standardisierten, offenen, nichtproprietären Dateiformaten für Text, Bild, Grafik, Audio und Video - Verwendung von HTML 4.0, besser XHTML als Dokumentenbeschreibungssprache, ggf. sollten Tests mit Online-Validatoren durchgeführt werden - Verwendung einfacher Dateiformate, komplizierte Elemente und Anwendungen sollten vermieden werden 165 Anregungen aus: NLA, Guidelines, 2001. 88 Zusammenfassung - Obligatorische Anwendung vollständiger Metadatenkonzepte, z. B. auf der Grundlage von Dublin Core; ggf. sollten MetadatenElemente genauer definiert werden, um Missverständnissen vorzubeugen - Statische Links sollten durch relative ersetzt werden - Online-Quellen sollten auf neuen Browsern lesbar sein 10.2. Fazit Abschließend ist zu festzustellen, dass die Archivierung von Webseiten bzw. Intranetseiten bereits praktiziert wird und in der Umsetzung weniger Aufwand bedarf als erwartet. Es wird aber auch deutlich, das sich an die Archivierung von Websites bisher nur wenige Archive gewagt haben. Aber enthält nicht auch der Internet- bzw. Intranetauftritt einer Behörde, Organisation, Institution oder eines Unternehmens wichtige Informationen, die für die zukünftigen Nutzer von Interesse sein könnten. Spiegeln sie nicht einen wichtigen Teil unserer heutigen Informationsgesellschaft wieder? Die Diplomarbeit zeigt, dass es sich lohnt ein neues Gebiet der Archivierung zu betreten. Archivare sollten nicht davor zurückschrecken neue Informationsformen zu archivieren, sich mit der Technik auseinander zusetze n und über Archiv- und Ländergrenzen hinweg zu kooperieren. 89 Glossar BINGO Mit BINGO werden aktuelle Geschäftsinformationen und interne Rundschreiben im Intranet dargestellt. Über die Datenbankabfrage können Geschäftsinformationen ab den 31.03.1994 und Rundschreiben ab den 16.08.2000 aufgerufen werden. Batch-Dateien Batch-Dateien bieten einfache, begrenzte Möglichkeiten der Programmierung. (HTML-XML-Konverter, S. 8) Browser Der Browser ist ein Anwendungsprogramm, mit dem im Internet/Intranet Dateien aufgerufen und angezeigt werden. Client-Programme Ein Programm, das auf eine Dienstleistung eines Servers zugreifen kann, bezeichnet man als Client-Programm. Content Umfasst die eigentlichen Informationen eines Online-Angebots, technisch dadurch gekennzeichnet, dass sie sich zwischen der Anfangs- und Endmarkierung in einem Element eines HTML- oder SGML-Dokuments befinden. CD-ROM Die CD ist ein optisches Speichermedium und in verschiedenen Typen vorhanden, deren gemeinsame Grundlage für das Aufzeichnungsformat in der Norm ISO 9660 festgelegt ist. Ein Typ davon ist die CD-ROM, die nur einmal beschrieben werden kann. Die Speicherkapazität liegt bei ca. 650 MB. Domäne Im Internet wird unter Domäne ein Bereich verstanden, der durch gemeinsame Merkmale gekennzeichnet ist. Meist versteht man darunter eine Gruppe von Computern mit gemeinsamen Namensbestandteilen. Der kleinste gemeinsame Namenbestandteil heißt Top-Level-Domain und ist z. B. das Länderkürzel .de oder andere Kürzel wie *. com, *.org. DVD Die DVD ist ein optisches Speichermedium mit den Abmessungen und Funktionen einer CD, aber mit einer wesentlich höheren Speicherkapazität. Sie kann zwischen 4,7 GB (zum eigenen Brennen geeignet) bis 17 GB (nur ab Presswerke erhältlich) betragen. Es existieren verschiedene Typen wie bei der CD, z. B. auch eine DVD-ROM. Es besteht aber noch keine einheitliche Norm. Denn die Entwicklung ist noch nicht abgeschlossen. Verschiedene Herstellergruppen bestehen mit z. T. unterschiedlichen Produkten und Formaten nebeneinander. 90 Frame Ein abgetrennter Bereich auf einer Webseite, in dem eigene Inhalte oder aber auch fremde Webseiten angezeigt werden, wird als Frame bezeichnet. Migration Die Migration ist eine Methode zur Erhaltung elektronischer Aufzeichnungen, bei der die Informationen auf eine neue Plattform überführt werden. Parser Parser sind Programme, die Dokumente oder Programmquelltexte nach vorgegebenen Kriterien syntaktisch analysieren und in einzelne Bestandteile aufgliedern. Sie erkennen die grammatische Struktur von Sätzen. Anschließend ersetzen sie die Text teile durch Anweisungen, Code oder andere geeignete Elemente. Server Ein Server ist ein Computer, der in einem Netzwerk seine Dienste anderen Computern (den sog. Clients) zur Verfügung stellt. Style Sheets Style Sheets sind Formatvorlagen, nach denen die Darstellung eines Dokuments gesteuert werden kann. Strukturierungen und Formatierungen des Dokumentes lassen sich dadurch besser voneinander trennen. Damit ermöglichen sie ein effektiveres Gestalten und Umgestalten von Dokumenten. Für die Auszeichnungssprache HTML besteht CSS, der in XML Anwendung finden kann. Jedoch können nicht alle Vorteile von XML genutzt werden. Für die Darstellung von XML-Dokumenten besteht der XML-basierte Style Sheet XSL. Spiegelung Die Spiegelung ist ein Verfahren, um Webseiten nach einer auswählenden Vorgehensweise einzufangen. Die Software kopiert automatisch alle Dateien der Website bis hin zu einer bestimmten Verzeichnungsebene zu einem bestimmten Zeitpunkt. Es extrahiert dabei alle Links, die auf derselben Website platziert sind. Die Tiefe der Verzeichnungsebenen wird als Spiegelungstiefe bezeichnet. Für die regelmäßige Durchführung muss ein Spiegelungsintervall festgelegt werden. URI (Uniform Resource Identifier) Die URI ist eine eindeutige Zeichenfolge, die ein Objekt im Web eindeutig identifiziert und beschreibt. URL (Uniform Resource Locator) Die URL ist die häufigste Form der URI, die zur Lokalisierung von Rechner und Speicherort einer Datei dient. Validisierung Bezeichnet die Überprüfung verarbeitenden Daten. der strukturellen Gültigkeit der zu 91 Webseite Die Webseite ist eine einzelne Seite eines Informationsanbieters im Internet/ Intranet. Website Eine Website besteht aus einer Gruppe hierarchisch angeordneter Webseiten. Die einzelnen Seiten einer Website sind durch Hyperlinks miteinander verbunden. World Wide Web Consortium (W3C) Das W3C ist eine nicht staatliche und nicht kommerzielle Organisation, deren Aufgabe es ist offenen Standards zu entwickeln und zu publizieren, durch die ein allgemeiner Informationsaustausch im Internet/Intranet möglich ist. 92 Literatur- und Quellenverzeichnis (letzte Zugriffe am 05.06.2003) Arms, William Y. [u.a.] [zit. Arms, Minerva, 2001]: Collecting and Preserving the Web: The Minerva Prototype, in: RLG DigiNews (2001), Vol. 5., No. 2 <URL: http://www.rlg.org/preserv/diginews/diginews52.html#feature1> Arvidson, Allan [u.a.] [zit. Arvidson, Kulturarw3Project, 2000]: The Kulturarw3Project, The Royal Swedish Web Archiw3e – An example of “complete” collection of web pages, in: Conference Proceedings, 66th IFLA council and General Conference, Jerusalem 13-18 August 2000 <URL: http://www.ifla.org/IV/ifla66/papers/154-157e.htm> Australian Standard AS 4390.5-1996, Records Management, 6.3 (zit. aus: NAA, Guidelines, 20001, S. 20) Bager, Jo [zit. Bager, CMS, 2002]: Hüter der Inhalte, Websites mit Content-Management-Systemen verwalten, in: c´t magazin fü r computer technik (2002), Heft 20, S. 178 – 183 Barnert, Silvia [u.a.] [zit. Barnert, Brockhaus, 2003]: Der Brockhaus, Computer- und Informationstechnologie, Hardware, Software, Multimedia, Internet, Telekommunikation, Leipzig, Mannheim 2003 Becker, Oliver [zit. Becker, XML, 2002]: Informationsmethodik III: XML, Vorlesungsmaterialien, FH Potsdam, Berlin 2002 <URL: http://www.informatik.hu-berlin.de/~obecker/ Lehre/FHP-XML/> Bischoff, Frank [zit. Bischoff, Emulation, 1999]: Emulation – das Archivierungskonzept der Zukunft?, in: Digitale Herausforderungen für Archive, 3. Tagung des Arbeitskreises „Archivierung von Unterlagen aus digitalen Systemen“ am 22. und 23. März 1999 im Bundesarchiv in Koblenz, hrsg. von Michael Wettengel, Koblenz 1999, S. 15-23 Boudrez, Filip [zit. Bodrez, David Nr. 5, 2002]: Digitale ArchivVering: rIchtlijn & aDvies nr. 5, Websitesbeheer voor archivering, Antwerpen 2002 <URL: http://www.antwerpen.be/david/Teksten/Richtlijn5.pdf> Büchner, Heino [u.a.] [zit. Büchner, WCM, 2001]: Web Content Management, Websites professionell betreiben, Bonn 2001 93 Büttner, Stephan [zit. Büttner, Formate, 2002]: Digitale Bibliothek, Elektronisches Publizieren: Formate, Vorlesungsmaterialien an der FH Potsdam, Potsdam SS 2002. Dauen, Sabine [zit. Dauen, Aufbewahrungspflichten, 2002]: Aufbewahrungspflichten, von Originaldokumenten bis zur elektronischen Archivierung, Vorschriften, Fristen, Nachweisepflichten, Vernichtung, Freiburg im Breisgau 2002 Endres, Albert; Fellner, Dieter W. [zit. Endres, Bibliotheken, 2000]: Digitale Bibliotheken: Informatiklösungen für globale Wissensmärkte, Heidelberg 2000 Hakala, Juha [zit. Hakala, NEDLIB, 2001]: Collecting and Preserving the Web: Developing and Testing the NEDLIB Harvester, in: RLG DigiNews (2001), Vol. 5, No. 2 <URL: http://www.rlg.org/preserv/diginews/diginews52.html#feature2> HTTrack Website Copier 3.2.3. [zit. HTTrack 3.2.3] <URL: http://www.httrack.com> Infopark AG, NPS 5.2, Datenblatt [zit. NPS 5.2, Datenblatt, 2002] <URL: http://www.infopark.com/com/products/nps/ nps520_datasheet.pdf> IM (Information Management) Forum Internet and Intranet Working Group [zit. IM Forum, Approach, 1999]: An Approach to Managing Internet and Intranet Information for Long Term Access and Accountability, 24. September 1999 <URL: http://www.imforumgi.gc.ca/iapproach2_e.html> International Council on Archives [zit. ICA, Guide, 1997]: Guide for managing electronic records from an archival perspective, hrsg. Vom committee on Electronic Records, Paris 1997 (ICA Studies; 8) <URL: http://www.ica.org/biblio/cer/guide_12.html#top> ISO 15489-1 [zit. ISO 15489-1, 2001]: Information and documentation – Records management – Part 1: General, 2001 LeFurgy, William G. [zit. LeFurgy, Management, 2001]: Records and Archival Management of World Wide Web Sites <URL: http://www.mybestdocs.com/lefurgy-w-grn0104.htm> Lienemann, Gerhard; Dördelmann, Frauke [zit. Lienemann, Intranets, 2003]: Intranets, Konzeption, Sicherheit und Realisierung, Zutphen 2003 94 Lixfeld, Dirk [zit. Lixfeld, brain, 2003]: dresdner brain, Das Intranet der Unternehmenskommunikation, PowerPoint-Präsentation, Frankfurt/M. Februar 2003 Köhne-Lindenlaub, Renate [zit. Köhne-Lindenlaub, Bewertung, 1998]: Erfassen, Bewerten, Übernehmen, in: Handbuch der Wirtschaftsarchive, Theorie und Praxis, hrsg. von Evelyn Kroker [u.a.], München 1998 Lupovici, Catherine; Masanès, Julien [zit. Lupovici, Metadata, 2000]: Metadata for long term-preservation, hrsg. NEDLIB, Den Haag 2000 (Report series; 2) <URL: http://www.kb.nl/coop/nedlib/results/D4.2/D4.2.htm> Lyman, Peter [zit. Lyman, Archiving WWW, 2002]: Archiving the World Wide Web, in: Building a National Strategy for Digital Preservation: Issues in Digital Media Archiving, copublished by the Council on Library and Information Resources and the Library of Congress, Washington 2002 <URL: www.clir.org/pubs/reports/pub106/contents.html> Mannerheim, Johan [zit. Mannerheim, heritage, 2000]: The WWW and our digital heritage – the new preservation tasks of the library community (66th IFLA council and Conference, Conference Proceedings, Jerusalem 13-18 August 2000 <URL: http://www.ifla.org/IV/ifla66/papers/158-157e.htm> Masanès, Julien [zit. Masanès, Web Archiving, 2002]: Towards Continuous Web Archiving, First Results and Agenda for the Future, in: D- Lib Magazine, December 2002, Vol. 8 No. 12 <URL: http://www.dlib.org/dlib/december02/masanes/ 12masanes.html> McClure, C. R.; Sprehe, J. T.[zit. McClure, Analysis, 1998]: Analysis and Development of Model Quality Guidelines for Electronic Records Management on State and Federal Websites, 1998 (zit. aus: IM Forum, Approach, 1999) Münz, Stefan [Münz, html, 2001]: Selfhtml Version 8.0 vom 27.10.2001 <URL: http://selfhtml.teamone.de/index.htm; http://selfhtml.teamone.de/html/xhtml/unterschiede.htm> National Archives of Australia [zit. NAA, DIRKS, 2003]: Risk analysis in DIRKS, in: DIRKS Manual, 2003 <URL: http://www.naa.gov.au/recordkeeping/dirks/dirksman/ dirks_A11_risk.html> 95 National Archives of Australia [zit. NAA, Policy, 2002]: Archiving Web Resources: A Policy for Keeping Records of Web-based Activity in the Commonwealth Government, revised January 2002 <URL: http://www. naa.gov.au/recordkeeping/er/ web_records/intro.html> National Archives of Australia [zit. NAA, Guidelines, 2001]: Archiving Web Resources: Guidelines for Keeping Records of Web-based Activity in the Commonwealth Government, Canberra 2001 <URL: http://www.naa.gov.au/recordkeeping/er/ web_records/intro.html> National Library of Australia [zit. NLA, PANDORA, 2001]: Archiving the Web: The PANDORA Archive at the National Library of Australia, Canberra 2001 <URL: http://www.nla.gov.au/nla/staffpaper/2001/cathro3.html> National Library of Australia [zit. NLA, Selection, 2001]: National Library of Australia: Guidelines for Selection of Online Australian Publications Intended for Preservation by the National Library of Australia, Canberra 2001 <URL: http://pandora.nla.gov.au/selectionguidelines.html> National Library of Australia [zit. NLA, Guidlines, 2001]: Safeguarding Australian´s web resources: Guidelines for creators and publishers, Canberra 2001 <URL: http://www.nla.gov.au/guidelines/webresources.html> Nordic Web Archives (NWA): NWA, About the Toolset (letzte Änderung 05.09.2002) <URL: http://nwa.nb.no/aboutNwaT.php> Oehler, Daniel [zit.Oehler, Konverter, 2002]: HTML-XML-Konverter, PowerPoint-Präsentation, Frankfurt/M. 5.11.2002 Ohst, Daniel [zit. Ohst, Dateiformate, 1998]: Dateiformate für das elektronische Publizieren, (Studienarbeit, Humboldt-Universität zu Berlin, Institut für Informatik), Berlin 1998 <URL: http://edoc.hu-berlin.de/buecher/ohst-daniel/HTML/> Pott, Oliver; Wielage, Gunter [zit. POTT, xml, 2000]: xml, praxis und referenz, 2.erw. und akt. Aufl., München 2000 (Markt & Technik; 25737) Sitepark GmbH [zit. Sitepark, Dresdner]: Die Dresdner Bank (Referenz) <URL: http://www.sitepark.com/reference/dresdner.shtml> 96 Stadsarchief Antwerpen: Metadataschema voor gearchiveerde websites, Antwerpen <URL: http://www.antwerpen.be/david/teksten/ modelmetadata.xml> Website-Archief <URL: http://www.antwerpen.be/david/nl/portalsite/index.htm> Rothenberg, Jeff [Rothenberg, Emulation, 2000]: An Experiment in Using Emulation to preserve Digital Publications, hrsg. NEDLIB, Den Haag 2000 (Report Series; 1) <URL: http://www.kb.nl/coop/nedlib/results/ emulationpreservationreport.pdf> Rothfuss, Gunther; Ried, Christian [zit. Rothfuss, CMS, 2001]: Content Management mit XML: Grundlagen Anwendungen, Berlin [u.a.] 2001 und Rusch-Feja, Diann (Übers.)[zit. Rusch-Feja, Dublin Core,1997]: Metadata-Tags zur Erschließung von Internetquellen, hrsg. von Bibliothek und Wissenschaftliche Dokumentation, Max-PlanckInstitut für Bildungsforschung, Stand 18.12.1996, [Berlin] 1997 <URL: http://www.mpib-berlin.mpg.de/DOK/metatagd.htm> Schmitz, Rudolf [zit. Schmitz, Archivierung, 2002]: Archivierung von Intranetseiten, Spiegelungsprojekt im Archiv der sozialen Demokratie (AdsD), in: Der Archivar 55 (2002), S. 135-136 Task Force on Archiving of Digital Information (Hrsg.) [zit. Task Force, Preserving Information, 1996]: Preserving digital Information, Report of the Task Force on Archiving of Digital Information, commissioned by The Commission on Preservation and Access and The Research Libraries Group, 1996 <URL: http://www.rlg.org/ArchTF/> Teleport Pro Offline Browsing Webspider [zit. Teleport Pro] <URL: http://www.tenmax.com> Tidy - <URL: http://www.w3.org/People/Raggett/tidy/> World Wide Web Consortium [zit.: W3C] <URL: http://www.w3.org/TR/xhtml1; http://www.w3.org/TR/xhtml2 > 97 Quellen im Intranet der Dresdner Bank (letzte Zugriffe am 31.03.2003) Corporate Center Unternehmenskommunikation [zit. CC UK, Factsheet, 2002] : Intranet Factsheet (letzte Änderung 27.08.2002) <URL: http://cc-uk.bww.dresdner.net/ik/ik_p/ik_p_fact.htm> Corporate Center Unternehmenskommunikation [zit. CC UK, IntranetStyleguide, 2002]: Intranet-Styleguide (Intro) 2.1 (letzte Änderung 23.5.2002) <URL: http://brain.dresdner.net/styleguide/intrtext.htm> Corporate Center Unternehmenskommunikation - Historisches Archiv [zit. Intranet HistArchiv, Archivwürdig, 2002]: Archivwürdiges Material (letzte Änderung 4.6.2002) <URL: http://cc-uk.bww.dresdner.net/his tarchiv/service/ intrtxtam.htm> Corporate Center Unternehmenskommunikation - Interne Kommunikation CC Unternehmenskommunikation (letzte Änderung 27.11.2002) <URL: http://cc-uk.bww.dresdner.net/ik/ik_p/> Corporate Center Unternehmenskommunikation - Interne Kommunikation [zit. CC UK IK, Plattform, 2002]: Unsere Plattform (letzte Änderung 27.08.2002) <URL:http://cc-uk.bww.dresdner.net/ik/ik_p/ ik_p_plattform.htm> Corporate Center Unternehmenskommunikation - Interne Kommunikation, Redaktion Intranet [zit. CC UK IK, Styleguide 2.1, 2001]: Intranet-Styleguide für die Dresdner Bank, Version 2.1., Stand 15.10.2001 <URL: http://brain.dresdner.net/styleguide/intrtxt.htm> Corporate Center Unternehmenskommunikation - Interne Kommunikation, Redaktion Intranet Willkommen auf den Intranetseiten der Dresdner Bank (letzte Änderung 31.03.2002) <URL: http://brain.dresdner.net/> Technischer Arbeitskreis des Intranets [zit. Techn. Arbeitskreis, Styleguide 3, 2003] [Styleguide 3.0], Auszug, PowerPoint-Präsentation, Frankfurt 16.01.2003 <URL: http://cc- fc.bww.dresdner.net/kit/de/com_intr/generic/ sg30_praes_taki_20030116.ppt> 98 Tab. 1: Archiving websites – Projekte Projekte, die im Zusammenhang mit der Archivierung von Websites stehen Name des Projektes Start Verantwortliche Beschreibung Informationen EPPP (Electronic Publication Pilot Project) 1994 National Library of Canada Sicherung elektronischer Publikationen, u.a. OnlinePublikationen („selective approach“) http://www.nlc bnc.ca/9/8/index-e.html Occasio 1995 International Institute of Social History (Amsterdam); Antenna (Amsterdam) Beginn mit der Archivierung von http://www.iisg.nl/occasio/ newsmessages/newsgroups der „Association for Progressive Communication“ durch Antenna; Fortführung vom IISH; Überlegungen zur Speicherung von relevanter Websites („selective approach“) PANDORA (Preserving and 06/1996 Accessing Networked Documentary Resources of Australia) National Library of Australia Sicherung australischer Online-Publikationen („selective approach“); Entwicklung der Software PANDAS für die Verwaltung archivierter webbasierter Dokumente; bestimmte webbasierte Aufzeichnungen und Websites werden von den National Archives of Australia archiviert („selective approach“ mit HTTrack) http://pandora.nla.gov.au/ index.html; http://www.naa.gov.au/record keeping/er/web-resords/ intro.htm The Internet Archive 10/1996 Internet Archive (San Fransisco), Gründer Brewster Kahle Sicherung weltweiter Websites des Internets in großer Anzahl („comprehensive approach“) http://www.archive.org Kulturarw3 04/1997 The Royal Library of Sweden Sicherung schwedischer Webseiten des Internets („comprehensive approach“) http://www.kb.se/kw3/ EWA (European Web Archive) 06/1997 Konsortium aus 10 Bibliotheken, 10 Universitäten und Research Centers sowie 5 Firmen http://www.erpanet.org/www/ products/urbino/Presentations/ RauberErpanet02.pdf NEDLIB (Networked European Deposit LIBrary) 01/1998 Zusammenschluss europäischer Bibliotheken Ziele (nach „comprehensive approach“): Entwicklung eines Datenhaltungssystems „best practice reports and standards“ training material state-of-the –art research Entwicklung einer grundlegenden Infrastruktur für digitale Publikationen; bisherige Ergebnisse: http://www.kb.nl/coop/ nedlib/ 99 - The Nordic Metadata Projects 05/1998 National Library of Norway Internet Archiv 1998 Archiv der sozialen Demokratie (Bonn) Archipol Archiveringsproject nederlandse partijsites 01/2000 Documentatiecentrum Nederlandse Politieke Partijn, Universiteitsbibliotheek van de Rijksuniversiteit Groningen Minerva 03/200006/2001 (-12/2002) Library of Congress (Washington) Entwicklung und Test des Web Crawlers „NEDLIB harvester“ („comprehensive approach“) Entwicklung von Metadaten für die dauerhafte Aufbewahrung Entwicklung von Indexierungs- und Recherchetools im Rahmen des NWA-Projektes Im Zusammenhang mit der Sicherung norwegischer Webseiten im Internet seit 05/1998 („comprehensive approach“); „The Nordic Metadata Project“ (Teil 1: 19961998, Teil 2: 1999-2000): Erweiterung der Dublin Core-Elemente, Implementierung in XML/RDF Entwicklung eines Dublin Core-MARC-Konverters Benutzungsrichtlinie für Dublin Core Archivierung von Websites der SPD im Internet („selective approach“ mit Teleport Pro) http://www.lib.helsinki.fi/ meta/ Vgl. Schmitz, Archivierung, 2002 Archivierung von Websites niederländischer, politischer http://www.archipol.nl/ Parteien und deren Nebeneinrichtungen im Internet („selective approach“ mit HTTrack); Ziele: Entwicklung von Archivierungsstandards betreffs Intervallen, Entwicklung von einer Infrastruktur für die Verwaltung archivierter Websites Entwicklung von einer Migrationsstrategie Gestaltung einer Website für das Projekt; z. Zt. noch keine Ergebnisse verfügbar Archivierung bestimmter, einzelner Websites („selective http://www.loc.gov/minerva; approach“ mit HTTrack) http://www.rlg.org/preserv/dig inews/diginews52.html#feature1 100 NWA (Nordic Web Archive) 11/200007/2002 National Library Nordunet2 of Norway, Ist ein Forum für die Koordination und den Austausch von Erfahrungen auf dem Gebiet des Herunterladens („comprehensive approach“), und des Archivierens von Webdokumenten, Schwerpunkte: Entwicklung einer Software für das Herunterladen von Webdokumenten Entwicklung des „NWA toolset“ als Lösung für die Suche und Navigation von Beständen archivierter Webdokumente. Neues Projekt 03/2003-04/ 2004: Weiterentwicklung der „NWA toolset“ “Archiviering van websites” 2001 Stadsarchief Antwerpen Netarchive Royal Library of Denmark, The Sicherung dänischer Webseiten State and University Library („comprehensive approach“) (Aarhus), centre for Internet Research at the University of Aarhus, Denmark´s Electronic Research Library 08/200107/2002 Quelle: Eigene Zusammenstellung http://nwa.nb.no/, XML-Schema für Metadaten mit Beispiel über: http://nwa.nb.no/aboutNwaT.p hp Archivierung der Website von der Stadt Antwerpen: http://www.antwerpen.be/ Richtlinien für die Archivierung von Websites („selective david/nl/text_websites. htm approach“), im Rahmen von DAVID (Digitale Archivering in Vlaamse Instellingen en Diensten), Verwaltung über die Verzeichnisstruktur, XMLMetadatenschema, Online-Nutzung nur in dem Archiv im Internet http://www.netarchive.dk 101 Tab. 2: Tabellarische Übersicht zur Darstellung und Verwaltung der Intranetangebote Intranetangebote Styleguide 2.1 Verantwortliche Externe Datenhaltung – wo? CMS „infosite“ BRAIN-Server Nachrichten Ja CC UK IK - Ja Ja Presseschau Ja CC UK IK CC UK Medienanalyse, CC Volkswirtschaft Teilweise Teilweise Webmail Ja CC UK IK - Ja Ja Web-TV Ja CC UK Corporate Publishing Redaktion Web-TV CC UK Corporate Publishing Redaktion Web-TV Nein Nein Archiv Ja CC UK IK CC UK Corporate Publishing Redaktion Web-TV Teilweise Teilweise Forum, Intranet Deutschland Forum Nein CC UK IK - Ja Ja Konzernnavigator (Oberfläche) Ja CC UK IK - Ja Ja Regionen/ Niederlassungen Teilweise Regionen/ Niederlassungen Keine Aussage möglich (Contents der Rhein-Main-Region teilweise bei CC UK IK) Nein (nur teilweise Rhein-MainRegion) Nein (nur teilweise Rhein-MainRegion) Tochtergesellschaften Nein / Beteiligungen Tochtergesellschaften/ Beteiligungen Keine Aussage möglich Nein Nein Allianz AG Nein Allianz AG Allianz Group Nein Nein Corporate Center (CC) Überwiegend Einzelne Corporate Centers Nur vereinzelt bei den CCs Überwiegend Überwiegend Corporate Services Ja Corporate Services - Nein Nein Corporate Markets Nein Corporate Markets Keine Aussage möglich Nein Nein 102 Private Kunden und Geschäftskunden Ja „Private Kunden und Geschäftskunden“ Keine Aussage möglich Nein Nein A-Z Index Ja CC UK IK - Ja Ja BINGO Nein „Private Kunden und Geschäftskunden“ Private Kunden und Geschäftskunden Nein Nein Business Travel Service Nein Flächenmanagement Flächenmanagement Nein Nein MIS Nein Fa. DREMIS Fa. DREMIS Nein Nein Mitarbeiter Ja CC Personal Keine Aussage möglich Nein Nein PRIMA Ja CC Personal Keine Aussage möglich Nein Nein TurnaroundProgramm Ja CC UK IK - Ja Ja Allianz.com News Nein Allianz Group Allianz Group Nein Nein Gallileo Ja CC UK IK - Ja Ja Telefonbuch Nein ISSTA (Allianz Group) Sehr zerstreut Nein Nein Quelle: Eigene Zusammenstellung 103 Abb. 1: Metadata-Elemente des Dublin Core -Standards 1. Titel (DC. CREATOR) 2. Verfasser oder Urheber (DC.CREATOR) 3. Thema und Schlagwörter (DC.SUBJECT) 4. Inhaltliche Beschreibung (DC.DESCRITION) 5. Herausgeber (DC.PUBLISHER) 6. Weitere beteiligte Personen und Körperschaften (DC.CONSTRIBUTORS) 7. Datum (DC.DATE) (erweiterbar) a. Datum der ersten Veröffentlichung (DC.CREATION b. Datum der letzten Änderung (DC.LASTMODIFIED) 8. Ressourcenart (DC.TYPE) 9. Format (DC.FORMAT) 10. Ressourcen-Identifikation (DC.IDENTIFIER) 11. Quelle (DC.SOURCE) 12. Sprache (DC.LANGUAGE) 13. Beziehung zu anderen Ressourcen (DC.RELATION) 14. Räumliche und zeitliche Maßnahmen (DC.COVERAGE) 15. Rechtliche Bestimmungen (DC.RIGHTS) Quelle: Rusch-Feja, Diann (Übers.): Metadata- Tags zur Erschließung von Internetquellen, hrsg. von Bibliothek und Wissenschaftliche Dokumentation, Max-Planck Institut für Bildungsforschung, Stand 18.12.1996, [Berlin] 1997 <URL: http://www.mpib-berlin.mpg.de/DOK/metatagd.htm> 104 Abb. 2: Das Intranet der Dresdner Bank – das erste Portal (Screenshot ohne Datum) Quelle: Lixfeld, Dirk: dresdner brain, Das Intranet der Unternehmenskommunikation, PowerPoint-Präsentation, Frankfurt/M. Februar 2003 [keine Folienangabe vorhanden]) 105 Abb. 3: „Wie kommen meine Informationen ins Netz?“ Technik Corporate Center IT Publisher Aktivierung Design Intranet der Dresdner Bank Corporate Center UK Quelle: Dresdner Bank CC UK IK Redaktion Intranet: Intranet-Styleguide für die Dresdner Bank, Version 2.1., Stand 15.10.200, S. 56 106 Abb. 4: Das Intranet der Dresdener Bank – das Portal Quelle: Screenshot vom 12.02.2000 107 Abb. 5: Das Intranet der Dresdner Bank - diverse Screenshots vom 12.02.2003 Konzernnavigator bietet einen direkten Einstieg zu den Unternehmensbereichen Corporate Centers der Dresdner Bank AG BINGO mit Aktuellen Geschäftsinformationen und internen Rundschreiben 108 Web-TV – Archiv „Archiv“ Diskussionsforum (kurz: Forum) mit eigenem Styleguide 109 Abb. 6: Schema des Webpublishing´s mit einem CMS Quelle:Büchner, Heino: Web Content Management, Websites professionell betreiben, Bo nn 2001, S. 108 Abb. 7: Funktionsweise von Vorlagen (Templates) Nach: Büchner, Heino: Web Content Management, Websites professionell betreiben, Bonn 2001, S. 85 Abb. 8: Content Life Cycle Quelle: Büchner, Heino: Web Content Management, Websites professionell betreiben, Bonn 2001, S. 92 110 Abb. 9: Meta-Tags im Styleguide 2.1 und deren Anwendung Abb. 9.1: Vorgaben von Meta-Tags im Styleguide 2.1 <html> <head> <meta name=“author“ content “Peter Mustermann“> <meta name=“description“ content “Allgemeines zum Styleguide“> <meta name=“keywords“ content “Styleguide, Corporate Design, Gestaltung, Webseiten“> <meta name=“einheit“ content “Kürzel Ihrer Einheit“> <meta name=“location“ content “Standort“> <meta http-equiv=”content-type” content=”text/html, charset=iso-8859-1”> ... </head> ... </html> Quelle:Dresdner Bank CC UK IK Redaktion Intranet: Intranet-Styleguide für die Dresdner Bank, Version 2.1., Stand 15.10.2001, S. 42 Abb. 9.2: Meta-Tags im Quellcode des Intranetportals (Inhaltsframe) <html> <head> <title>BRAIN</title> <meta name="autor" content="CC UK IK Intranetredaktion"> <meta http-EQUIV="pragma" content="private"> .... </head> ... </html> Quelle: Quellcode http://brain.dresdner.net/index.htm vom 12.02.2003 Abb. 9.3: Meta-Tags im Quellcode der Presseschau <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN> <HTML> <HEAD> <TITLE>Presseschau</TITLE> <META NAME="Author" CONTENT="CC UK MM"> <META NAME="Keywords" CONTENT=""> <META NAME="Description" CONTENT="Presseschau"> <meta http-equiv="pragma" content="no-cache"> <meta http-equiv="cache-control" content="nocache"> .... </HEAD> ... </HTML> Quelle: Quellcode http://brain.dresdner.net/ vom 12.02.2003 111 Abb. 10: Auszüge aus dem Styleguide 3.0 Abb. 10.1: Gleicher Grundaufbau für alle Seitentypen (ob Brain- Home, Bereichs-Home, Navigationsseite oder Contentseite) Übergreifende Navigation Hauptnavigation Bereichsbezeichnung mit typischem Bild Navigationspfad Subnavigation Marginalspalte mit Infoboxen Contentbereich Quelle: Dresdner Bank AG, Technischer Arbeitskreis Intranet: [Styleguide 3.0], Auszug, PowerPoint-Präsentation, Frankfurt 16.01.2003, Folie 5 Abb. 10.2: Beispiel eines „Bereichs-Home“ „These: Das `Bereichs-Home´ ist der Einstieg in ein organisatorisch abgegrenztes Informationsangebot. Aufbau und Gestaltung sind weitgehend analog der BRAIN. Items je Bereich: – Bereichs-Home – Services – News – Organisation“ Quelle: Dresdner Bank AG, Technischer Arbeitskreis Intranet: [Styleguide 3.0], Auszug, PowerPoint-Präsentation, Frankfurt 16.01.2003, Folie 8 112 Abb. 11: Archivierungsablauf für das Intranet der Dresdner Bank AG Festplatte Intranety 1 Intranetx Bewertung Spiegelung XMLDatei + HTML XHTML Metadaten Festplatte Anzahl n der = yi´ Indizes i=1 Index y1´ Recherche Intranety1´ Indexy1´ Indexy2´ Indexy1+n´ Benutzung Migration zu Intranet y1´ Archivierungsmedium Aufbereitung Aufbereitung Intranety1 + Index y 1 113 Abb. 12: Stadsarchief Antwerpen: Metadataschema voor gearchiveerde websites [Metadatenschema für archivierte Websites] (NL/ [D]) 1. Algemeen - - Titel: Versie: Archiefvormer [Archivbildner]: Onderwerp [Schlagwort]/ Abstract: URL: IP-Adres: Webmaster: Webdesign: Inhoudsverantwoordelijken: Openbaarheid [Öffentlichkeit]: Online Versies: Talen [Sprachen]: Tellerstand bij online plaatsing [Zählstand bei Onlineplatzierung]: Tellerstand bij offline plaatsing [Zählstand bei Offlineplatzierung]: Datum online beschikbaar [Datum, ab wann die URL online verfügbar war]: Wijzigingen [Änderungen]/ Updates: Datum Verwijdering [Entfernen] van webserver: Datum archivering: 2. Webserver - Hardware: Besturingssysteem [Verwaltungssystem]: Webserverconfiguratie: Scripts: Uitvoerbare programma´s [ausführbare Programme]: Koppeling met toepassingen [Verbindung mit Anwendungen]: Inhoud logbestanden: Frequentie logbestanden: 3. Mirror [Spiegelung]/ Snapshot 3.1 Algemeen Gearchiveerde versie(s) [archivierte Versionen]: Aanpassingen bij archivering: Ontbrekende onderdelen [fehlende Bestandteile]: 3.2. Technische gegevens [technische Angaben]: Startpagina [Startseite]: Aantal bestanden [Anzahl der Bestände]: Aantal mappen [Anzahl der Mappen/Verzeichnisse]: Totale bestandsomvang: Paswoorden: 3.3. Bestandsformaten en versies (X)HTML-Versie: Tekstbestanden: Audiobestanden: Videobestanden: Afbeeldingsbestanden: Animatietoepassingen [Animationsanwendungen]: Downloads: Clientscripts: 3.4. Software bij raadpleging [notwendige Software für die Ansicht]: - Webbrowser: - Plug-ins: 4. Fouten en opmerkingen [Fehler und Anmerkungen]: - Fouten: Opmerkingen: Quelle:<URL: http://www.antwerpen.be/david/teksten/modelmetadata.xml> 114 Abb.13: Beispiele für die Online -Benutzung von Webarchiven Abb. 13.1: Stadsarchief Antwerpen – „Website Archief“ Online-Nutzung nur im Lesesaal des Stadtarchivs Antwerpen möglich Quelle: <URL: http://www.antwerpen.be/david/nl/portalsite/index.htm> Abb. 13.2: Nordic Web Archives (NWA) Darstellung der Rechercheergebnisse Quelle: <URL: http://nwa.nb.no/aboutNwaT.php> Bespiel einer archivierten Webseite mit einem integrierten Zeitstrahl. Quelle: <URL: http://nwa.nb.no/aboutNwaT.php> 115 Abb. 14: Zuständigkeiten der National Library of Australia und der National Archives of Australia bei der Archivierung webbasierter Aufzeichnungen Quelle: National Archives of Australia: Archiving Web Resources: A Policy for Keeping Records of Web-based Activity in the Commonwealth Government, revised January 2002, S. 10 <URL: http://www.naa.gov.au/recordkeeping/er/web_records/ ArchiveWebFigure/archiveweb_figure.html> 116 Abb. 15: Faktoren für die Risikoanalyse der National Archives of Australia Quelle: National Archives of Australia: Archiving Web Resources: Guidelines for Keeping Records of Web-based Activity in the Commonwealth Government, Canberra 2001, S. 23 <URL: http://www.naa.gov.au/recordkeeping/er/web_records/ guide_risk.html> 117 Abb. 16: Corporate Center Unternehmenskommunikation Grafische Darstellung der Bewertung nach der Besprechung mit Herrn Pasqualotto Legende: Archivwürdig nicht archivwürdig Grenzfall Portal, Struktur Organisation (regelmäßig spiegeln) o Leitung Philosophie und Zielsetzung, Ihr Ansprechpartner, Organigramm o Corporate Publishing Philosophie und Zielsetzung, dresdner banker (Online-Publikatin im Internet), dresdner dwm (Online-Publikation im Internet), web-tv, Stakeholder Report (Lin k führt zum Internetauftritt), Geschäftsbericht (Dokument nicht verfügbar), Frankfurt aktuell, Rechtschreibung, Ansprechpartner o Corporate Sustainability (nur kommende Seite) Nachhaltigkeit, Aktuelles/ Best Practice, Umweltmanagement nach ISO 14001, Umweltmanagementhandbuch (nur kommende Seite, wenn es gedruckt vorliegt), Klimaschutz, Produktökologie, Betriebsökologie, Meilensteine, Partner, Dokumente (mit Dokumenten), Links, Organisation (Zentrale und Regionen),Ihr Ansprechpartner (wenig informativ) o Gremienbetreuung und Protokoll Ihr Ansprechpartner, Organigramm, Ihr Feedback o Historisches Archiv Allgemeines, Standorte, Entwicklung, Eugen-Gutmann-Gesellschaft (Flyer und Beitrittsformular), Chronik, Aktenbestände, Unterlagen der Altbank, Sammlungen (digitalisierte Bilder nicht notwendig), Bibliothek (Literatur zur Geschichte der Dresdner Bank ist nicht unbedingt erforderlich), Service, Kontakt und Mitarbeiter o Innenleitung Philosophie und Zielsetzung, Ihr Ansprechpartner, Organigramm o Interne Kommunikation Philosophie und Zielsetzung, Dialog (nur Eingangsseite), Leadership, Communication & Identity Management, dresdner banker, Intranet (alle Links der weiteren Rubriken), Internet (alle Links der weiteren Rubriken), Wissensmanagement, Hausbücherei (nur Einleitung und evtl. Aktionen, falls vorhanden), Kommunikations-IT o Kunst und Wissenschaft (alles, außer externer Link zu Jürgen-Ponto-Stiftung) Philosophie und Zielsetzung, Historie, Aufgabengebiete, Partner & Kunden, Organisation & Struktur, Zahlen & Statistiken, Service, Ansprechpartner, Organigramm o Marketing-Kommunikation Philosophie und Zielsetzung, Corporate Design Standards (nur Eingangsseite, Blancovorlagen), Aktuelle Kampagnen / Anzeigen (einzelne *pdf-Dateien), Bilddatenbank (www.dresdner-bankimage.info), Veröffentlichungen und Werbemittel, Service, Ansprechpartner, Organigramm o Marktforschung und Medienanalyse Philosophie und Zielsetzung, Marktforschung (ganz), Presseschau/ Medienanalyse (Eingangsseite, evtl. nur Ansprache von Eizenstat, Veranstaltungskalender), Monitoring-Service, Communicative Risk Management, Ansprechpartner, Organigramm Presse • Philosophie und Zielsetzung, Ansprechpartner Public Relations/ Public Affairs • Philosophie und Zielsetzung, Bildung, Der Euro, Die Zukunft der europäischen Union, Frauenkirche Dresden, 118 - Gesellschaftspolitisches Engagement, Initiativen für Demokratie und Völkerverständigung, Ihr Ansprechpartner, Organigramm Strategische Kommunikationsplanung • Philosophie und Zielsetzung, Integrationsprojektbüro, Unternehmenskommunikation, Veranstaltungskalender, Presseschau (noch im Aufbau, Links zur BRAIN-Startseite?), Archiv: Reden, Präsentationen, Artikel/ Publikationen (noch im Aufbau), Kampagnen (nur Verweise), Ihr Ansprechpartner, Ihr Feedback, Organigramm Kontakt- und Dialog (nur im Portal) o Ihr Ansprechpartner (deckt sich mit den Ansprechpartnern in den jeweiligen Bereichen), Ihr Feedback, “offen gesagt”,Diskussionsforum Intranet und Internet Informationsdienste (nur Übersicht, Verweise zu Links von CCUK, 1-2x jährlich) o Bildungspolitik: Bildungspaket Bayern (ist Link zu Publ. Rel.), Frankfurt Aktuell (ist Link zu Publ. Rel.), Presseschau (nur Verweis), Rund um den Euro (ist Link zu Public Affairs), Wissenswertes zu Europa (ist Link zu Publ. Rel.) Produkte und Medien (nur Übersicht, Verweise zu Links von CC-UK, nur 1-2x jährlich) o dresdner banker, dwm, Geschäftsbericht (ist Link zu Corp. Publ.), Nachhaltigkeit (nur erste Seite, ist Link zu Corp. Subst.), Print Kampagnen (alles), Publikationen 2001, Internet (ist Link zu CC IK Internet), Intranet (ist Link zu CC IK Intranet), TV-Kampagnen (keine verfügbar), Unternehmensvideo, Dresdner Web-TV (ist Link zu Corp. Publ.) Richtlinien (deckt sich mit CC IK, 1-2x jährlich) Service (nur Übersicht, 1-2x jährlich) Themenreihe und Aktionen (auf jeden Fall die Übersicht, wenig Änderung: 1-2x jährlich ausreichend) o Diskussionsforum “Verantwortung Zukunft” (nicht verfügbar), Euro-Gewinnspiel (mit Fragen), Veranstaltungsreihe: Wertorientierte Wachstum (nicht verfügbar), Victor Klemperer Judendwettbewerb (Link zu Internetseite) UK-Info (nur erste Seite) Quelle: Eigene Zusammenstellung 119 Abb. 17: Corporate Center Unternehmenskommunikation – Grafische Darstellung über die Umsetzung der Bewertung nach der Spiegelung vom 12.02.2003 Voreinstellungen: max. interne Tiefe 4, max. externe Tiefe 3 Mit folgenden Ausgrenzungen: -*/*allianz*/* -*/*telefonbuch* /* *www.dresdner-bank.com/* -*www.allianz.com/* -*www.eugengutmann-gesellschaft.de/* -*www.dresdner- bank.de/dresdnerbanker/* *www.dresdner-bank.de/dwm* Legende: funktioniert funktioniert nicht Portal, Struktur Organisation o Leitung Philosophie und Zielsetzung, Ihr Ansprechpartner, Organigramm o Corporate Publishing Philosophie und Zielsetzung, dresdner banker, (Eingangsseite, Internetlinks), dresdner dwm (Eingangsseite, einzelne Beiträge), web-tv (besteht nur aus der Eingangseite), Stakeholder Report (Eingangsseite, Internetlinks), Geschäftsbericht (nur Eingangsseite, Internetlink), Frankfurt aktuell (mit *pdf-Datei), Rechtschreibung (Eingangsseite und Liste), Ansprechpartner o Corporate Sustainability (nur kommende Seite) Nachhaltigkeit (Eingangsseite und Links auf der Seite), Aktuelles/ Best Practice (Eingangsseite, interne Link, Internetlinks), Umweltmanagement nach ISO 14001 (Eingangsseite + Dokumente), Umweltmanagementhandbuch (Eingangsseite, interne Links, Dokument), Klimaschutz (Eingangsseite, interne Links), Produktökologie (Eingangsseite, interne Links), Betriebsökologie (Eingangsseite, Dokument), Meilensteine (Meilensteine, Links, Dokument), Partner (Meilensteine, interne Links), Dokumente (mit Dokumenten), Links (nur Eingangsseite), Organisation (Zentrale und Regionen), Ihr Ansprechpartner o Gremienbetreuung und Protokoll Ihr Ansprechpartner, Organigramm, Ihr Feedback o Historisches Archiv Allgemeines, Standorte, Entwicklung, Eugen-Gutmann-Gesellschaft (Internetlink zur Eugen-Gutmann-Gesellschaft, Flyer und Beitrittsformular), Chronik, Aktenbestände, Unterlagen der Altbang (mit Dokument), Sammlungen (mit Galerie), Bibliothek, Service, Kontakt und Mitarbeiter o Innenleitung Philosophie und Zielsetzung, Ihr Ansprechpartner, Organigramm o Interne Kommunikation Philosophie und Zielsetzung, Dialog (alle internen Links, vollst. Archiv), Leadership, Communication & Identity Management, dresdner banker (Eingansseite, Link von Cor. Pub.), Intranet (alle Links, Styleguide), Internet (alle Links, Styleguide), Wissensmanagement, Hausbücherei (mit Dokument, Kommunikations-IT) o Kunst und Wissenschaft (alles, Link zur Jürgen-Ponto-Stiftung) Philosophie und Zielsetzung, Historie, Aufgabengebiete (alle internen Links), Partner & Kunden, Organisation & Struktur (mit Jürgen-PontoStiftung, Kulturstiftung Dresden), Zahlen & Statistiken, Service (alle internen Links), Ansprechpartner, Organigramm o Marketing-Kommunikation Philosophie und Zielsetzung, Corporate Design Standards (nur Eingangsseite, Blancovorlagen (im Frame)), Aktuelle Kampagnen / 120 o o o o Anzeigen (*pdf, *mpg-Dateien), Bilddatenbank (www.dresdner-bankimage.info), Veröffentlichungen und Werbemittel, Service, Ansprechpartner, Organigramm Marktforschung und Medienanalyse Philosophie und Zielsetzung, Marktforschung (interne Links), Presseschau/ Medienanalyse (interne Links), Monitoring-Service, Communicative Risk Management, Ansprechpartner, Organigramm Presse Philosophie und Zielsetzung, Ansprechpartner Public Relations/ Public Affairs (bis in die 3. Hierarchiestufe) Philosophie und Zielsetzung, Bildung (Dokumente einer Publikation), Der Euro, Die Zukunft der europäischen Union, Frauenkirche Dresden, Gesellschaftspolitisches Engagement (mit Dokument), Initiativen für Demokratie und Völkerverständigung, Ihr Ansprechpartner, Organigramm Strategische Kommunikationsplanung Philosophie und Zielsetzung, Integrationsprojektbüro, Unternehmenskommunikation, Veranstaltungskalender (mit Dokument), Presseschau (weiterführende Links zur Presseschautestseite), Archiv (Links funktionieren nicht), Ihr Ansprechpartner, Ihr Feedback, Organigramm Kontakt- und Dialog, vollständig bis in 2. Hierarchieebene o Ihr Ansprechpartner, Ihr Feedback, “offen gesagt”, Diskussionsforum Intranet und Internet Informationsdienste (bis in 2. Hierarchieebene) o Bildungspolitik: Bildungspaket Bayern, Frankfurt Aktuell, Presseschau, Rund um den Euro, Wissenswertes zu Europa Produkte und Medien (Links innerhalb von CC UK funktionieren) o dresdner banker, dwm (nur Eingangsseiten, Internetlinks), Geschäftsbericht (nur Eingangsseite), Nachhaltigkeit, Print Kampagnen, Publikationen 2001, Internet, Intranet, TV-Kampagnen, Unternehmensvideo (downloadbar), Dresdner Web-TV Richtlinien o (CD-Manual, Domainrichtlinien, CD-Rom-Bemaßung, Intranet-Styleguide, Zertifizierung ISO 14001) Internet-Styleguide, Service o (Hausbücherei, Corporate Branding, Infomanagement, Leadership Communication & Identitx Management, Marktforschung, Messen, Monitoring-Services, Neue Rechtschreibung, Präsentationslayout für PowerPoint, Print-Produktion, Sponsoring, Umweltmanagement, Werbegeschenke 2002, incl. Werbegeschenke zum Downloaden, Wissensmanagement, bis in die 3. Hierarchiestufe) Themenreihe und Aktionen (auf jeden Fall die Übersicht,) o Diskussionsforum “Verantwortung Zukunft” (nicht verfügbar), Euro-Gewinnspiel (mit Fragen, Link zur BRAIN-Presseschau), Veranstaltungsreihe: Wertorientierte Wachstum (nicht verfügbar), Victor Klemperer Jugendwettbewerb (Eingangsseite, Internetseite) UK-Info (nur erste Seite) (kein Passwort eingegeben) Quelle: Eigene Zusammenstellung 121 Abb. 18: Corporate Center Unternehmenskommunikation im Intranet – Screenshots zur Spiegelung mit HTTrack vom 12.02.2003 Das CC UK-Portal im Original Filtereinstellung bei HTTrack für die Spiegelung von http://cc- uk.bww. dresdner.net Gespiegelter Intranetauftritt Die Galerie des Historischen Archivs wurde mitgespiegelt 122 Abb. 19: Teleport Pro – Screenshots der „Project Properties“ Einschlussoptionen von Dateien Einstellmöglichkeiten für die Durchführung der Spiegelung Ausschlussoptionen von Links/ Pfadnamen Zusammenfassung der Spiegelungsergebnisse 123 Abb. 20: HTTrack – diverse Screenshots (12.02.2003) Auswahl der Aktionen zu Beginn der Spiegelung Umfangreiche Optionen unter „Einstellungen“ Kontrolle und Stoppmöglichkeiten während des Spiegelungsprozesses Nach der Spiegelung erstellt HTTrack ein Protokoll 124 Abb. 21: Das Intranet der Dresdner Bank – das gespiegelte Portal Im lokalen Verzeichnis gespeichert Quelle: Spiegelung und Screenshot vom 12.02.2003 125 Abb. 22: Vergleich zwischen HTML- und XML-Dokumenten Abb. 22.1.: Im HTML-Dokument sind alle Bestandteile der Seite integriert: Textinformation Grafik <html> Sound Dokument Video Quelle: Pott, Oliver: xml, praxis und referenz, München 2000, S. 18 Abb. 22.2: Strukturierungs- und Formatierungsangaben zur Darstellung des Inhaltes eines XML-Dokuments werden getrennt realisiert. Diese können auch in einer Datei gespeichert werden Struktur Format Inhalt Quelle: Pott, Oliver: xml, praxis und referenz, München 2000, S. 19 126 [Druckvorlage] 127 Abb. 23: Der Ablauf des HTML-XML-Konverters Quelle: Oehler, Daniel: HTML-XML-Konverter, PowerPoint-Präsentation, Frankfurt/M. 5.11.2001, Folie 1