Design, Konzept und Betrieb fortschrittlicher Rechenzentren
Transcription
Design, Konzept und Betrieb fortschrittlicher Rechenzentren
DESIGN, KONZEPT UND BETRIEB FORTSCHRITTLICHER RECHENZENTREN Whitepaper Autoren: Martin Zwyssig CEO Roy Leemann Senior Technical Consultant Datum: November 2012 In&Out AG IT Consulting & Engineering Seestrasse 353, CH-8038 Zürich, Phone +41 44 485 60 60 Fax +41 44 485 60 68 [email protected], www.inout.ch Design, Konzept und Betrieb fortschrittlicher Rechenzentren Whitepaper Einleitung Aufgrund grosser Bewegungen im Rechenzentrumsmarkt hat sich die In&Out AG entschieden, ein Whitepaper zur Thematik „Make or Buy“ zu schreiben. Damit nebst theoretischen Ausführungen der Praxisbezug sichergestellt ist, haben wir uns, zur konkreten Veranschaulichung der verschiedenen Themen, an den erfahrenen Anbieter e-shelter gewandt. Das Whitepaper veranschaulicht das Housing-Modell als Alternative zu einem eigenen Rechenzentrum am Beispiel von e-shelter. Ein separates Kapitel zeigt eine Übersicht der technischen Anbindung von Rechenzentren über verschiedene Distanzen, was mitunter immer wieder zu Diskussionen führt. Generell kann festgehalten werden, dass ein Rechenzentrum, welches zur richtigen Zeit, am geeigneten Standort, mit genügender Sicherheit, ausreichender, verfügbarer Fläche und Energie zur Verfügung steht, ein wertvolles Gut ist. Andere Komponenten (z.B. Software, Hardware), welche für den Betrieb einer Informatik nötig sind, können ohne enge Rahmenbedingungen beschafft werden. Ziel dieses Whitepaper ist es, den Entscheidungsträger bei der Wahl der optimalen Rechenzentrumslösung zu unterstützen und aufzuzeigen, welche Schritte für die Realisierung nötig sind. Diese beginnt bei der Erarbeitung der Anforderungen an das zukünftige Rechenzentrum, einer realistischen Roadmap, der Evaluation eines Providers und führt über den Umzug zum Betrieb im neuen Rechenzentrum (mehr dazu im Kapitel 5 Vorgehen). 1 Make or buy Heute immer noch weit verbreitet, betreiben kleine bis grosse Unternehmen ihre eigenen Rechenzentren. Oft umfasst dies neben dem Betrieb der IT-Systeme auch den Betrieb der RZ-Infrastruktur (Strom, Kälte, Sicherheit). Da stellt sich dann bald einmal die Frage, ob dies auch zum Kerngeschäft des Unternehmens gehört. Diese Frage muss jede Firma für sich beantworten und wird von verschiedenen Faktoren bestimmt. In letzter Zeit stossen viele Rechenzentren an die Grenzen von Energie und Kühlung. Ein Ausbau ist oft technisch nicht möglich oder sehr teuer und risikoreich, vor allem wenn er während dem Betrieb des Rechenzentrums erfolgen soll. Dazu kommt, dass die Komplexität oft unterschätzt wird. Früher wurden die IT-Systeme auf einen Doppelboden gestellt und der ganze Raum gekühlt. Die Energieeffizienz spielte noch keine Rolle. Heute sind die Anforderungen an ein Rechenzentrum stark gestiegen. Der Bau und Betrieb von Rechenzentren ist anspruchsvoller geworden. Das heutige und zukünftige Rechenzentrum muss energieeffizient, kostengünstig und hoch verfügbar sein. Um dies realisieren zu können, braucht es hochspezialisierte Fachleute. 1.1 Make Der Bau eines Rechenzentrums gehört bei den meisten Unternehmen nicht zu den Kernkompetenzen. Nur ausgewiesene Spezialisten mit mehrjähriger Erfahrung im Bau von Rechenzentren bieten die Gewähr, ein energieeffizientes, sicheres Rechenzentrum mit neusten Technologien bei der Rechenzentrumsinfrastruktur zu bauen. Weiter ist es ein Unterschied, ob ein Rechenzentrum in ein Gebäude eingebaut werden soll - da müssen verschiedene Kompromisse eingegangen werden - oder ob auf der grünen Wiese ein Rechenzentrum konzipiert und gebaut werden kann. In diesem Fall lassen sich meistens alle Anforderungen an ein modernes und sicheres Rechenzentrum erfüllen. Die Standortwahl wird von vielen Faktoren beeinflusst. Eine sorgfältige Analyse bezüglich der vorherrschenden Risiken (Erdbeben-, Überschwemmungszone, An- und Abflugschneisen etc.) und Rahmenbedingungen wie gute Carrieranbindung, gute Erreichbarkeit, sinnvolle Nutzung der Abwärme in ein Fernwärmenetz etc. ist unabdingbar. Keine einfache Aufgabe, einen geeigneten Standort zu finden. In der heutigen Zeit und in Zukunft noch vermehrt, wird auf Energieeffizienz und Nachhaltigkeit grossen Wert gelegt. Je nach Grösse und Leistungsdichte eines Rechenzentrums können die Stromkosten für den Betrieb des ITEquipments den grössten Anteil an den Betriebskosten ausmachen. Geht man davon aus, dass in Zukunft ökologische Aspekte wichtiger und der Strom tendenziell teurer wird, muss der Energieeffizienz eine grosse Bedeutung zugemessen werden. Seite 2 von 12 Design, Konzept und Betrieb fortschrittlicher Rechenzentren Whitepaper Alles deutet darauf hin, dass sich die Lebensdauer von Rechenzentren verändern wird. In der Vergangenheit wurde ein Rechenzentrum für den Betrieb von 15 - 25 Jahre geplant und die RZ-Infrastruktur von Beginn weg voll ausgebaut. Typischerweise wurden bei diesen Rechenzentren Reserven an Platz und Energie vorgehalten, um das prognostizierte Wachstum bewältigen zu können. Das bedeutete jedoch auf der finanziellen Seite totes Kapital. Trotz seriöser Planung führte dies häufig dazu, dass der höhere Energiebedarf während der Lebensdauer nicht befriedigt oder die Energieeffizienz nicht kostengünstig verbessert werden konnte. Heute wird ein Rechenzentrum nicht statisch, sondern modular aufgebaut, um jederzeit die neusten Technologien einsetzen zu können. Dadurch wird einerseits ein möglichst energieeffizienter und kostengünstiger Betrieb ermöglicht. Andererseits lässt sich durch den modularen Ausbau die Lebensdauer von heutigen Rechenzentren verlängern. Der Betrieb eines eigenen Rechenzentrums, immer häufiger aus Sicherheitsgründen auch zweier eigener Rechenzentren, ist heute noch weit verbreitet. Bei zwei Rechenzentren stellt sich die Frage, wie weit diese geografisch auseinander liegen müssen. Die Antwort ist keine klare Angabe in Kilometern. Dies haben auch die Regulatoren erkannt, gibt es doch auch von dieser Seite her lediglich Empfehlungen, weil verschiedene Aspekte zu berücksichtigen sind. Wichtig ist, dass nicht beide Rechenzentren vom gleichen Ereignis betroffen sein dürfen (z.B. Feuer, Explosion, Hochwasser o.ä.), also sich in einer anderen Geländekammer befinden müssen. Ein weiterer zentraler Aspekt ist die im Einsatz stehende Technologie bzw. die von den Anwendungen verlangte Technologie, welche Einfluss auf die Distanz zwischen den Rechenzentren haben kann. Zusammengefasst lauten die Vor- und Nachteile einer „Make“-Variante: Vorteile Nachteile Eigene Immobilie bzw. Assets Investitionen in die RZ-Infrastruktur (CAPEX) Massgeschneiderte Lösung Technische Skalierbarkeit nur beschränkt Nur wenige, externe Rahmenbedingungen Hohe Betriebskosten, fehlende Skaleneffekte Eigenes RZ-Infrastruktur Know-how notwendig 1.2 Buy Als Alternative zum Eigenbetrieb von Rechenzentren bieten verschiedene Anbieter Lösungen an, die vom Mieten einzelner Serverplätze (Teil eines Racks), über Miete ganzer Racks oder abgetrennter Cages (private cage) bis zu ganzen RZ-Räumen (private rooms) und RZ-Gebäuden reichen. Neben der reinen Miete können auch Teile oder die ganze Informatik ausgelagert werden (Outsourcing). In diesem Whitepaper beschränken wir uns auf die Miete von RZ-Fläche und RZ-Räumen, da dies mit dem Eigenbetrieb des Rechenzentrums am ehesten vergleichbar ist. Die Lösung mit RZ-Containern hat sich aus Kostengründen für längerfristigen Gebrauch nicht durchgesetzt. Manchmal werden Container temporär für die Überbrückung von Engpässen, als Provisorien während Umbauten oder für den Einsatz als Disaster Recovery (DR) Lösung eingesetzt. Bei der Miete von RZ-Fläche wurden die Abklärungen, welche einem RZ-Bau vorausgehen, bereits durch den Provider durchgeführt. So kann man davon ausgehen, dass ein seriöser Anbieter den Standort möglichst ohne Umweltrisiken ausgewählt hat, sein Gebäude redundant mit Strom und Netzwerkcarriern erschlossen ist und auch genügend Energie zur Verfügung steht. Durch die Grösse des Rechenzentrums resultiert einerseits eine hohe Skalierbarkeit und anderseits entstehen Skaleneffekte, welche einen kostengünstigen Betrieb der RZ-Infrastruktur ermöglichen. Die hohe Skalierbarkeit zeigt sich z.B. bei der Leistungsdichte. So ist es möglich, mit einer kleinen Leistungsdichte (z.B. 2 durchschnittlich 0.5 kW/m ) zu starten und dann ohne Unterbruch oder Umbauarbeiten auf höhere Leistungsdichten 2 (z.B. 1.5 kW/m ) zu steigern. Skaleneffekte können erzielt werden, weil sich mehrere RZ-Nutzer die Sockelkosten, welche nicht linear mit der Grösse des Rechenzentrums steigen, teilen können. Dies gilt sowohl in der Technik wie auch beim Personal. So bieten die meisten Provider einen 7x24h vor Ort Überwachungsdienst an, welcher im Fehlerfall eine kurze Interventionszeit sicherstellt. Seite 3 von 12 Design, Konzept und Betrieb fortschrittlicher Rechenzentren Whitepaper Unsere Erfahrung der letzten Jahre zeigt, dass der Grund für die Suche nach neuen RZ-Lösungen oft die fehlende Skalierbarkeit von alten RZ-Infrastrukturen ist. Der steigende Bedarf an Strom- und Kühlleistung kann im alten Rechenzentrum nicht mehr befriedigt werden, ein Ausbau ist häufig unmöglich. Die „Buy“-Variante bietet auf der finanziellen Seite voraussehbare Miet- und Betreiberkosten, welche in einem Vertrag - typischerweise über mindestens 5 Jahre - fixiert sind. Es fallen keine Investitionen für die RZ-Infrastruktur an, da diese dem Provider gehört und von ihm betrieben wird. Neben den fixen Miet- und Betreiberkosten müssen zusätzlich die verbrauchsabhängigen Stromkosten budgetiert werden wobei sich durch den Einsatz von energieeffizienten IT-Systemen die Stromkosten positiv beeinflussen lassen. Zusammengefasst lauten die Vor- und Nachteile einer „Buy“-Variante: Vorteile Nachteile Keine sprungfixen Kosten (OPEX statt CAPEX) Abhängigkeit vom Anbieter Hohe Skalierbarkeit und Flexibilität Externe Rahmenbedingungen Professionelle Betreiber der RZ-Infrastruktur Eigene Bedürfnisse u. U. nicht komplett umsetzbar Keine Investitionen in die RZ-Infrastruktur Kein RZ-Infrastruktur Know-how nötig, dadurch Einsparung beim RZ-Infrastruktur Personal 2 Technische Übersicht In diesem Abschnitt gehen wir auf die wichtigsten Aspekte bei der Anbindung von Rechenzentren als Backup- oder Produktiv-Standort ein. Technologische Grenzwerte für Hochverfügbarkeits- und Disaster Recovery-Lösungen werden aufgezeigt. 2.1 Storage-Technologien Das Beratungsunternehmen Gartner (www.gartner.com) veröffentlicht in regelmässigen Abständen einen Hype Cycle für Storage-Hardware Technologien. Von besonderem Interesse sind dabei die Storage Technologien, welche die Anbindung von Rechenzentren über grössere Entfernungen erlauben. Gartner unterscheidet dabei zwischen Metro-Area- und Wide-Area SANs (Storage Area Networks). SAN Technologien sind notwendig, um insbesondere die Datenspeicher miteinander zu verbinden. Das Wide-Area SAN verknüpft dabei SANs über eine Entfernung von mehreren hundert Kilometern über die Protokolle ATM, IP, Ethernet, SONET oder andere. Gartner betrachtet Wide-Area SANs als eine reife Technologie, welche ein hohes Potenzial aufweist und bereits heute eine Marktdurchdringung von mehr als 20% des Zielmarktes erreicht. Ein Metro-Area SAN überbrückt Distanzen von 10 bis 120 km. Das Potenzial der Technologie wird als hoch angesehen und auch hier ist bereits eine Marktdurchdringung von mehr als 20% erreicht. Somit sind Technologien zur Anbindung von Rechenzentren auch über grosse Distanzen inzwischen hinreichend reif und haben bereits eine hohe Marktdurchdringung erreicht (siehe Tabelle 1). Seite 4 von 12 Design, Konzept und Betrieb fortschrittlicher Rechenzentren Whitepaper 2.2 Distanzen Auf der Basis der heute zur Verfügung stehenden Technologien unterscheiden wir vier Distanzbereiche: < 10 km: Verbindung mit normalen Monomode-Glasfaserkabel 10-70 km: Metro-Area SANs mit speziellen SFPs (Small Form-Factor Plugable) und speziellen Monomode- 1 Glasfaserkabel 70-120 km: Metro-Area SANs mit Multiplexing-Technologien wie CWDM und DWDM > 120 km: Wide-Area SANs über alternative Protokolle Aufgrund der grossen Forschungsaktivitäten in dem Bereich der Opto-Elektronik und Glasfasertechnologie ist in naher Zukunft mit Erweiterungen der Distanzbereiche zu rechnen. Diese Längenangaben sind als Richtwerte für die Kabellängen zu verstehen und sind sehr stark von der Trasseeführung abhängig. So kann es sehr wohl vorkommen, dass die Luftlinie zwischen zwei Standorten z.B. 60 km misst, die Kabellänge aber 90 km beträgt. Müssen die Standorte redundant verbunden werden – dies impliziert, dass die Kabel nicht in den gleichen Trassees geführt werden und sich die Trassees nirgends kreuzen – kann es vorkommen, dass der zweite Weg der doppelten Luftlinie entspricht. Die genauen Längenangaben sind in jedem Fall vor Ort mit dem Carrier zu klären. Ob eine Technologie über die Distanz noch funktioniert, hängt wesentlich von der Qualität des Kabels / Lichtwellenleiters und allfälliger dazwischenliegender Hubs ab. Mit einer direkten Glasfaser zwischen zwei Standorten kann eine grössere Distanz überwunden werden, als wenn die Glasfaser über mehrere Hubs geführt ist. Neben den technischen Aspekten, dürfen die finanziellen Aspekte nicht ausser Acht gelassen werden. In den meisten Fällen nimmt der Mietpreis mit der Länge der Leitung deutlich zu. Am Beispiel des e-shelter Rechenzentrums in Zürich (roter Stern) werden die möglichen Distanzen in der Landkarte aufgezeigt: Abbildung 1: Distanzen um e-shelter Rechenzentrum Zürich (Rümlang) [Kartenquelle: Google-maps] 1 70km können mit 1000Base-ZX GBICs überbrückt werden. 1000Base-ZX sind „Industrie-Standard“ und arbeiten mit 1550nm Wellenlänge. Einzelne Hersteller geben auch Distanzen bis 100km mit speziellen Kabeln an. Seite 5 von 12 Design, Konzept und Betrieb fortschrittlicher Rechenzentren Whitepaper 2.3 Synchrone / asynchrone Replikation Grundsätzlich kann bei der Betrachtung der Datenreplikation zwischen einer synchronen und asynchronen Replikation unterschieden werden. Bei der synchronen Datenübertragung wird z.B. dem Server das Schreiben der Daten erst dann signalisiert, wenn das lokale und das entfernte Storagesystem die Daten geschrieben haben. Damit wird ein Datenverlust vermieden. Eine synchrone Datenübertragung ist implementiert in den in Betriebssystemen integrierten Volume Manager den (proprietären) Storagesystemen Datenbanken wie Oracle und MS SQL-Server Basis IT Applikationen wie Exchange, DNS Bei der asynchronen Datenübertragung erhält der Server das OK, sobald das lokale Storagesystem die Daten geschrieben hat. Der Datentransport auf das entfernte Storagesystem erfolgt unabhängig von dieser Bestätigung. Dadurch ist ein minimaler Datenverlust möglich. Eine asynchrone Datenspiegelung ist in Zusatzprodukten zu Volume Managern Storagesystemen Datenbanken wie Oracle und MS SQL-Server und Applikationen wie Active Directory implementiert. In der folgenden Tabelle wird der Einfluss der Länge der Verbindung zwischen zwei Rechenzentren auf mögliche Technologien und Einsatzgebiete aufgezeigt. *) Beim Mainframe sind diese Distanzen nicht zu erreichen. Tabelle 1: Auswirkungen der RZ-Distanz auf mögliche Technologien Bei Distanzen kleiner als 10 Kilometer wird der Einsatz einer synchronen Datenspiegelung empfohlen. Die vorhandene Bandbreite auf der Glasfaserverbindung ist hoch, dementsprechend existieren geringe Latenzzeiten und eine sehr gute Performance. Die Kosten sind im Vergleich mit anderen Distanzen eher gering. Daher kann auf diesen Distanzen eine Hochverfügbarkeitslösung (High Availability; HA) implementiert werden. Dagegen empfehlen wir für Disaster Recovery Anforderungen aufgrund der räumlichen Enge grössere Distanzen. Der Bereich zwischen 10 und 70 Kilometern kann noch mit spezieller Hardware auf den beiden RZ-Seiten und einer Dark Fiber verbunden werden. Aufgrund der längeren Leitungslänge ist schon eine Einbusse im Performance- Seite 6 von 12 Design, Konzept und Betrieb fortschrittlicher Rechenzentren Whitepaper Bereich bemerkbar. Dieser Bereich ist auch für DR-Anforderungen geeignet, da beide Rechenzentren eine genügend grosse Distanz aufweisen. Aus technologischer Sicht am interessantesten ist der Bereich zwischen 70 und 120 Kilometern. Je nach Güte der Glasfaserverbindung, Anzahl der Hops und weiteren Aspekten kann über diese Distanz noch eine synchrone Datenspiegelung erstellt werden. Damit liesse sich eine Hochverfügbarkeitslösung implementieren. Wichtig ist, dass die Verbindung in einem Proof of Concept verifiziert und der Performance-Impact genau ausgemessen wird. Auf jeden Fall ist eine asynchrone Datenspiegelung möglich. Durch die Verwendung von CWDM und/oder DWDM steigen die Kosten für eine solche Verbindung. Bei Distanzen über 120 Kilometern wird nur noch der Einsatz der asynchronen Datenspiegelung empfohlen. Daher ist der Einfluss auf die (lokale) Performance gering. Dementsprechend empfiehlt sich diese Distanz für DRAnforderungen. Treffen Anforderungen für Hochverfügbarkeit und Disaster Recovery zusammen, so kann ein Modell mit drei Rechenzentren aufgebaut werden. Beispiel: RZ1 und RZ2 sind sehr nah zusammen (<10 Kilometer) und bieten die Möglichkeit zur synchronen Datenspiegelung. Das dritte RZ wird dagegen in einem Abstand von 120 Kilometern (oder mehr) realisiert wobei für den Datentransport eine asynchrone Datenreplikation eingesetzt würde. 3 Entwicklung der Rechenzentren 3.1 Aufbau / Design Die Zeit der grossen, monolithischen Rechenzentren mit einem einzigen, grossen Computerraum, ist vorbei. Heute und in Zukunft werden Rechenzentren modular aufgebaut. Dies beginnt mit dem Bau des Rechenzentrums, welches modular konzipiert und in Phasen erstellt wird. Eine flexible Unterteilung der zur Verfügung stehenden Grundfläche und der modulare Aufbau der RZ-Infrastruktur ermöglichen die Anpassung an die Bedürfnisse des Betreibers beziehungsweise dessen Kunden. Der Trend zeigt eindeutig eine Abkehr vom eigenen Rechenzentrum zu grossen Rechenzentren mit mehreren Nutzern und unterschiedlichen Bedürfnissen (economies of scale). 3.2 Verfügbarkeit Aufgrund der stetig steigenden Abhängigkeit auf sichere und verfügbare IT-Systeme wird die Anzahl der Rechenzentren mit hoher und höchster Verfügbarkeit weiter ansteigen. Ein Rechenzentrums-Zweitstandort wird für mittlere und grosse Unternehmen aus Gründen der Ausfallsicherheit zum Standard. Um höchste Anforderungen zu erfüllen wird ein sog. Dual Datacenter Design gewählt, wo beide Rechenzentren den gleichen Anforderungen genügen und für produktive Zwecke im Einsatz sind (aktiv – aktiv anstelle von aktiv – passiv). Heute erfüllen ca. 2/3 der Rechenzentrumsfläche die Tier III Anforderungen. Dies entspricht einer Verfügbarkeit von 99.982% (max. 1.6 h downtime pro Jahr). Unsere Beobachtungen in den letzten Jahren bestätigen, dass neue Rechenzentren grossmehrheitlich als Tier III (und besser) gebaut werden. Auf eine Zertifizierung wird oft verzichtet. 3.3 Leistungsdichte 2 Die Leistungsdichte ist die durchschnittliche Leistung, welche pro m Stellfläche vom Provider zur Verfügung gestellt bzw. von den IT-Systemen effektiv bezogen wird. Die vom Benutzer geforderte Leistungsdichte und die von seinen 2 IT-Systemen genutzte Leistungsdichte klaffen häufig weit auseinander. Im Jahre 2007 reichten 0.5 kW/m aus, um 2 den Verbrauch decken zu können. Heute werden 1.5kW/m und mehr gefordert, obwohl der durchschnittliche Kunde 2 erst zwischen 0.8 und 1.0 kW/m braucht. In Zukunft dürfte die benützte Leistungsdichte steigen, da die Racks besser gefüllt werden (gemäss Gartner sind heute die Racks nur zu 60% gefüllt) und vermehrt Powerracks mit bis zu 25 kW zum Einsatz kommen werden. Der Trend zu höherer Leistungsdichte wird aber kaum zum Sinken der Nachfrage Seite 7 von 12 Design, Konzept und Betrieb fortschrittlicher Rechenzentren Whitepaper nach RZ-Fläche führen. Laut einer Prognose des Marktforschers Broadgroup wird die Rechenzentrumsfläche von Drittanbietern in den nächsten Jahren durchschnittlich etwa 10 % pro Jahr weiter wachsen. Dies trotz aller Konsolidierungs- und Virtualisierungsmassnahmen. 3.4 Energieeffizienz Wie bereits erwähnt, wird die Energieeffizienz immer wichtiger. Weniger Stromverbrauch bedeutet tiefere Betriebs2 kosten. Mit dem PUE-Wert wird die Energieeffizienz eines RZs gemessen: PUE = Gesamter Energieverbrauch des Rechenzentrums dividiert durch den Energiebedarf der IT-Systeme. Heute liegt der Durchschnittswert noch über 2.0, wird aber unserer Meinung nach in fünf Jahren deutlich darunter liegen. Energieeffiziente Rechenzentren erreichen heute Werte von 1.5 und darunter. Um einen niedrigen PUE-Wert zu erreichen, werden verschiedene Optimierungen vorgenommen: 3 Wahl von Rechenzentrumstandorte mit tiefen Aussentemperaturen um möglichst viel Zeit mit free cooling, d.h. Kühlung des Wassers für den Kältekreislauf mit kalter Aussenluft, zu kühlen Einsatz von energieeffizienter Rechenzentrumsinfrastruktur Die Rackreihen werden so aufgestellt, dass sich Kalt- und Warmgänge bilden, welche zusätzlich eingehaust werden (sog. Kaltgang- oder Warmgangeinhausungen) Die Betriebstemperaturen werden erhöht. Die Einblastemperatur wird auf bis zu 26° C erhöht Betrieb der IT-Infrastruktur in einem Auslastungsbereich mit höchster Effizienz Einsatz von effizienten Netzteilen bei Servern Virtualisierung von mehreren kleinen physischen Servern auf einen grossen physischen Server 3.5 Kosten Die Betriebskosten eines Rechenzentrums sind von verschiedenen Faktoren abhängig: Standort des Rechenzentrums Grösse der Stellfläche Sicherheitsstandard Energieeffizienz (PUE) Leistungsdichte Strompreis Tier-Level 3.6 Zertifizierungsnormen Heute uns bekannte Zertifizierungsnormen im Themenkreis: ISO 27001:2005: Information Technology – Security techniques – Information Security Management systems – Requirements ISO 9001: Qualitätsmanagementsysteme – Anforderungen LEED (Leadership in Energy and Environmental Design) Uptime Institute Tier-Levels I - IV TÜVIT TSI (Trusted Site Infrastructure) Levels 1 - 4 2 PUE (Power Usage Effectiveness) 3 Wenn jedoch die Daten aus regulatorischen Gründen im eigenen Land bleiben müssen, kann der Standort nicht frei gewählt werden. Seite 8 von 12 Design, Konzept und Betrieb fortschrittlicher Rechenzentren Whitepaper Neben den Zertifizierungen, können auch Konformitätsprüfungen abgelegt werden: Basel II SAS 70 FINMA Rundschreiben 08/7 Die europäische Rechenzentrumsbranche hat sich organisiert. Im Jahr 2012 wurde die EUDCA (European Datacenter Association) gegründet. Eines der wichtigsten Ziele dieses Verbandes ist es, europäische Zertifizierungsnormen für Rechenzentren zu erarbeiten, welche die Tier-Levels des Uptime Institutes für Europa ablösen sollen. 4 e-shelter Zur Unterstützung für die Erstellung des vorliegenden Whitepapers hat die In&Out AG einen grossen und erfahrenen Anbieter von RZ-Fläche gesucht, welcher sowohl auf dem Schweizermarkt als auch international tätig ist. Die Wahl ist auf e-shelter gefallen, weil e-shelter ein europäisches, international ausgerichtetes Unternehmen ist e-shelter einer der grössten Anbieter von RZ-Fläche in Europa ist e-shelter über 12 Jahre Erfahrung in RZ-Planung, Bau und Betrieb verfügt der Standort Rümlang gut gewählt wurde der Sicherheit viel Aufmerksamkeit geschenkt wurde die Lösungen bei e-shelter skalieren und genügend Kapazität vorhanden ist Abbildung 2: RZ Zürich 1 in Rümlang (Bild: e-shelter) 2 e-shelter wurde im Jahr 2000 gegründet und betreibt seither an fünf Standorten in Europa über 85‘000 m RZ-Fläche. Seit Juni 2011 bietet e-shelter auch in der Schweiz RZ-Fläche an. Im neu erstellten Rechenzentrum Zürich 1 steht 2 2 das erste Modul mit 7‘000 m hochverfügbarer RZ-Fläche und 1‘000 m Bürofläche zur Verfügung. Beim RZ Zürich 1 zeigt sich, dass e-shelter jahrelange Erfahrung im RZ-Bau hat und diese eingeflossen ist. So konnten verschiedene Komponenten der Infrastruktur optimiert werden. Bei Bedarf kann ein zweites, unabhängiges Modul in der gleichen Grössenordnung angebaut werden. Seite 9 von 12 Design, Konzept und Betrieb fortschrittlicher Rechenzentren Whitepaper 5 Vorgehen Die In&Out AG unterstützt den Kunden bei den oben beschriebenen Herausforderungen und weiteren Aufgaben im Rechenzentrumsumfeld. Die grosse Erfahrung der In&Out AG bei der Suche und Evaluation von neuen Rechenzentren, Umzugsplanung und Erstellung von RZ-Betriebskonzepten bringt dem Kunden einen echten Mehrwert. Abbildung 3: Von der Ausschreibung zum Betrieb 5.1 Ausschreibung / Konzept Das RZ-Konzept dient als Grundlage für die Erarbeitung der Anforderungen an den Standort und das Rechenzentrum. Die Anforderungen werden als K.O.-, muss- oder Wunschanforderungen klassiert und sind Teil der Ausschreibung. Nebst den Anforderungen werden die Rahmenbedingungen festgehalten. Auf Wunsch wird zuerst eine grobe Abklärung über mögliche Anbieter mittels RfI (Request for Information) durchgeführt. Anbieter, welche den RfI vielversprechend beantworten, erhalten einen RfP (Request for Proposal), um eine detaillierte Offerte einreichen zu können. Die eintreffenden Angebote werden zusammengetragen und für die Auswertung vorbereitet. 5.2 Evaluation Je nach Anzahl der Angebote wird eine Shortlist mit den besten Angeboten erstellt. Die Anbieter erhalten die Gelegenheit, ihre Offerte und ihr Rechenzentrum vorzustellen. Dieses Vorgehen hat sich in der Vergangenheit sehr bewährt, weil dadurch ein umfassendes Bild des Anbieters zu Stande kommt. Anschliessend wird für jeden Standort, jedes Rechenzentrum eine Risikoanalyse durchgeführt und der Business Case gerechnet. In den Kostenbetrachtungen ist eine erste Grobkostenübersicht des Umzugs enthalten. Alle diese Erkenntnisse fliessen in die Bewertung der Angebote ein und führen letztlich zum Entscheid. Jetzt beginnen die Vertragsverhandlungen, welche sich über mehrere Wochen hinziehen können. In der Zwischenzeit kann mit der Umzugsplanung begonnen werden. 5.3 Umzug Für den Umzug ist eine genaue Planung nötig, um alle damit verbundenen Risiken und Unterbrüche zu minimieren. Als erstes muss definiert werden, wie der Umzug konzeptionell vollzogen werden kann. Je nach Rahmenbedingungen kommen mehrere Varianten des Umzugs in Frage. Unter Berücksichtigung des Life Cycle Managements, von internen Abhängigkeiten, Kundenwünschen und Risiken wird die Grobplanung, welche auch die Vorbereitungsarbeiten und Fallbackszenarien enthalten muss, erstellt. Diese wird im Laufe der Zeit immer detaillierter und endet mit dem Erstellen der technischen Konzepte, der Drehbücher für den Umzug und der detaillierten Kostenrechnung. Der Umzug selbst kann, je nach Situation, auf einmal oder in mehreren Wellen erfolgen. Nach dem Umzug an den neuen Standort kann das alte Rechenzentrum am alten Standort zurückgebaut bzw. für andere Zwecke eingesetzt werden. 5.4 Betrieb Der Betrieb im neuen RZ am neuen Standort kann nach Tests und der Freigabe durch den Kunden aufgenommen werden. Dokumentationen wie Betriebskonzepte, Prozessbeschreibungen etc. müssen erstellt bzw. entsprechend angepasst werden. Die in den SLA definierten Werte und Key Performance Indicatores (KPI) müssen laufend überwacht und bei Bedarf verfeinert werden. Seite 10 von 12 Design, Konzept und Betrieb fortschrittlicher Rechenzentren Whitepaper In&Out AG Die 1993 gegründete In&Out AG mit Sitz in Zürich erbringt IT-Beratungs- und Engineering Dienstleistungen in folgenden Fachbereichen: Abbildung 4: Geschäftsbereiche der In&Out AG In&Out beschäftigt über 30 hochqualifizierte Mitarbeiter in den Geschäftsbereichen IT-Efficiency und IT-Security. Unser Angebot umfasst die Entwicklung von Strategien sowie die Evaluation und Konzeption von IT Lösungen. Zusätzlich unterstützen wir unsere Kunden bei der Implementierung, dem Test und Betrieb von leistungsfähigen und sicheren IT Lösungen. Die In&Out übernimmt die Projektleitung, unterstützt in einzelnen Projektphasen und tritt auf Wunsch auch als Generalunternehmer auf. In&Out ist wirtschaftlich unabhängig von Produkte- und Lösungsanbietern und orientiert sich an aktuellen Standards und Best Practice Technologien. Diese strategische Ausrichtung ermöglicht es unseren Beratern neutral, lösungsorientiert und auf Kundenbedürfnisse fokussiert, vorzugehen. Unsere Kunden sind Unternehmungen, Konzerne und Verwaltungen aus allen Industrie- und Dienstleistungsbereichen. Weitere Informationen über unsere Firma, Dienstleistungen, Kunden und Mitarbeiter finden Sie auf unserer Website: http://www.inout.ch. Die Autoren Martin Zwyssig CEO [email protected] Roy Leemann Senior Technical Consultant [email protected] Seite 11 von 12 Design, Konzept und Betrieb fortschrittlicher Rechenzentren Whitepaper Danksagung Wir danken der Firma e-shelter für die freundliche Unterstützung bei der Erstellung dieses Whitepapers. Weiterführende Links und Dokumente Green Grid: http://www.thegreengrid.org/ Uptime Institute: http://uptimeinstitute.com/ Outsourcing von RZ-Infrastrukturen: https://www.e-shelter.de/var/files/studien_etc/eshelter_whitepaper_outsourcing_1001.pdf e-shelter: https://www.e-shelter.de/ Glossar Abkürzung / Begriff Erklärung Buy Mieten von RZ-Fläche bei einem professionellen Provider, welcher auch die RZInfrastruktur betreibt cage Mit Stahlgitter abgetrennter Bereich eines Rechenzentrums, typischerweise für einen Kunden CWDM Coarse Wavelength Division Multiplex DWDM Dense Wavelength Division Multiplex GBIC Gigabit Interface Converter Leistungsdichte Die Leistungsdichte ist die durchschnittliche Leistung, welche pro m Stellfläche vom Provider zur Verfügung gestellt bzw. von den IT-Systemen effektiv bezogen wird. Sie 2 2 wird in W/m bzw. kW/m gemessen Make Selbstbau eines eigenen RZs und Eigenbetrieb der RZ-Infrastruktur private room Mit einer Brandschutzmauer abgetrennter Raum eines Rechenzentrums mit eigenem Brandabschnitt PUE (Power Usage Effectiveness) Mit dem PUE-Wert wird die Energieeffizienz eines RZs gemessen: PUE = Gesamter Energieverbrauch des Rechenzentrums dividiert durch den Energiebedarf der ITSysteme. RfI Request for Information: Abklärung, ob das Interesse für eine Offertstellung vorhanden ist und die geforderte Fläche auch verfügbar ist. RfP Request for Proposal: Offertanfrage RZ-Fläche Stellfläche in einem Rechenzentrum, welche ein Kunde für seine IT-Systeme mieten kann. Tier-Level Das Uptime Institute hat in Amerika für die Klassifizierung von Rechenzentren vier TierLevels definiert. Kurze Übersicht: 2 Tier I - Basic: 99.671% (max. Downtime 28.8 h / Jahr) Tier II - Redundant Component: 99.741%: (max. Downtime 22 h / Jahr) Tier III - Concurrently Maintainable: 99.982% (max. Downtime 1.6 h / Jahr) Tier IV - Fault Tolerant: 99.995% (max. Downtime 0.4 h / Jahr) Seite 12 von 12