Paper - Institut für Informatik - Hu
Transcription
Paper - Institut für Informatik - Hu
TAMBIS Das TAMBIS – Projekt Markus Schulz* Institut für Informatik – Humboldt Universität zu Berlin Resumé In der heutigen Zeit produzieren biologische Experimente riesige Datenmengen, die maschinell gespeichert und verarbeitet werden müssen, um sie der Forschungsgemeinschaft zugänglich zu machen. Unterschiedliche Sichten auf bestimmte biologische Sachverhalte (semantische Heterogenität) sowie verschiedenste Plattformen und Datenbankimplementationen fordern einen nicht unerheblichen Arbeitsaufwand bei der Informationssuche bzw. Informationsverarbeitung. Das in diesem Paper vorgestellte TAMBIS-System ist ein möglicher Ansatz, den Arbeitsaufwand zu verringern, indem es über mehreren molekularbiologische Datenbanken operiert, dem Benutzer jedoch eine einheitliche Arbeitsoberfläche bietet und quellenunabhängige Anfragen erlaubt. Aufgrund der TaO, einer Ontologie, die speziell für TAMBIS entwickelt wurde, ist dem Benutzer sowohl die molekularbiologische Terminologie als auch die semantische Bedeutung derer Elemente vorgegeben. Der Benutzer verlinkt die in der Ontologie gespeicherten molekularbiolgischen Konzepte zu einer komplexen Anfrage, die dann intern weiterverarbeitet wird. Die Komponenten dieser noch quellenunabhängigen Anfrage werden bewertet, optimiert und ein Abarbeitungsplan erstellt, der kosteneffizient ist und quellenspezifische Funktionsaufrufe enthält, um letztlich die gewünschten Informationen aus den verschiedenen Datenbanken zu erhalten. Aus diesem Grund vermeidet TAMBIS nicht nur etwaige Fehler, sondern bietet auch ein hohes Maß an Transparenz der darunterliegenden Datenquellen. Trotz dieses innovativen Ansatzes gibt es noch viele ungeklärte Fragen und Probleme, die der Verbreitung und erfolgreichen Kommerzialisierung des Projektes im Weg stehen. Mengen an Informationen produziert, die dann in verschiedenen Datenbanken gespeichert werden. Das WorldWideWeb bietet eine offene Plattform, um auf diese molekularbiologischen Daten zuzugreifen. Bei der Suche nach Informationen jedoch gibt es viele Hürden zu meistern, die sich zum Einen mit gravierenden Unterschieden in der Aktualität und der thematischen Spezialisierung der verschiedenen Datenquellen, zum Anderen mit den unterschiedlichen Datenbanksystemen und Interfaces begründen lassen. So reicht es oftmals nicht aus, Anfragen an nur eine Datenquelle zu stellen, um umfassend informiert zu werden. Anschließend müssen große Datenmengen oft durchgearbeitet und die wirklich relevanten Informationen extrahiert werden, um diese später effizient weiterverarbeiten zu können. Äußerst wichtig ist der Fakt, dass es verschiedene subjektive Sichten auf einen bestimmten 1. Einleitung und Motivation Die Biologie ist seit je her eine stark wissensbasierte Disziplin. Das heißt, dass bereits bestehendes Wissen als Grundlage dient, um neue Erkenntnisse zu interpretieren bzw. den möglichen Nutzen biologischer Experimente vorherzusagen. Aufgrund der Komplexität und Spezifität von Domänenwissen innerhalb der Biologie gab es bis vor einigen Jahren nur wenige Spezialisten, denen aktuelle Erkenntnisse ihrer Fachdisziplin bekannt waren. Auch waren die gewonnenen Erfahrungen vieler Experimente im Wesentlichen überschaubar. Heutzutage bietet sich jedoch ein ganz anderes Bild. Durch Experimente wie z.B. das „Human-Genom-Projekt“ werden vor allem in der Molekularbiologie riesige * [email protected] 1 dafür vorgesehenen Quellen geschickt. So bleiben während des gesamten Prozesses die Datenquellen für den Benutzer transparent. Momentan sind zwei Versionen des Systems auf der Projektseite [8] verfügbar. Die „Browse-only“ Version erlaubt den vollständigen Zugriff auf die TAMBISOntologie. Es ist möglich, komplexe Anfragen zu formulieren, jedoch nicht sie abzuschicken. Das „Functional-System“ bietet Zugriff auf einen Teil der TaO und hier können die Anfragen auch bearbeitet werden. Diese Version greift auf die Datenbanken „SwissProt“, „Enzyme“, „Cath“, „Prosite“ und „Blast“ zurück. biologischen Sachverhalt geben kann, d.h. die Semantik vieler Begriffe ist nicht eindeutig. Solche semantischen Heterogenitäten können leicht zu Fehlern und Misserfolgen bei Suche und Interpretation molekularbiologischer Daten führen. Ein großes Maß an Handarbeit bleibt also bestehen. Das TAMBIS-System [1] [8] wurde entwickelt, um die Suche nach Daten zu erleichtern und viele der obengenannten Prozesse zu automatisieren und zu simplifizieren. TAMBIS heißt Transparent Access to Multiple Biological Information Sources und ist ein Gemeinschaftsprojekt der School of Biological Sciences und der Information Mangement Group an der University of Manchester, UK. Der Pharmakonzern Zeneca Pharmaceuticals stellte neben den öffentlichen Geldern einen großen Anteil an Förderungsmitteln zur Verfügung. Der Beginn des Projekts war 1999, eine Hauptkomponente des Systems, die TAMBIS Ontologie (TaO), wurde jedoch bereits früher entwickelt und dann in das System integriert. Bis zum heutigen Tag dient das TAMBIS-Projekt als Forschungsgegenstand und wird von der Forschungsgemeinschaft als das Paradebeispiel für den sinnvollen Einsatz von Ontologien angesehen. 3. Das graphische Benutzerinterface Durch das graphische Benutzerinterface ist der User in der Lage, komplexe Anfragen zu stellen. Er beginnt mit einem Basiskonzept und spezifiziert es nach Wunsch, indem er es mit anderen Konzepten verbindet. Das GUI stellt eigentlich nur ein Interface zwischen Benutzer und Ontologie dar. Neben dem „Query-Builder“, der das Hauptwerkzeug bei der Formulierung von Anfragen ist, besteht auch die Möglichkeit, über einen „Explorer“ durch die Konzepte der Ontologie zu browsen. In Abbildung 1 ist exemplarisch eine mögliche Anfrage dargestellt. Die Konzepte Motif und Protein werden hier mit der Relation isComponentOf verknüpft. Protein wiederum wird mit Species durch die Relation hasOrganismClassification verbunden und Species wird durch das Attribut „guppy“ spezifiziert. Demnach sucht man hier ein Proteinmotiv, welches eine Komponente eines Proteins darstellt, was wiederum der Spezies Guppy zuzuordnen ist. Abb.: 1 2. Features des TAMBIS-Systems Der Hauptgedanke bei der Entwicklung des TAMBIS-Systems war die Erleichterung der Informationssuche und –verarbeitung über molekularbiologischen Datenbanken. Dem Benutzer stellt TAMBIS ein einziges, quellenunabhängiges, graphisches Benutzerinterface (GUI) zur Verfügung, mit dem er vorgegebene, in der TAMBIS Ontologie (TaO) [1] gespeicherte Konzepte zu komplexen Anfragen kombiniert. Dabei geht er von einem wählbaren Grundkonzept aus. Die TaO enthält cirka 1800 Konzepte und Relationen, die dem Benutzer nicht nur eine einheitliche Fachterminologie vorgeben, sondern auch gleichzeitig die Semantik der einzelnen molekularbiologischen Begriffe festlegen. So sollen zum Einen mögliche semantische Uneinigkeiten minimiert werden, zum Anderen können keine „Nonsense“-Anfragen gestellt werden, da die Konzepte und deren mögliche Relationen zu anderen Konzepten vorgeschrieben sind. Eine mögliche Anfrage wird von TAMBIS automatisch in Subqueries unterteilt und dann spezifisch an die 2 4. Die TAMBIS Ontologie (TaO) werden. In TAMBIS stellt ein zusammengesetztes Konzept genau die Anfrage dar, die dann vom System weiterverarbeitet wird. Ein typisches GRAIL Modell [2] besteht im Wesentlichen aus 3 Teilen: Die TAMBIS-Ontologie TaO ist eine der wichtigsten Systemkomponenten. Sie ist eine Nachschlagewerk molekuarbiologischer Konzepte und Relationen und enthält elementare, molekularbiologische Ausdrücke, Strukturen, Substrukturen, Funktionen und Relationen. Damit schafft sie Rahmenbedingungen für eine einheitliche Semantik und Terminologie ihrer Domäne. Die TAMBIS-Ontologie wurde in GRAIL [2] geschrieben, einer Sprache, die zur Familie der Description Logic’s (DL) gehört. DL’s sind speziell dazu designed, Wissen systematisch darzustellen, indem bestimmte Konzepte und binäre Relationen (oder auch Rollen genannt) definiert und dann in einer Hierarchie eingeordnet werden. Aus den Basiskonzepten lassen sich aufgrund ihrer hierarchischen Einordung rekursiv komplexe Konzepte aufbauen („kind-of“-Beziehung). Auch können sie durch bestimmte Relationen mit anderen Konzepten verknüpft und das zusammengesetzte Konzept dann durch einen „Reasoning-Service“ [2] automatisch in die Hierarchie eingeordnet a) Festlegungen: Die Basiskonzepte werden per Hand in die Hierarchie der Ontologie einfügt. Dies bedeutet nicht nur einen gewissen Aufwand für den Programmierer, zudem können durch falsche Klassifizierung oder ungenaue Definition der Basiskonzepte Fehler entstehen, die später mühselig gesucht und behoben werden müssen. In Abbildung 2, der schematischen Darstellung eines Teils der TaO, sind die Konzepte Organism, Hydrolase, Protein, Function, Poecilia reticulata, Motif und SequenceComponent per Hand definiert worden. Des Weiteren stehen sie in Teilmengenbeziehungen zueinander, d.h. Poecilia reticulata is a kind of Organism wird durch den durchgezogenen Pfeil repräsentiert und bedeutet formal „Organism ⊇ Poecilia reticulata“. Abb.: 2 3 c) Sanktionen: Sanktionen beschränken die Konstruktion komplexer Konzepte. So ist es zum Beispiel nicht möglich, zwei zufällig gewählte Basiskonzepte mit einer beliebigen Relation zu verknüpfen. In GRAIL müssen Verknüpfungen zwischen Konzepten explizit und per Hand vom Programmierer sanktioniert werden. Dabei unterscheidet man grammatikalische und konkrete (eng.: sensible) Sanktionen. Abbildung 3 zeigt diese beiden Arten von Sanktionen in Bezug auf die Relation hasComponent (gestrichelter Pfeil). Die durchgezogenen Pfeile stellen „kind-of“ Beziehungen dar. Bei den in diesem Beispiel aufgeführten Konzepten handelt es sich ausnahmslos um Basiskonzepte. Grammatikalisch werden nur Beziehungen zwischen zwei abstrakten und generellen Konzepten sanktioniert. Dies bedeutet, dass unbestimmt viele, aber nicht alle Biomoleküle strukturelle Komponenten haben können. Eine grammatikalische Sanktion wird an alle Kinder des Basiskonzepts, z.B. Biomolecule weitervererbt und bildet die Voraussetzung, dass eine Relation konkret sanktioniert werden kann. In Abbildung 3 wird die Relation hasComponent zwischen den Konzepten AlphaHelix und Protein konkret sanktioniert. Das heißt, das alle Proteine eine Komponente AlphaHelix haben können, es aber nicht müssen. Es bedarf einiges an Sorgfalt, um Sanktionen zu setzen, da sie zu weit oben in der Hierarchie zu Fehlpaarungen zweier Konzepte und damit zu semantischen Fehlern führen können. Solche Fehler treten meist erst im laufenden Betrieb der Ontologie auf und müssen nachträglich behoben werden. b) Operationen und Reasoning Services: Neben den bereits bekannten „kind-of“Beziehungen können Relationen/Rollen dazu verwendet werden, um komplexe Konzepte zu bilden. Dabei wird zum besseren Verständnis der Relation und wie schon in Abbildung 1 gesehen das Wort „which“ hinter das Basiskonzept eingefügt. Die in Abbildung 2 gezeigten Konzepte Sequence Component und Protein stehen demnach wie folgt in Beziehung: SequenceComponent (which) isComponentOf Protein Diese Konstruktion ist ein komplexes Konzept der Ontologie und wird automatisch klassifiziert und in die Hierarchie eingebettet. Dabei wird „isComponentOf Protein“ auch als Kriterium oder Attribut für SequenceComponent bezeichnet. Protein spielt in diesem komplexen Konzept den Rollenfüller. Die in Abbildung 2 als gestrichelte Pfeile dargestellten Beziehungen lassen sich aus den gegebenen Basiskonzepten und den gegebenen Relationen ableiten. Man sieht also, dass sich eine große Anzahl an zusammengesetzten Konzepten aus relativ wenigen Basiskonzepten und deren sanktionierten Relationen ableiten lassen. Diese Vorgehensweise ist überschaubar, effizient und fehlerunanfälliger, als wenn man beispielsweise alle möglichen Konzepte per Hand einfügen und klassifizieren müsste. Des Weiteren zeigt der „Reasoning-Service“ Konzepte an, die aufgrund ihrer durch den Programmierer definierten Attribute nicht mehr erreichbar sind. Dadurch wird das Auftreten von Inkonsistenzen weiter gesenkt. Abb.: 3 4 Abb.: 4 5. Die TaO Infrastruktur Geht man von der Struktur [2] der TaO aus, läßt diese sich in zwei große Abschnitte gliedern: TopThing bildet die Wurzel der TaO und ist das allgemeinste Konzept überhaupt. DomainCategory und DomainAttribute sind dessen Kinder und haben nicht minder große Bedeutung, da sie im zweiten Teil der Ontologie, der Low-Level-Division, mit biologischen Konzepten und Relationen korrespondieren. In Abbildung 5 wird exemplarisch die weitere Gliederung des Konzepts GeneralisedStructure dargestellt. Offenbar wird es in PhysicalStructure und AbstractStructure unterteilt, wobei ersteres diskrete, physikalische Phänome repräsentiert und das zweite weitere Konzepte enthält, die Möglichkeiten der abstrakten Klassifikation solcher Phänomene darstellen. a) High-Level-Division: Die High-Level-Division definiert grundlegende und allgemeine Basiskonzepte und bildet somit das Grundgerüst der Ontologie. Sie wurde zum großen Teil von der im „Galen-Project“ benutzten Ontologie übernommen. Dieses Projekt hatte vor allem das Ziel, eine universell einsetzbare Ontologie für den Fachbereich der Medizin zu schaffen, die später wie das TAMBISSystem funktionell einsetzbar sein sollte. In Abbildung 4 wird ein Teil der High-LevelDivision schematisch dargestellt. Abb.: 5 5 b) Low-Level-Division: Die Low-Level-Division [2] enthält Konzepte und Relationen, die die molekularbiologische Domäne der TaO wiederspiegeln. Im Gegensatz zur HighLevel-Division ist sie sehr spezifisch, molekularbiologische Begriffe und Prozesse sind explizit genannt. Zudem finden sich hier fast alle Sanktionen des GRAILModells wieder. 6. TAMBIS-Anfragebearbeitung Dieses Kapitel geht nur kurz auf die in Abbildung 6 schematisch dargestellten Verfahrensweisen bei der Anfragebearbeitung ein. Tiefergehende Recherchen lassen sich am besten mit den in der Referenz erwähnten Paper [5] durchführen. Als Ausgangspunkt für die weitere Anfragebearbeitung dient eine vom Benutzer gestellte Anfrage in GRAIL, die bis zu diesem Zeitpunkt quellenunabhängig ist. Da GRAIL-Anfragen verschachtelte Strukturen sind und sich deshalb nicht ohne Probleme weiterverarbeiten lassen, werden sie zunächst in eine unverschachtelte, interne Form (QIF) umgewandelt. Eine Anfrage wird dazu in ihre Komponenten zerlegt und vom System jeweils mit den folgenden fünf Attributen belegt: Abb.: 6 Language), die später zu den entsprechenden Quellen geschickt werden. Es enthält weiterhin die Beschreibungen von drei grundlegenden Informationskategorien: -Iteratoren: ähnlich Pointern, erhalten Instanzen molekularbiologischer Konzepte -Relationsbewerter: erhalten oder berechnen Werte für bestimmte Relationen -Filter: entfernen Instanzen, die nicht anfragerelevant sind. -Konzept: Basiskonzept, auf das sich die entsprechende Komponente bezieht -Kriterien: Kriterien des QIF Konzepts -Variable: die an die Instanzen des Basiskonzepts gebunden wird -Technik: CPL-Funktionsaufruf, um die Instanzen zu erhalten -Auswahlkriterium: das Kriterium, welches benutzt wird, um Instanzen aufgrund der angewandten Technik zu erhalten. Weiterhin enthält das SSM Informationen über unterschiedliche Mappings (Abbildungen) bestimmter ontologischer Konzepte sowie spezielle CPL-Funktionen, die verschiedene Repräsentationen möglicher Instanzen eines Konzepts zusammenfassen können. Zusätzlich ist jeder CPL-Funktion ein Wert „Kosten“ zugeordnet, der sich vor allem aus der Latenz zwischen Anfrage und Ergebnisrückgabe errechnet. Eine Anfrage von TAMBIS (Manchester, UK) an die Protein Datenbank SwissProt (Schweiz) kann beispielsweise bis zu 25 Sekunden dauern. Die Werte für Auswahlkriterium und Technik werden zunächst mit „null“ belegt und erst im nächsten Schritt gefüllt. Die QIF-Transformierung erfolgt „straightforward“ und in einem einzigen Durchlauf. Die beiden folgenden Komponenten sind maßgeblich an der weiteren Anfragebearbeitung beteiligt: b) Query Planner und Wrapper: Der Query Planner bedient sich eines speziell für TAMBIS entwickelten Suchalgorithmus, um unter Zuhilfenahme der im SSM gespeicherten Daten einen effizienten Anfrageplan zu erstellen. Der Algorithmus bewertet die einzelnen Komponenten der Anfrage und sucht deren kostengünstigstes Glied. Wurde es gefunden, a) SSM: Das SSM (Sources and Services Model) speichert die Beziehungen zwischen Konzepten und Relationen der Ontologie sowie die damit korrespondierenden CPLFunktionen (Collection Programming 6 sind ebenfalls möglich. Eine Reihe weiterer Features wie zum Beispiel die Einbindung externer Reasoner (standardmäßig FaCT) machen SHIQ und im Endeffekt auch OIL sehr ausdrucksstark und flexibel. dient es als Ausgangspunkt für die Bewertung der anderen Komponenten. Der Query Planner führt solange seine Arbeit aus, bis die komplette Anfrage verarbeitet wurde und nun im optimierten QIF vorliegt. Dabei werden die bislang fehlenden Attribute Technik und Auswahlkriterium für jede Anfragekomponente mit Werten belegt. Schließlich wird der CPL-Code generiert und spezifisch an die jeweiligen Quellen verschickt. Die Sprache CPL stellt eine umfangreiche Funktionenbibliothek zur Verfügung, um den Zugang zu verschiedenen Bioinformatik-Quellen zu erleichtern. TAMBIS benutzt cirka 300 der CPL-Funktionen, von denen einige exklusiv für das Projekt entwickelt wurden. c) OIL orientiert sich stark an bereits bekannten Web-Sprachen wie XML (XMLDTD und XML Schema Definition) oder RDFS (RDFSchema Definition). Deshalb kann eine OIL Ontologie beispielsweise auch von RDFS kompatibler Software verwendet werden. d) Die Sprache OIL besitzt eine schichtweise Architektur. Damit wird verhindert, dass die Kernsprache überladen und somit Features vermischt werden, die beim Reasoning zu Fehlern führen können. Durch die verschiedenen Schichten sind die Grenzen der Sprache klar und übersichtlich. 7. TAMBIS in OIL Die Sprache OIL (Ontology Inference Layer) gilt heutzutage als Standard für die Entwicklung von Ontologien [3]. Deswegen haben die Entwickler von TAMBIS auch beschlossen, die TaO in OIL zu konvertieren. Zum Einen soll dadurch die Weiterenwicklung der Ontologie vereinfacht werden. Zum Anderen war ein Schwerpunkt die Steigerung der Portabilität, so dass die TaO vielleicht auch in anderen Systemen zum Einsatz kommen könnte. Im wesentlichen zeichnet sich die Sprache OIL durch folgende vier Haupcharakteristika aus: 8. Ontology Engineering Die Modellierung einer Ontologie, die so komplex ist wie die TaO, erfordert einiges an Fachwissen und Vorüberlegung, damit sich nicht schon im Ansatz der Entwicklung Fehler einschleichen. Ein solcher Prozeß in OIL [4] kann in drei grundlegende Schritte eingeteilt werden: a) Zunächst müssen wesentliche Basiskonzepte sehr gründlich und ausführlich definiert werden. a) OIL läßt sich intuitiv erlernen und bedienen, d.h. „learning by doing“ ist möglich. So ist der Einsteiger schon nach kurzer Einarbeitungsphase in der Lage, Ontologien zu modellieren und während dieses Prozesses immer tiefer in die Feinheiten der Sprache einzutauchen. Zudem sind momentan bereits mehrere Tools (OilEd, OntoEdit, usw.) erhältlich, die den Programmierer bei der Entwicklung einer Ontologie unterstützen. b) Anschließend werden diese Konzepte durch erste „kind-of“-Beziehungen verknüpft und somit eine Art Grundgerüst der Ontologie erstellt. Abbildung 7 zeigt ein mögliches Modell, welches sich in diesem frühen Stadium befindet. Es ist sehr breit und flach, da bestimmte Superkonzepte definiert wurden, die eine große Anzahl an Kindern (orange) haben können. Die Tiefe des dargestellten Graphen ist nicht sehr groß, d.h. um Fehler zu vermeiden, wurde es relativ einfach gehalten. b) Der Sprache OIL liegt die ausdrucksstarke Description Logic SHIQ zugrunde, die neben der syntaktischen Korrektheit der Ontologie auch eine wohldefinierte Semantik der Konzepte und Relationen erlaubt. Weiterhin bietet sie eine unbegrenzte Verschachtelung von Konzepten, die Möglichkeit, Konzepte durch boolesche Operatoren zu verknüpfen, und das Festlegen genereller Axiome durch den Programmierer an. Inverse (hasComponent invers zu partOf) oder transitive Relationen c) Schließlich werden die Konzepte durch den eingebundenen Reasoning-Service automatisch klassifiziert. Abbildung 8 zeigt das Beispielmodell nach diesem Schritt. Man erkennt, dass der Status der Superkonzepte aufgehoben wurde, also die Konzepte wesentlich gleichmäßiger verteilt sind. Zudem ist der Graph schmaler und tiefer als am Anfang. 7 Abb.: 7 Abb.: 8 „atomic-number“ eine große Rolle, da es ausreicht, um alle Atome klar zu unterscheiden. Im Periodensystem der Elemente wird jedem Atom eine eindeutige Ordnungszahl zugewiesen. Genau diese repräsentiert „atomic-number“. Kohlenstoff hat zum Beispiel die Ordnungszahl 6 und das entsprechende ontologische Konzept den Wert 6 bei „atomic-number“. Nach dem letzten Schritt kann man wieder bei b) beginnen und das nun vorhandene Modell sowohl „Bottom-up“ als auch „Topdown“ zu verfeinern. Es können neue Konzepte und Relationen hinzugefügt und entfernt sowie Fehler beseitigt werden. Das „Ontology-Engineering“ ist also ein zyklischer Prozess, bei dem die Ontologie sukzessive aufgebaut wird. Dabei hängt die Effizienz des „Reasoners“ vor allem von der exakten und ausführlichen Beschreibung der einzelnen Konzepte ab. Beispiel 1 gibt einen kurzen Einblick, dass dies nicht unbedingt auch umständlich ist. 9. Die Grenzen des TAMBIS-Systems TAMBIS bietet einen guten und innovativen Ansatz, die heutigen Probleme bei der Informationssuche über bioinformatische Datenquellen zu lösen. Das Projekt wird von den Entwicklern als erfolgreich angesehen und gilt in vielen Veröffentlichungen als ein Paradebeispiel für die Einbettung einer Ontologie in ein funktionierendes System. Trotzdem ist TAMBIS bis heute noch nicht über den Projektstatus hinausgekommen, da es einige Mankos aufweist, deren Lösung Ziel weiterer Studien sein wird. Vor allem die Geschwindigkeit bei der Kommunikation mit den einzelnen Datenquellen gilt es zu erhöhen. So sorgen nicht nur die großen Entfernungen und die jeweiligen technischen Gegebenheiten der durchquerten Netze, sondern auch das hohe Datenaufkommen bei Beispiel 1 – „ATOM“ class-def defined atom subclass-of chemical slot-constraint atomic-number cardinality 1 value-type integer has-value (min 1) Dieses Beispiel stammt offensichtlich aus der molekularbiologischen Domäne und stellt das Basiskonzept „Atom“ dar. Neben der Definition des Namens und der Angabe des parentalen Konzeptes, spielt das Attribut 8 sehr allgemeinen Anfragen für hohe zeitliche Latenz. Außerdem planen die Entwickler den Anschluss an bis zu 15 verschiedene Datenquellen, was das Transfervolumen nochmals erhöht. Es existiert zwar der Vorschlag, einige stark frequentierte Quellen (z.B.: SwissProt) lokal zu speichern, jedoch ist dies wiederum mit hohen Kosten (Serverfarm, Lizenzen) verbunden. Zudem bleibt offen, wie TAMBIS selbst auf starke Frequentierung reagiert, also wie das System mit mehreren tausend Zugriffen pro Tag zurechtkommt. Die ständig neuen, wissenschaftlichen Erkenntnisse im Bereich der Molekularbiologie erfordern eine fortwährende Wartung und Aktualisierung des Systems. Schließlich bleibt immer noch offen, wie gut TAMBIS von der biologischen Forschungsgemeinschaft angenommen wird, da die Arbeit mit den bereits etablierten Systemen zur Gewohnheit geworden ist und TAMBIS einen nicht unerheblichen Einarbeitungsaufwand erfordert. Dies gilt vor allem mit der in der TaO festgelegten Semantik vieler molekularbiologischer Begriffe, die sich stark von den Vorstellungen der Benutzer unterscheiden kann. Abschließend bleibt es also offen, inwieweit sich TAMBIS in der Zukunft durchsetzen kann. [3] Building a Bioinformatics Ontology Using OIL Robert Stevens, Carole Goble, Ian Horrocks and Sean Bechhofer [4] Building a Reason-able Bioinformatics Ontology Using OIL Robert Stevens, Ian Horrocks, Carole Goble and Sean Bechhofer [5] Query Processing in the TAMBIS Bioinformatics Source Integration System Norman W. Paton, Robert Stevens, Pat Baker, Carole A. Goble, Sean Bechhofer, Andy Brass [6] TAMBIS: Transparent Access to Bioinformatics Information Sources Final Report: BIF/05344 Andy Brass, Carole Goble and Norman Paton [7] Anfragebearbeitung unter Verwendung von Ontologien J. Forberg http://www.dbis.informatik.huberlin.de/lehre/SS02/SemGen/Buch/kapitel9 [8] TAMBIS - Projektseite http://imgproj.cs.man.ac.uk/tambis/ Referenzen [1] TAMBIS - Transparent Access to Multiple Bioinformatics Information Sources Patricia G. Baker, Andy Brass, Sean Bechhofer, Carole Goble, Norman Paton, Robert,Stevens [2] An Ontology For Bioinformatics Applications Patricia G. Baker,Carole A. Goble Sean Bechhofer, Norman W. Paton, Robert Stevens, Andy Brass 9