Bioinformatik - Oliver Kohlbacher
Transcription
Bioinformatik - Oliver Kohlbacher
Bioinformatik für Biochemiker Oliver Kohlbacher WS 2009/2010 1. Einleitung Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht • Was ist Bioinformatik? • Inhalte der Vorlesung – Sequenzbasierte Bioinformatik – Strukturbasierte Bioinformatik – Datenintegration in der Bioinformatik • Inhalte der Übungen • Empfohlene Literatur • Externe Informationsquellen 2 2001 – Das Menschliche Genom Science (2001), 291 (5507) Nature (2001), 409 (6822) http://www.nature.com/nature/journal/v405/n6790/pdf/405983.pdf The Age of Bioinformatics Bioinformatics as the key enabler BUSINESS BANTER / DR PRAVIN KINI INTERVIEW / ANIL URS TIMES NEWS NETWORK [ SUNDAY, JANUARY 04, 2004 01:20:14 AM ] What kind of work is being done in India in the field of bioinformatics? Bioinformatics work in India can be primarily divided into research, products, solutions and services. Institutions like the Indian Institute of Science (IISc) are conducting research in the areas such as bio-MEMS and biological databases. Companies such as CytoGenomics are providing products in highly specialized areas such as microarray-based gene expression analysis. Companies like Siri Technologies are providing advanced solutions in the area of cancer diagnostics, by building complex 3D imaging products and computer-assisted therapeutics. Companies like Wipro BioMedical are providing custom services in the informatics space. […] Where does the Indian bioinformatics stand in terms of work done? Bioinformatics in India is one of the foremost sunrise industries today. Bioinformatics encompasses a wide spectrum, ranging from drug discovery research to clinical medicine. With the year 2004 being touted globally as the year of bioinformatics product companies, India is well poised to be a serious player in the international arena. http://www.welt.de/daten/2001/02/13/0213ws222324.htx http://economictimes.indiatimes.com/articleshow/msid-403376,prtpage-1.cms Bioinformatik – Definition Bioinformatik verwendet Methoden der Mathematik, Statistik und Informatik zur Analyse und Interpretation von biologischen, biochemischen und biophysikalischen Daten. Bioinformatik – eine eigene Disziplin? Mathematik, Informatik Lebenswissenschaften Physik, Chemie Bioinformatik – Gebiete • Sequenzbasierte Bioinformatik – – – – Genomassemblierung Sequenzsuche/-vergleich Comparative Genomics .... • Strukturelle Bioinformatik – Proteinstrukturvorhersage – Wirkstoffentwurf () Chemoinformatik) – ... • Biologische Informationssyteme – Datenintegration und biologische Datenbanksysteme – Modellierung biologischer Daten – … • Systembiologie – – – – • ... Computational Proteomics Metabolomics Biologische Netzwerke … Worum geht es in dieser Vorlesung? • Theoretische Grundlagen – Überblick über die Bioinformatik – Ausgewählte Kapitel aus Sequenzanalyse und Strukturbioinformatik – Einige Grundbegriffe der Informatik • Praktische Anwendung – Werkzeuge – Benutzung – Interpretation der Ergebnisse • Rechnerbedienung, Programmierung – Überblick und Grundlagen – Grundlagen von Python – Anwendungen zum Skripting, einfache Applikationen Worum geht es hier NICHT? • Benutzung von Werkzeugen als „Black Boxes“ • Fertige „Rezepte“ zur Anwendung • Programmierkurs • Einführung in die Informatik Inhalte • Einleitung und Überblick (heute) • Sequenzanalyse – – – – – Strings, Sequenzen und Alignments Dynamische Programmierung, Komplexität Multiples Alignment Software-Tools, Datenbanken Phylogenien • Strukturbioinformatik – – – – Proteinstruktur-Datenbanken Sekundärstrukturvorhersage Threading und Homologiemodellierung Ab-initio Vorhersage Strings und Sequenzen • Formale Definitionen • Sequenzdatenbanken • Einige Grundbegriffe der Informatik • Alignments – Definition – Distanzfunktionen – Dotplots Alignment mit Dyn. Programmierung • Alignmentalgorithmen – Trivial – Dyn. Programmierung • Scoringmatrizen • Begriff der Komplexität • Implementierung • Tools – Alignments – Dotplots Merkl, Waack, Bioinformatik interaktiv Sequenzdatenbanken und -suche • Sequenzdatenbanken – NCBI – Swiss-Prot • BLAST – Algorithmus – Parameter – Ausgabe • Werkzeuge – BLAST – BioPython – EMBOSS http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html Sequenzdatenbanken und -suche • Sequenzdatenbanken – NCBI – SWISS-Prot • BLAST – Algorithmus – Parameter – Ausgabe • Werkzeuge – BLAST – BioPython – EMBOSS http://www.ncbi.nlm.nih.gov/Database/index.html Multiple Alignments • Definition • Optimalität – Mathematisch – Biologisch • Heuristiken und Approximationen • Tools – ClustalW – T-COFFEE www.biomedcentral.com/ 1471-2105/4/47/figure/F8 Phylogenien • Interpretation phylogenetischer Bäume und Netzwerke • Zugrunde liegende Modelle • Algorithmen • Software-Tools Proteinstrukturen • Visualisierung von Strukturen • Strukturdatenbanken – PDB – CATH, SCOP • Dateiformate Sekundärstrukturvorhersage • Nichtlokalität der Sekundärstrukturvorhersage • Qualitätsmaße • Einfache Ansätze KVYGRCELAAAMKRLGLDNYRGYSLGNWVC AAKFESNFNTHATNRNTDGSTDYGILQINS RWWCNDGRTPGSKNLCNIPCSALLSSDITA SVNCAKKIASGGNGMNAWVAWRNRCKGTDV HAWIRGCRL – Chou-Fasman – GOR • Stand der Technik – PHD – CASP6 H1 H2 ` 1 ` A ` A ` A ` ` 2 KVYGR C E L AAAMKR L G L DNYRGY S L GNWVCAAK F E S N F N T HA T NRN T DG S T DYG I L Q I N S 5 ` 10 15 ` ` ` 3 20 H3 4 25 ` 3 30 H4 35 40 ` 45 H5 50 H6 4 55 ` 60 a H7 2 RWWCNDGR T P G S KN L CN I P C S A L L S S D I T A S VNCAKK I A S GGNGMNAWVAWRNR CKG T DV 65 ` 70 75 80 1 HAW I RGC R L 125 Residue interactions:- with ligand 85 90 95 100 105 110 115 120 1lzy Threading, Homologiemodellierung • Begriffe • Threading – Paarpotenziale – Kontaktpotenziale – Komplexität • Homologiemodellierung – Seitenketten – Loops • Werkzeuge – 123D – SWISS-Model Ab-Initio-Strukturvorhersage • Modelle und Algorithmen • ROSETTA – Algorithmus – Qualität der Vorhersage • Stand der Technik – Wie geht man vor? – Wie gut sind die Ergebnisse? Empfohlene Software • Python und BioPython – Python: sehr leicht erlernbare, objekt-orientierte Skriptsprache – BioPython: Erweiterung von Python für Bioinformatik-Anwendungen • Verfügbarkeit – Für alle Betriebssysteme – Download von www.python.org www.biopython.org – Auf den Pool-Rechnern bereits vorinstalliert Empfohlene Software BALLView: Molecular-Modeling-Werkzeug (Download von unserer Website, im Pool installiert) www.ballview.org Ablauf • Übungen in drei Gruppen im PCI-Schulungsraum (425C, 2. OG) • Mögliche Termine – Mo, 08:00 - 09:00 und 9:00 – 10:00 – Di, 08:00 – 09:00 oder 09:00 – 10:00 (VL 8:15 – 9:00) – Do, 08:00 - 09:00 und 9:00 – 10:00 (Bitte am Ende der Vorlesung in Liste eintragen, zu welchen Terminen Sie NICHT können!) • Einteilung in Übungsgruppen wird bekannt gegeben • Wir geben jeweils Übungsblätter aus, die Übungen werden während der Übungszeit abgearbeitet • Keine schriftliche Abgabe notwendig • Bewahren Sie die Übungsblätter zum Nachschlagen auf und bringen Sie sie zu den Übungen mit! Übungen – diese Woche • Übungen beginnen DONNERSTAG! • Übungstermine in dieser Woche – Mo, – Mo, – Di, – Do, 8:00 9:00 8:00 8:00 – – – – 9:00 10:00 9:00 9:00 Scheinkriterien • Nicht benotet • Voraussetzung – Anwesenheit bei Übungen (bestätigt durch Unterschrift, Fehlen maximal bei zwei Übungen, ärztliches Attest notwendig) – Aktive Mitarbeit während der Übungen – Mindestens 50% der Übungsaufgaben erfolgreich bearbeitet Literatur Merkl, Waack: Bioinformatik Interaktiv, Wiley, 2002 Übersichtliche, nicht sehr tief gehende Einführung. (79 €) Literatur Setubal, Meidanis: Introduction to Computational Molecular Biology, PWS Pub. Co., 1997 Sehr gute, leider nicht mehr ganz aktuelle Einführung. (86 €) Literatur Zvelebil, Baum: Understanding Bioinformatics Taylor & Francis Ltd., 2006 Leicht verständliche Übersicht über wesentliche Gebiete der Bioinformatik. (60 €) Literatur Mount: Bioinformatics – Sequence and Genome Analysis,Cold Spring Harbor Lab Press, 2001 Sehr umfassendes Lehrbuch über Sequenzbioinformatik. (75 €) Literatur Andrew Leach: Molecular Modeling. Principles and Applications, Prentice Hall, 2nd ed., 2001 Sehr guter Überblick über Grundlagen im Bereich Molecular Modeling und einige Bereiche der Strukturbioinformatik. (80€) Zusätzliche Resourcen • Python – Tutorial auf unserer Website – Tutorial und Doku auf www.python.org – Tutorial und Doku auf www.biopython.org – Tutorial am “Python for Biologists” am Institut Pasteur: http://www.pasteur.fr/formation/ infobio/python/ Zusätzliche Resourcen • Lehrbücher sind auch im Semesterapparat der Bibliothek zu finden (Sand 14, 1. OG) • Auf unserer Website finden sie außerdem – Vorlesungsbezogene Papers zum Download – Vorlesungsfolien (in der Regel einige Tage vor der Vorlesung) – Übungsblätter – Links zu relevanten Websites – URL http://www-bs.informatik.uni-tuebingen.de/Teaching/WS2009/BIBC/ Weiterführende Vorlesungen • Vorlesung Informatik I (BSc, WS) • Vorlesung Grundlagen Bioinformatik (BSc, SS) • Vorlesung Drug Design 1 (MSc, SS) • Vorlesung Proteinstruktur und –modellierung (MSc, WS) • Vorlesung Computational Immunomics (MSc, WS) • Praktikum Structure-Based Drug Design (MSc, WS+SS) • Praktikum Datenintegration (MSc, WS+SS) Kontakt • Website http://www-bs.informatik.uni-tuebingen.de/Teaching • Bei Fragen zu Vorlesung/Übungen [email protected] • Sprechstunde Do 15-17, Sand 14, C317 (2. Stock) 35