Sprachtechnologie im Web
Transcription
Sprachtechnologie im Web
Seminar im Modul M-GSW-10 SoSe2013 Prof. Dr. Udo Hahn Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität Jena http://www.julielab.de Allgemeine Hinweise Termin: Mo, 16-18h (CZ3, SR 120) Materialien im Netz • http://www.julielab.de „Students“ Sprechstunde: Email: Fachliteratur: MI, 12-13h (FG 30, R203) [email protected] überwiegend in Englisch Seminarleistungen Vortrag (mündlich) • 1-stündig • Elektronische Version (PDF, PPT) verfügbar machen Referat (schriftlich) • 15-20 Seiten Kerntext (mit Standardformaten) • Elektronische Version (PDF, DOC) verfügbar machen • Eidesstattliche Erklärung zur Eigenautorenschaft Wir prüfen mit Plagiatserkennungs-Software • Abgabe: Ende Juli 2013 Bemerkungen zu Referaten Aufbaumuster: Deck- bzw. Titelblatt mit vollständigen Angaben Inhaltsverzeichnis Einführung ins Thema, Motivation Themenabhandlung: grundlegende Verfahren/Algorithmen, Systemfunktionalitäten, Experimente/Evaluationen usw. • Fazit mit kritischer Würdigung, offene Probleme • Bibliographie • • • • Zitationen: • Alle verwendeten Quellen zitieren Mit einem Zitat die jeweilige Quelle eindeutig beschreiben Fachartikel nicht mit http://...foo.pdf-Link zitieren Online-Quellen mit URLs und Datum des letztem Zugriffs • Wikipedia ist keine zitierfähige wissenschaftliche Quelle ! Eigenleistungen (Literatur, Beschäftigung mit konkreten Ressourcen/Systemen usw.) sind notwendig !! Sprachtechnologie 1/2 Werkzeuge • Schreibfehlerkorrektor, • • • • • • Schreibvariantenerkenner Wortartenerkenner (POS-Tagger) Chunker, Parser Entitäten-Tagger, Relationenextraktor Emotionsklassifikator Entailment-Erkenner Inferenzmaschine, Theorembeweiser Sprachtechnologie 2/2 Systeme • Dokumenten-Retrieval, Dokumenten- Klassifikation • Frage-Antwort-System • Textzusammenfassung • Maschinelle Übersetzung Werkzeuge: Portale OpenNLP • http://opennlp.apache.org/ Natural Language Toolkit – NLTK • http://nltk.org/ Mallet • http://mallet.cs.umass.edu/ WEKA [ML] • http://www.cs.waikato.ac.nz/ml/weka/ Columbia U • http://www1.cs.columbia.edu/nlp/tools.cgi Stanford U • http://www-nlp.stanford.edu/software/index.shtml U-compare [Bio-Tools] • http://u-compare.org/components/ Systeme: Portale Lucene [Dokumenten-Retrieval] • http://lucene.apache.org/core/ Mallet [Klassifikation, topic modeling] • http://mallet.cs.umass.edu/ WEKA [Data Mining] • http://www.cs.waikato.ac.nz/ml/weka/ GATE [Informationsextraktion] • http://gate.ac.uk/ U-compare [Bio-Informationsextraktion] • http://u-compare.org/components/ Konkrete Systeme Dokumenten-Retrieval im Web • Google, Yahoo!, Bing, …, Semedico Frage-Beantwortung im Web • http://qas.intellexer.com/ • Ask Jeeves: http://uk.ask.com/ Textzusammenfassung im Web • MEAD: http://www.summarization.com/mead/ Maschinelle Übersetzung im Web • http://translate.google.com/ • http://www.bing.com/translator/ Wege zum Vortrag und Referat Meldung von drei nach fallender Priorität geordneten Themenpräferenzen • First-come, first-served Themenvergabe Erste Literaturhinweise als „Saat“ nach Bestätigung der Themenauswahl Themenbearbeitung • Mündlicher Vortrag zum vereinbarten Termin • Schriftliches Referat (unter Einhaltung der organisa- torischen Verabredungen) zum vereinbarten Termin