Sprachtechnologie im Web

Transcription

Sprachtechnologie im Web
Seminar im Modul M-GSW-10
SoSe2013
Prof. Dr. Udo Hahn
Lehrstuhl für Computerlinguistik
Institut für Germanistische Sprachwissenschaft
Friedrich-Schiller-Universität Jena
http://www.julielab.de
Allgemeine Hinweise
 Termin:
Mo, 16-18h (CZ3, SR 120)
 Materialien im Netz
• http://www.julielab.de
„Students“
 Sprechstunde:
 Email:
 Fachliteratur:
MI, 12-13h (FG 30, R203)
[email protected]
überwiegend in Englisch
Seminarleistungen
 Vortrag
(mündlich)
• 1-stündig
• Elektronische Version (PDF, PPT) verfügbar machen
 Referat
(schriftlich)
• 15-20 Seiten Kerntext (mit Standardformaten)
• Elektronische Version (PDF, DOC) verfügbar machen
• Eidesstattliche Erklärung zur Eigenautorenschaft
 Wir prüfen mit Plagiatserkennungs-Software
• Abgabe: Ende Juli 2013
Bemerkungen zu Referaten

Aufbaumuster:
Deck- bzw. Titelblatt mit vollständigen Angaben
Inhaltsverzeichnis
Einführung ins Thema, Motivation
Themenabhandlung: grundlegende Verfahren/Algorithmen,
Systemfunktionalitäten, Experimente/Evaluationen usw.
• Fazit mit kritischer Würdigung, offene Probleme
• Bibliographie
•
•
•
•

Zitationen:
• Alle verwendeten Quellen zitieren
 Mit einem Zitat die jeweilige Quelle eindeutig beschreiben
 Fachartikel nicht mit http://...foo.pdf-Link zitieren
 Online-Quellen mit URLs und Datum des letztem Zugriffs
• Wikipedia ist keine zitierfähige wissenschaftliche Quelle !

Eigenleistungen (Literatur, Beschäftigung mit konkreten
Ressourcen/Systemen usw.) sind notwendig !!
Sprachtechnologie 1/2
 Werkzeuge
• Schreibfehlerkorrektor,
•
•
•
•
•
•
Schreibvariantenerkenner
Wortartenerkenner (POS-Tagger)
Chunker, Parser
Entitäten-Tagger, Relationenextraktor
Emotionsklassifikator
Entailment-Erkenner
Inferenzmaschine, Theorembeweiser
Sprachtechnologie 2/2
 Systeme
• Dokumenten-Retrieval, Dokumenten-
Klassifikation
• Frage-Antwort-System
• Textzusammenfassung
• Maschinelle Übersetzung
Werkzeuge: Portale

OpenNLP
• http://opennlp.apache.org/

Natural Language Toolkit – NLTK
• http://nltk.org/

Mallet
• http://mallet.cs.umass.edu/

WEKA [ML]
• http://www.cs.waikato.ac.nz/ml/weka/

Columbia U
• http://www1.cs.columbia.edu/nlp/tools.cgi

Stanford U
• http://www-nlp.stanford.edu/software/index.shtml

U-compare [Bio-Tools]
• http://u-compare.org/components/
Systeme: Portale
 Lucene
[Dokumenten-Retrieval]
• http://lucene.apache.org/core/
 Mallet
[Klassifikation, topic modeling]
• http://mallet.cs.umass.edu/
 WEKA
[Data Mining]
• http://www.cs.waikato.ac.nz/ml/weka/
 GATE
[Informationsextraktion]
• http://gate.ac.uk/
 U-compare
[Bio-Informationsextraktion]
• http://u-compare.org/components/
Konkrete Systeme
 Dokumenten-Retrieval
im Web
• Google, Yahoo!, Bing, …, Semedico
 Frage-Beantwortung
im Web
• http://qas.intellexer.com/
• Ask Jeeves: http://uk.ask.com/
 Textzusammenfassung
im Web
• MEAD: http://www.summarization.com/mead/
 Maschinelle
Übersetzung im Web
• http://translate.google.com/
• http://www.bing.com/translator/
Wege zum Vortrag und Referat
 Meldung
von drei nach fallender Priorität
geordneten Themenpräferenzen
• First-come, first-served
 Themenvergabe
 Erste
Literaturhinweise als „Saat“ nach
Bestätigung der Themenauswahl
 Themenbearbeitung
• Mündlicher Vortrag zum vereinbarten Termin
• Schriftliches Referat (unter Einhaltung der organisa-
torischen Verabredungen) zum vereinbarten Termin