Übungsaufgabe
NLP & Topic Modelling
Python
- Falls noch nicht vorhanden, installieren sie Python 3.6
- Installieren sie Pipenv
- Downloaden sie die Abhängigkeitsdefinitionen: Pipfile und speichern diese in einem neuen Verzeichnis
- Führen sie auf der Kommandozeile in diesem Verzeichnis folgenden Befehl aus:
Dies kann eine Weile dauern, da relativ große Datenmengen heruntergeladen werden müssen.$ pipenv install --three
-
Theoretisch sollte das Sprachmodel automatisch installiert werden. Falls dies nicht funktioniert hat und beim Laden des Models ein Fehler auftritt, installieren sie es manuell:
$ pipenv shell $ python -m spacy download en_core_web_lg
Wichtig! Bevor Pythonbefehle ausgeführt werden können, muss die Pythonumgebung mittels folgenden Befehls aktiviert werden:
$ pipenv shell
$ python
NLP
Wichtig! Um die Word2Vec Funktionalität zu nutzen, wurde das große Sprachmodel installiert, daher muss beim Laden des Models folgende Zeile verwendet werden:
nlp = spacy.load('en_core_web_lg')
Testen sie die primären NLP Schritte (Tokenisierung / POS Tagging / NER) mit ein paar Beispielen (Dokumentation hier)
Versuchen sie auch Beispiele zu finden, bei denen die Ergebnisse falsch sind.
Dokumentieren sie sowohl ihren Code, wie auch die Ergebnisse in einem PDF Dokument und laden sie das über die Übungsplatform hoch (Blatt "NLP & Topic Modelling", Aufgabe 1).
Word2Vec
Testen sie die Spacy Word2Vec Ähnlichkeitsberechnung wie hier demonstriert.
Dokumentieren sie sowohl ihren Code, wie auch die Ergebnisse in einem PDF Dokument und laden sie das über die Übungsplatform hoch (Blatt "NLP & Topic Modelling", Aufgabe 2).
LSI & LDA
Testen sie Gensim um die Topics die durch LSI und LDA generiert werden zu vergleichen. Nutzen sie die Beispiele hier um Topicmodelle für den Korpus zu generieren.
class="language-python" for topic in mdl.print_topics():
print(topic)
Dokumentieren sie sowohl ihren Code, wie auch die Ergebnisse in einem PDF Dokument und laden sie das über die Übungsplatform hoch (Blatt "NLP & Topic Modelling", Aufgabe 3).