Übungsaufgabe

NLP & Topic Modelling

Python

Falls noch nicht vorhanden, installieren sie Python 3.6
Installieren sie Pipenv
Downloaden sie die Abhängigkeitsdefinitionen: Pipfile und speichern diese in einem neuen Verzeichnis
Führen sie auf der Kommandozeile in diesem Verzeichnis folgenden Befehl aus:
```
$ pipenv install --three
        
```
Dies kann eine Weile dauern, da relativ große Datenmengen heruntergeladen werden müssen.
Theoretisch sollte das Sprachmodel automatisch installiert werden. Falls dies nicht funktioniert hat und beim Laden des Models ein Fehler auftritt, installieren sie es manuell:
```
$ pipenv shell
$ python -m spacy download en_core_web_lg
        
```

Wichtig! Bevor Pythonbefehle ausgeführt werden können, muss die Pythonumgebung mittels folgenden Befehls aktiviert werden:

$ pipenv shell
$ python

NLP

Wichtig! Um die Word2Vec Funktionalität zu nutzen, wurde das große Sprachmodel installiert, daher muss beim Laden des Models folgende Zeile verwendet werden:

nlp = spacy.load('en_core_web_lg')

Testen sie die primären NLP Schritte (Tokenisierung / POS Tagging / NER) mit ein paar Beispielen (Dokumentation hier)

Versuchen sie auch Beispiele zu finden, bei denen die Ergebnisse falsch sind.

Dokumentieren sie sowohl ihren Code, wie auch die Ergebnisse in einem PDF Dokument und laden sie das über die Übungsplatform hoch (Blatt "NLP & Topic Modelling", Aufgabe 1).

Word2Vec

Testen sie die Spacy Word2Vec Ähnlichkeitsberechnung wie hier demonstriert.

Dokumentieren sie sowohl ihren Code, wie auch die Ergebnisse in einem PDF Dokument und laden sie das über die Übungsplatform hoch (Blatt "NLP & Topic Modelling", Aufgabe 2).

LSI & LDA

Testen sie Gensim um die Topics die durch LSI und LDA generiert werden zu vergleichen. Nutzen sie die Beispiele hier um Topicmodelle für den Korpus zu generieren.

class="language-python" for topic in mdl.print_topics():
  print(topic)

Beispielcode hier

Dokumentieren sie sowohl ihren Code, wie auch die Ergebnisse in einem PDF Dokument und laden sie das über die Übungsplatform hoch (Blatt "NLP & Topic Modelling", Aufgabe 3).