The Computational Case against Computational Literary Studies
Based on the paper by Ass. Prof. Dr. Nan Z. Da
Jun.-Prof. Dr. Mark Hall
Sommersemester 2019
Wir lassen den Computer lesen
Computational Literary Studies (CLS)
"Distant Reading"
Grundkonzepte
Datenmodell
n-gram
Das Pferd frisst keinen Gurkensalat
1-gram
- Das
- Pferd
- frisst
- keinen
- Gurkensalat
2-gram
- Das Pferd
- Pferd frisst
- frisst keinen
- keinen Gurkensalat
3-gram
- Das Pferd isst
- Pferd frisst keinen
- frisst keinen Gurkensalat
Analysemethode
- Wie oft kommt X vor?
- Wie oft kommt X zusammen mit Y vor?
Hypothesen
- Worum geht es im Text?
- Wie oft kommt X in Y vor?
- Wieviel Einfluss hat X auf Y?
- Kann X als Y klassifiziert werden?
- Ist Konzept X konstant?
- Wer hat X geschrieben?
Worum geht es im Text?
Welche Tiere werden erwähnt?
Wie oft kommt X in Y vor?
Wie oft werden Pferde erwähnt?
Wieviel Einfluss hat X auf Y?
Sind Pferde eher schön?
Kann X als Y klassifiziert werden?
Sind Text mit Pferden eher Naturbeschreibungen?
Ist Konzept X konstant?
Werden Pferde im 19.Jhdt gleich beschrieben wie im 20.?
Wer hat X geschrieben?
Ist die Ode zum Pferd eher von Göthe oder Schiller?
Worthäufigkeiten == Bedeutung
Problemstellen
- Methodische Schwächen
- Erklärungsschwächen
Methodische Schwächen
- Nutzen oft Dimension Reduction Techniken
- Testen generell innerhalb des Samples aus dem das Modell kommt
- Hypothese ist oft das Analyseergebnis
Erklärungsschwächen
- Fehlende quantitative Analyse
- Rigoroses testen mittels statistischer Methoden
- Einbeziehung theoretischer Konstrukte
CLS Paperkategorien
- Triviale Ergebnisse werden als methodische Validierung präsentiert
- Schlussfolgerungen welche die Methode nicht erlaubt
- Statistische non-Ergebnisse welche als Ergebnisse präsentiert werden
Word2Vec
- n-gram Worthäufigkeiten als Input
- Single-layer Neuronales Netz wird darauf gelernt
- ~300 dimensionen großer Ergebnisvektorraum wird berechnet
Word2Vec
Mann → Frau == König → Königin
The Life Cycle of Genres
Hat sich der Stil in Krimis über die Zeit verändert?
The Life Cycle of Genres
- Trainiert ein Modell das Genre "Krimi" für Zeitraum "vor 1941" von allen anderen Genres unterscheiden kann
- Wendet dann das Modell auf das Genre "Krimi" für Zeitraum "nach 1941" and und tested ob das Genre von anderen Genres unterschieden werden kann
- Wenn das Modell unterscheiden kann, dann ist die Schlussfolgerungen, dass sich das Genre "Krimi" nicht verändert hat
Understanding gender and character agency in the 19th century novel
- Identifizieren automatisch Pronomen+Verb Paare
- Trainieren einen Nearest Shrunken Centroids Classifier
- Analysieren die höchsten Korrelationen
Understanding gender and character agency in the 19th century novel
- Klassifikationsgenauigkeit 81%, Fehlerrate Frauen 23%, Männer 18%
- Identifikation der top-10 Verben die eher männlich oder eher weiblich sind
- Schließen aus der Fehlerrate, dass Gender bei Frauen weniger genau definiert ist, als bei Männern