Инструменты

Набор данных от Центра цифровых гуманитарных исследований

Специалисты НИУ ВШЭ выложили в открытый доступ набор данных по цифровым гуманитарным наукам. Набор данных содержит графы, геоданные, векторные модели и размеченные тексты.

Содержание

Сети

Любое произведение литературы можно разложить на графы и диаграммы, выделив сети взаимодействий, появлений персонажей и даже частотность их реплик. Центр цифровых гуманитарных наук НИУ ВШЭ предоставляет в открытом доступе сети 11 книг — от античных трагедий до современной подростковой литературы.

Яркий пример — сеть взаимодействий персонажей книги Элиезера Юдковского «Гарри Поттер и методы рационального мышления». Проект разработан ученицей лицея НИУ ВШЭ. Всего проанализировано 752 связи между 194 персонажами.

garri potter i metody ratsionalnogo myshleniya — JMS University
Изображение: hum.hse.ru/digital/data

Геоданные

В данном разделе опубликованы работы, имеющие культурную ценность и географическую составляющую. Из художественной литературы были вычленены географические координаты для дальнейшего анализа.

На момент публикации обзора набор геоданных содержит десять завершённых исследований.

В исследовании книги Карамзина «Письма русского путешественника» до мелочей учтён сложный маршрут, отмечены все точки интереса — от трактиров и парков до мест случайных встреч.

karta pisma russkogo puteshestvennika — JMS University
Изображение: github.com/olyanechaeva/NechaevaO

Векторные модели романов

Векторная модель романа — это произведение, в котором все слова заменены на квазисинонимы, близкие по значению к оригинальным словоформам.

Компьютерный лингвист Дмитрий Орехов экспериментирует над популярными произведениями с помощью векторного алгоритма и языка программирования Python. С примерами результатов экспериментов можно ознакомится на сайте Дмитрия Орехова.

На изображении представлены оригинал и векторная модель произведения «Фауст».

russkaya literatura i distributivnaya semantika — JMS University
Изображение: nevmenandr.github.io/novel2vec/

Размеченные тексты

Планируете самостоятельно поработать с текстом по методике цифровых гуманитарных исследований? К вашим услугам большая база уже размеченных русских драматических произведений и сборники Льва Толстого.

Тексты размечены в формате TEI.

razmetka tei na primere proizvedeniya bloka neznakomka — JMS University
Изображение: github.com/dracor-org/rusdracor
0 Прикольно!

Добавить комментарий