Специалисты НИУ ВШЭ выложили в открытый доступ набор данных по цифровым гуманитарным наукам. Набор данных содержит графы, геоданные, векторные модели и размеченные тексты.
Сети ↑
Любое произведение литературы можно разложить на графы и диаграммы, выделив сети взаимодействий, появлений персонажей и даже частотность их реплик. Центр цифровых гуманитарных наук НИУ ВШЭ предоставляет в открытом доступе сети 11 книг — от античных трагедий до современной подростковой литературы.
Яркий пример — сеть взаимодействий персонажей книги Элиезера Юдковского «Гарри Поттер и методы рационального мышления». Проект разработан ученицей лицея НИУ ВШЭ. Всего проанализировано 752 связи между 194 персонажами.
Геоданные ↑
В данном разделе опубликованы работы, имеющие культурную ценность и географическую составляющую. Из художественной литературы были вычленены географические координаты для дальнейшего анализа.
На момент публикации обзора набор геоданных содержит десять завершённых исследований.
В исследовании книги Карамзина «Письма русского путешественника» до мелочей учтён сложный маршрут, отмечены все точки интереса — от трактиров и парков до мест случайных встреч.
Векторные модели романов ↑
Векторная модель романа — это произведение, в котором все слова заменены на квазисинонимы, близкие по значению к оригинальным словоформам.
Компьютерный лингвист Дмитрий Орехов экспериментирует над популярными произведениями с помощью векторного алгоритма и языка программирования Python. С примерами результатов экспериментов можно ознакомится на сайте Дмитрия Орехова.
На изображении представлены оригинал и векторная модель произведения «Фауст».
Размеченные тексты ↑
Планируете самостоятельно поработать с текстом по методике цифровых гуманитарных исследований? К вашим услугам большая база уже размеченных русских драматических произведений и сборники Льва Толстого.
Тексты размечены в формате TEI.