Вопросы к эксперту

Язык R в гуманитарных и социальных исследованиях

Наш собеседник: Александр Фенин, социальный психолог, менеджер по продукту Digital Freud, директор мастерской «Анализ данных в социальных науках». Основатель просветительских проектов Praxis и Psychodemia.Science, в популяризации науки с 2013 года. Иронично себя называет «аспирантом-недоучкой» Лаборатории возрастной психогенетики ПИ РАО.

Содержание

Александр, расскажите, как вы пришли к анализу данных, будучи психологом?

На самом деле многие психологи занимаются анализом данных в том или ином виде. Психология — полноценная наука, большая часть исследований в ней — количественные, стало быть, есть и работа с данными. В психологии активно используются корреляции, регрессии, mixed models, ANOVA, факторный и кластерный анализ. Хотя большая часть исследований останавливается на первом.

R в гуманитарных науках

Стереотипная кушетка психоаналитика слабо вяжется с анализом данных и программированием на языке R. Для каких задач психологу могут потребоваться аналитические навыки и владение R?

Зачастую для научных работ психологи пользуются программой Excel, в лучшем случае такими статистическими продуктами, как SPSS или Statistica. Существуют целые гайды по тому, как тыкать в кнопочки внутри, чтобы сделать весь необходимый анализ, и даже не задумываясь, что именно происходит. R лучше в ряде существенных пунктов: во-первых, он позволяет сохранять и шерить скрипты подготовки и анализа (второе есть и в указанных продуктах, но этим мало кто пользуется); во-вторых, он позволяет на порядок более гибко и прозрачно готовить, анализировать и визуализировать данные; в-третьих, у него огромное и всегда готовое прийти на помощь комьюнити, регулярно снабжающее потенциальных исследователей новыми удобными библиотеками и идеями по обработке данных.

И поэтому вы решили создать мастерскую анализа данных, где ждёте психологов, социологов, экономистов, лингвистов, готовых изучать R?

Я давно занимаюсь популяризацией науки, и в некоторой степени это именно она. С другой стороны, это ещё и возможность изучить R тем, у кого никак не хватает терпения сесть за онлайн-курсы. Вы приезжаете на Летнюю школу, оказываетесь в умеренной изоляции от внешних раздражителей, с вами ещё 20–30 таких же начинающих, и вы каждый день по многу часов грызёте гранит R. Получается очень захватывающе и, главное, — эффективно.

Верным ли будет утверждение, что гуманитарные науки получили второе дыхание с появлением интернета и социальных сетей, где хранится огромный массив открытых данных, ждущих своего исследователя?

Не готов ручаться за все науки, но могу сказать, что в той же психологии особого бума таких исследований не наблюдается. Возможно, из-за того, что исследуемые конструкты операционализировались ещё в доинтернетовскую эпоху и как изучать их в новых реалиях, если не просто коррелировать и пытаться предсказывать старые показатели на основании новых данных, не очень понятно. Но, разумеется, проблески есть, и многие — да и мы в Digital Freud тоже — работают сейчас в этом поле как в науке, так и в индустрии.

А что насчёт анализа офлайновых данных? Пригодятся ли гуманитарию в этом случае навыки программирования на языке R?

Да, разумеется. На самом деле мы даже не столько работаем с онлайном, сколько со вполне офлайновыми, каким-то образом собранными датасетами. В них вагон и маленькая тележка задач, великолепно решаемых языком R.

С какими сложностями сталкиваются те, кто впервые подходит к изучению R?

Мне кажется, главная сложность R — психологический барьер «о боже, я программирую». В остальном, особенно с наличием целого вороха удобных IDE, это очень красивый и удобный способ работы с данными. В него натурально влюбляешься.

Выбор между R и Python

Но ведь есть другой достойный претендент для решения этих задач. Python более популярен и широко распространён в анализе данных, а курсов и литературы на русском языке по Python больше, чем по R. Выбор между ними обусловлен потребностями современных гуманитарных исследований или это дело вкуса?

Думаю, дело вкуса и отчасти моды. R почему-то очень распространился именно в социально-научной среде за рубежом и отчасти в России. Хотя это справедливо не для всех наук: лингвисты, например, в подавляющем большинстве своём предпочитают Python. Как минимум из-за более разработанного аппарата NLP, но, полагаю, не только.

Как бы хорошо гуманитарий ни знал R, всё же это не основной его профессиональный навык. Можете обозначить необходимый минимум владения навыками программирования на R, которого будет достаточно для применения в гуманитарных исследованиях? Сколько может потребоваться времени для достижения этого уровня?

Минимум — вообще никакого, большая часть науки всё ещё делается в готовых пакетах. Но если вы хотя бы умеете готовить данные в R, у вас уже будет серьёзное преимущество: в гибкости, в скорости внесения изменений, в прозрачности процесса. Пример: множество раз сталкивался с тем, что люди забывали, что именно они сделали в Excel перед тем, как анализировать данные в SPSS, и им приходилось натужно вспоминать или начинать сначала.

С чего начать изучение R

Что вы посоветуете молодому исследователю, который решит изучить R? На что стоит обратить особое внимание, каким вопросам уделить время?

Циклы проще, но apply-семейство — очень важная история в R, не пренебрегайте им. Как только освоитесь с основным синтаксисом, попробуйте залезть в data.table или dplyr — вам почти наверняка придётся работать или с тем, или с другим, и лучше перестать их бояться сразу же. Лучше всего сразу делать полный цикл обработки на R: от сырых данных до готовых отчётов. Для этого потребуется подтянуть RMarkdown, но поверьте, вы не пожалеете.

А что насчёт курсов или must-read-литературы?

На Stepik есть несколько отличных курсов: от Толи Карпова и Вани Иванчея, от Антона Антонова. Есть курсы DataCamp и целое множество других в зарубежном интернете. Из офлайновых: приезжайте к нам на Летнюю школу, можно с нулевым уровнем, всему научим. Из книг однозначный must-read — это работа Энди Филда «Discovering Statistics Using R». Но вообще какие к чёрту книжки, это же язык программирования! Все ответы есть на Stack Overflow, дерзайте.

О Летней школе «Анализа Данных»

Раз вы упомянули Летнюю школу «АнДан», расскажите о ней подробнее. Для кого эта школа, и с какими навыками её заканчивают?

Мы всегда старались делать мастерскую такой, чтобы нам самим было приятно там учиться. Поэтому это мастерская для тех, кто слышал про R, кто смотрел на R, кто думал про R, возможно, даже записывался на курсы по R, но почему-то так и не начал. Мы даём отличную возможность начать: освободиться от оков Excel и SPSS. Это мастерская для тех, кто уже умеет, но хочет большего. Это мастерская для тех, кто хочет рисовать крутую инфографику по большим данным, но не знает, с чего начать. В общем, для тех, кто готов взять анализ данных в свои руки по-настоящему. И что самое интересное, таких людей с каждым годом всё больше — и мы их с нетерпением ждём.

— Александр, благодарим за интересную беседу, желаем успехов в популяризации науки и работе мастерской!

Мастерская «АнДан» — Как это было

Предлагаем ознакомиться с фотографиями работы мастерской в 2016 и 2017 годах.

1 Прикольно!

Добавить комментарий