XIX Открытая конференция студентов-филологов в СПбГУ

Как тесен мир графов! Дворянские титулы в математике и лингвистике

Светлана Юрьевна Пужаева
Докладчик
магистрант 2 курса
Национальный исследовательский университет «Высшая школа экономики»

Кинозал
2016-04-21
16:40 - 17:00

Ключевые слова, аннотация

Представляемое исследование посвящено изучению речи экстравертов и интровертов методами теории социальных сетей (теории графов). Отправной гипотезой стало предположение, что графы, построенные по текстам интровертов и экстравертов, будут иметь определенные различия. Материалом исследования послужили расшифрованные записи устных монологов экстравертов и интровертов, взятые из блока «Сбалансированная аннотированная текстотека» Звукового корпуса русского языка. Выяснилось, что построенные графы действительно демонстрируют различия в ряде важных параметров.

Тезисы

В современном мире граница между разными дисциплинами становится все более размытой, а развитие компьютерных технологий неизбежно влечет за собой проникновение математических методов и электронной обработки данных в гуманитарные сферы. Так, существующая в математике теория графов, в которой граф понимается как множество вершин (узлов), соединенных ребрами, нашла активное применение в теории социальных сетей. Однако мы пошли дальше и осмелились предположить, что теория графов (и теория социальных сетей в широком смысле) может быть применена для изучения особенностей устного дискурса интровертов и экстравертов.
В качестве материала были выбраны расшифровки устных монологов (сюжетное/несюжетное описание, сюжетный/ несюжетный пересказ, развернутый ответ на вопрос) экстравертов и интровертов, взятые из блока «Сбалансированная аннотированная текстотека» Звукового корпуса русского языка. Всего было обработано 79 текстов экстравертов (17 417 словоформ) и 43 текста интровертов (10 915 словоформ). На этапе первичной обработки из текстов были удалены стоп-слова (предлоги, союзы, местоимения), словоформы были лемматизированы, т. е. возведены в начальную форму с помощью программы Mystem (tech.yandex.ru/mystem/). Таким образом, удалось получить данные трех типов — исходные тексты, исходные тексты без стоп-слов, лемматизированные тексты без стоп-слов. Поскольку устный дискурс невозможно поделить на предложения, мы рассматривали каждый текст как новый абзац. Внутри абзацев мы выделили биграммы — две стоящие рядом единицы, например, в предложении Мама мыла раму выделяются биграммы (мама, мыла), (мыла, раму), а затем построили граф, в котором вершинами оказались словоформы или леммы слов, а ребрами обозначалась связь (близость в контексте) между ними. Соседство на границе абзацев связью не считалось.
Нами было построено шесть графов (по одному графу каждого типа для интровертов и экстравертов), которые были сопоставлены по ряду параметров, таких, как, средняя длина пути, плотность графа, диаметр графа, коэффициент кластеризации и др. Все шесть графов демонстрировали регулярные различия по ряду параметров, исходя из чего можно выдвинуть ряд предположений относительно специфики речи экстравертов и интровертов. Таким образом, представленное исследование интересно тем, что в нем сочетается использование уникального материала из корпуса звучащей речи и применение еще не обретшей популярность в лингвистике теории графов.