Как тесен мир графов! Дворянские титулы в математике и лингвистике
Светлана Юрьевна Пужаева
Докладчик
магистрант 2 курса
Национальный исследовательский университет «Высшая школа экономики»
Национальный исследовательский университет «Высшая школа экономики»
Кинозал
2016-04-21
16:40 -
17:00
Ключевые слова, аннотация
Представляемое исследование посвящено изучению речи экстравертов и интровертов методами теории социальных сетей (теории графов). Отправной гипотезой стало предположение, что графы, построенные по текстам интровертов и экстравертов, будут иметь определенные различия. Материалом исследования послужили расшифрованные записи устных монологов экстравертов и интровертов, взятые из блока «Сбалансированная аннотированная текстотека» Звукового корпуса русского языка. Выяснилось, что построенные графы действительно демонстрируют различия в ряде важных параметров.
Тезисы
В современном мире граница
между разными дисциплинами становится все более размытой, а развитие компьютерных
технологий неизбежно влечет за собой проникновение математических методов и
электронной обработки данных в гуманитарные сферы. Так, существующая в
математике теория графов, в которой граф понимается как множество вершин (узлов),
соединенных ребрами, нашла активное применение в теории социальных сетей.
Однако мы пошли дальше и осмелились предположить, что теория графов (и теория
социальных сетей в широком смысле) может быть применена для изучения
особенностей устного дискурса интровертов и экстравертов.
В качестве материала были выбраны расшифровки устных монологов (сюжетное/несюжетное описание, сюжетный/ несюжетный пересказ, развернутый ответ на вопрос) экстравертов и интровертов, взятые из блока «Сбалансированная аннотированная текстотека» Звукового корпуса русского языка. Всего было обработано 79 текстов экстравертов (17 417 словоформ) и 43 текста интровертов (10 915 словоформ). На этапе первичной обработки из текстов были удалены стоп-слова (предлоги, союзы, местоимения), словоформы были лемматизированы, т. е. возведены в начальную форму с помощью программы Mystem (tech.yandex.ru/mystem/). Таким образом, удалось получить данные трех типов — исходные тексты, исходные тексты без стоп-слов, лемматизированные тексты без стоп-слов. Поскольку устный дискурс невозможно поделить на предложения, мы рассматривали каждый текст как новый абзац. Внутри абзацев мы выделили биграммы — две стоящие рядом единицы, например, в предложении Мама мыла раму выделяются биграммы (мама, мыла), (мыла, раму), а затем построили граф, в котором вершинами оказались словоформы или леммы слов, а ребрами обозначалась связь (близость в контексте) между ними. Соседство на границе абзацев связью не считалось.
Нами было построено шесть графов (по одному графу каждого типа для интровертов и экстравертов), которые были сопоставлены по ряду параметров, таких, как, средняя длина пути, плотность графа, диаметр графа, коэффициент кластеризации и др. Все шесть графов демонстрировали регулярные различия по ряду параметров, исходя из чего можно выдвинуть ряд предположений относительно специфики речи экстравертов и интровертов. Таким образом, представленное исследование интересно тем, что в нем сочетается использование уникального материала из корпуса звучащей речи и применение еще не обретшей популярность в лингвистике теории графов.
В качестве материала были выбраны расшифровки устных монологов (сюжетное/несюжетное описание, сюжетный/ несюжетный пересказ, развернутый ответ на вопрос) экстравертов и интровертов, взятые из блока «Сбалансированная аннотированная текстотека» Звукового корпуса русского языка. Всего было обработано 79 текстов экстравертов (17 417 словоформ) и 43 текста интровертов (10 915 словоформ). На этапе первичной обработки из текстов были удалены стоп-слова (предлоги, союзы, местоимения), словоформы были лемматизированы, т. е. возведены в начальную форму с помощью программы Mystem (tech.yandex.ru/mystem/). Таким образом, удалось получить данные трех типов — исходные тексты, исходные тексты без стоп-слов, лемматизированные тексты без стоп-слов. Поскольку устный дискурс невозможно поделить на предложения, мы рассматривали каждый текст как новый абзац. Внутри абзацев мы выделили биграммы — две стоящие рядом единицы, например, в предложении Мама мыла раму выделяются биграммы (мама, мыла), (мыла, раму), а затем построили граф, в котором вершинами оказались словоформы или леммы слов, а ребрами обозначалась связь (близость в контексте) между ними. Соседство на границе абзацев связью не считалось.
Нами было построено шесть графов (по одному графу каждого типа для интровертов и экстравертов), которые были сопоставлены по ряду параметров, таких, как, средняя длина пути, плотность графа, диаметр графа, коэффициент кластеризации и др. Все шесть графов демонстрировали регулярные различия по ряду параметров, исходя из чего можно выдвинуть ряд предположений относительно специфики речи экстравертов и интровертов. Таким образом, представленное исследование интересно тем, что в нем сочетается использование уникального материала из корпуса звучащей речи и применение еще не обретшей популярность в лингвистике теории графов.