Прототип цифрового словаря языка В. В. Маяковского: методология и филологические перспективы
Андрей Викторович Авилов
Докладчик
студент 2 курса
Национальный исследовательский университет «Высшая школа экономики» (филиал в Нижнем Новгороде)
Национальный исследовательский университет «Высшая школа экономики» (филиал в Нижнем Новгороде)
Ключевые слова, аннотация
Исследование посвящено разработке цифрового прототипа словаря языка В. В. Маяковского на основании автоматически обработанного корпуса текстов поэта. В центре внимания теоретическое и практическое изучение методов фиксации авторского идиолекта через его противопоставление языковому стандарту. На основании этой концепции предложена модель словаря, описывающая авторскую оптику как систему смысловых сдвигов, формирующих художественный мир. Прототип предназначен для решения задач атрибуции и реконструкции механизма порождения лирического высказывания.
Тезисы
Ключевые слова: авторский словарь; поэтическое мышление; В. В. Маяковский; цифровая гуманитаристика
Одной из фундаментальных задач современного литературоведения остается создание словарей языка автора. Такая задача уже неоднократно решалась в отношении значимых литературных фигур — напр., А. С. Пушкина, М. Ю. Лермонтова, В. М. Шукшина, В. С. Высоцкого. Крайне важной она видится и для современного маяковедения. Настоящая работа представляет собой попытку создания первого полноценного цифрового прототипа такого словаря и обозначает перспективы его дальнейшего применения.
В основе нашего подхода лежит гипотеза о том, что язык автора — это не просто сумма наиболее частотных единиц, но строгая система синтагматических и парадигматических отношений. Каждая лексема в персональном дискурсе автора получает семантический сдвиг, определяющий индивидуальность художественного видения творца — той эстетической рамки, которой он пользуется для превращения объектов реальности в элементы художественного мира. Мы предполагаем, что этот сдвиг можно не только зафиксировать как факт, но и измерить математически через косинусное расстояние между векторами лексемы в авторской и нормативной моделях. Словарь при таком подходе становится способом проникнуть в герметичную авторскую логику и инструментально проследить процесс рождения лирического высказывания.
Ключевым нововведением исследования является использование методов цифровой гуманитаристики. Построение чернового варианта словаря осуществляется с помощью векторной модели word2vec, обученной на оцифрованных текстах из полного 13-томного собрания сочинений В. В. Маяковского. Такой подход обеспечивает качественный лексикографический сдвиг: алгоритм выявляет скрытые дистрибутивные закономерности, недоступные ручному анализу. Сопоставление с нормой реализуется через сравнение векторов авторского идиолекта с векторами прагматически нейтральной модели — мы опираемся на инструменты библиотеки Natasha (проект navec), но обучаем саму модель на современных автору материалах НКРЯ 1900—1930 гг. Окказионализмы Маяковского, не имеющие аналогов в общем корпусе (OOV-vectors), представляют отдельную сложность для обработки — их семантика восстанавливается через их контекстное окружение. При этом окончательную верификацию результатов выполняет филолог-специалист — цифровые методы лишь выступают фундаментом для экспертных наблюдений.
Предполагаемая практическая значимость проекта выходит за рамки справочного материала. Создание прототипа авторского словаря представляется важным для решения сложных случаев атрибуции. Если классические стилометрические методы (напр., метод дельта Берроуза), фокусируются на частотности словоупотребления, наша лексикографическая модель акцентирует внимание на семантическом поле каждой единицы авторского словаря. В контексте насыщенной фальсификациями истории авангарда такая модель в перспективе может повысить точность атрибуции благодаря верификации текста на уровне идиолекта. Кроме того, понимание механизмов семантического сдвига в языке Маяковского дает базу для качественного перевода его произведений без потери авторских семантических нюансов.
Итак, прототип словаря Маяковского мыслится нами как актуальный исследовательский инструмент, позволяющий решить сложную комплексную задачу — реконструировать и проанализировать динамику эстетического переосмысления мира, совершаемого автором через слово.
Одной из фундаментальных задач современного литературоведения остается создание словарей языка автора. Такая задача уже неоднократно решалась в отношении значимых литературных фигур — напр., А. С. Пушкина, М. Ю. Лермонтова, В. М. Шукшина, В. С. Высоцкого. Крайне важной она видится и для современного маяковедения. Настоящая работа представляет собой попытку создания первого полноценного цифрового прототипа такого словаря и обозначает перспективы его дальнейшего применения.
В основе нашего подхода лежит гипотеза о том, что язык автора — это не просто сумма наиболее частотных единиц, но строгая система синтагматических и парадигматических отношений. Каждая лексема в персональном дискурсе автора получает семантический сдвиг, определяющий индивидуальность художественного видения творца — той эстетической рамки, которой он пользуется для превращения объектов реальности в элементы художественного мира. Мы предполагаем, что этот сдвиг можно не только зафиксировать как факт, но и измерить математически через косинусное расстояние между векторами лексемы в авторской и нормативной моделях. Словарь при таком подходе становится способом проникнуть в герметичную авторскую логику и инструментально проследить процесс рождения лирического высказывания.
Ключевым нововведением исследования является использование методов цифровой гуманитаристики. Построение чернового варианта словаря осуществляется с помощью векторной модели word2vec, обученной на оцифрованных текстах из полного 13-томного собрания сочинений В. В. Маяковского. Такой подход обеспечивает качественный лексикографический сдвиг: алгоритм выявляет скрытые дистрибутивные закономерности, недоступные ручному анализу. Сопоставление с нормой реализуется через сравнение векторов авторского идиолекта с векторами прагматически нейтральной модели — мы опираемся на инструменты библиотеки Natasha (проект navec), но обучаем саму модель на современных автору материалах НКРЯ 1900—1930 гг. Окказионализмы Маяковского, не имеющие аналогов в общем корпусе (OOV-vectors), представляют отдельную сложность для обработки — их семантика восстанавливается через их контекстное окружение. При этом окончательную верификацию результатов выполняет филолог-специалист — цифровые методы лишь выступают фундаментом для экспертных наблюдений.
Предполагаемая практическая значимость проекта выходит за рамки справочного материала. Создание прототипа авторского словаря представляется важным для решения сложных случаев атрибуции. Если классические стилометрические методы (напр., метод дельта Берроуза), фокусируются на частотности словоупотребления, наша лексикографическая модель акцентирует внимание на семантическом поле каждой единицы авторского словаря. В контексте насыщенной фальсификациями истории авангарда такая модель в перспективе может повысить точность атрибуции благодаря верификации текста на уровне идиолекта. Кроме того, понимание механизмов семантического сдвига в языке Маяковского дает базу для качественного перевода его произведений без потери авторских семантических нюансов.
Итак, прототип словаря Маяковского мыслится нами как актуальный исследовательский инструмент, позволяющий решить сложную комплексную задачу — реконструировать и проанализировать динамику эстетического переосмысления мира, совершаемого автором через слово.