Квантитативные методы атрибуции эпистолярных источников
Елена Петровна Ананьева
Докладчик
аспирант
Национальный исследовательский университет «Высшая школа экономики»
Национальный исследовательский университет «Высшая школа экономики»
Данил Русланович Юлык
Докладчик
студент 3 курса
Филиал Московского государственного университета имени М. В. Ломоносова в городе Севастополе
Филиал Московского государственного университета имени М. В. Ломоносова в городе Севастополе
ауд. 133-а
2019-04-16
10:40 -
11:00
Ключевые слова, аннотация
В рамках данного исследования для атрибуции писем Зодиака за период с 1969 по 1978 г. были использованы количественные методы. С помощью методов статистического учёта парной встречаемости грамматических категорий были построены графы. Сравнительный анализ полученных графов подтвердил гипотезу о том, что четыре письма, авторство которых было поставлено под сомнение, не принадлежат вышеуказанному автору. Более того, мы высказываем предположение о том, что каждое из четырёх анализируемых писем принадлежит отдельному автору.
Тезисы
Данное исследование представляет особый интерес,
поскольку оно выполнено в русле активно развивающихся областей квантитативной
истории и прагмалингвистики.
Актуальность исследования обусловлена тем, что в прошлом году уголовное дело Зодиака было возобновлено в связи с появлением новых методов анализа писем на наличие остатков биоматериала (ДНК).
Мы считаем, что для получения достоверного результата экспертизы писем необходимо сузить круг анализируемых улик. В этом свете целью нашего исследования стало теоретическое обоснование необходимости исключения ряда писем из вышеуказанного анализа.
Достижение поставленной цели предполагает решение ряда задач.
1. Определить грамматические классы в анализируемых текстах, используя список грамматических классов в современном английском языке;
2. Провести кодификацию грамматических классов в каждом письме соответственно;
3. Построить графы с определённым порогом встречаемости;
4. Применить сравнительный анализ построенных графов для констатации или опровержения авторства Зодиака.
В ходе анализа мы поставили под сомнение авторство четырёх источников: письмо от 20 декабря 1969 г., письмо от 8 мая 1974 г., письмо от 8 июля 1974 г., письмо от 2 мая 1978 г.
В качестве образца оригинального письма для проведения сравнительного анализа были использованы следующие источники: письмо от 31 июля 1969 г., письмо от 20 апреля 1970 г., письмо от 26 июля 1970 г. Авторство вышеуказанных писем подтверждается их внутренним содержанием, а также признается экспертами, проводившими оригинальное расследование.
При кодификации каждое слово было заменено на цифру, обозначающую его грамматическую категорию. Далее полученный код разбивался на пары, напр., 13—2, 2—3 и т. д. Отметим, что пары 2—3 и 3—2 являются отдельными комбинациями. Для каждого письма был разработан рекомендуемый порог встречаемости при учете его размера. Под порогом встречаемости мы подразумеваем минимальное число раз, за которое пара должна встречаться в тексте, чтобы быть занесённой на граф.
По итогам анализа парной встречаемости грамматических классов и при учёте соотношения порогов встречаемости к объёму текста источников были построены графы.
Графы имеют следующую конструкцию: вершины графа — числовые обозначения грамматических категорий, а рёбра — линии, отображающие существующие связи и их направления. Числа, стоящие возле графов, демонстрируют силу связей. Графы сравниваются путём сопоставления вершин и рёбер.
Основываясь на результатах сравнительного анализа полученных графов и анализа отношения частоты встречаемости слов определённой длинны к общему объёму текстов, был сделан вывод, что вышеупомянутые письма не принадлежат авторству Зодиака. Более того, мы считаем, что все четыре анализируемых письма принадлежат разным авторам.
Актуальность исследования обусловлена тем, что в прошлом году уголовное дело Зодиака было возобновлено в связи с появлением новых методов анализа писем на наличие остатков биоматериала (ДНК).
Мы считаем, что для получения достоверного результата экспертизы писем необходимо сузить круг анализируемых улик. В этом свете целью нашего исследования стало теоретическое обоснование необходимости исключения ряда писем из вышеуказанного анализа.
Достижение поставленной цели предполагает решение ряда задач.
1. Определить грамматические классы в анализируемых текстах, используя список грамматических классов в современном английском языке;
2. Провести кодификацию грамматических классов в каждом письме соответственно;
3. Построить графы с определённым порогом встречаемости;
4. Применить сравнительный анализ построенных графов для констатации или опровержения авторства Зодиака.
В ходе анализа мы поставили под сомнение авторство четырёх источников: письмо от 20 декабря 1969 г., письмо от 8 мая 1974 г., письмо от 8 июля 1974 г., письмо от 2 мая 1978 г.
В качестве образца оригинального письма для проведения сравнительного анализа были использованы следующие источники: письмо от 31 июля 1969 г., письмо от 20 апреля 1970 г., письмо от 26 июля 1970 г. Авторство вышеуказанных писем подтверждается их внутренним содержанием, а также признается экспертами, проводившими оригинальное расследование.
При кодификации каждое слово было заменено на цифру, обозначающую его грамматическую категорию. Далее полученный код разбивался на пары, напр., 13—2, 2—3 и т. д. Отметим, что пары 2—3 и 3—2 являются отдельными комбинациями. Для каждого письма был разработан рекомендуемый порог встречаемости при учете его размера. Под порогом встречаемости мы подразумеваем минимальное число раз, за которое пара должна встречаться в тексте, чтобы быть занесённой на граф.
По итогам анализа парной встречаемости грамматических классов и при учёте соотношения порогов встречаемости к объёму текста источников были построены графы.
Графы имеют следующую конструкцию: вершины графа — числовые обозначения грамматических категорий, а рёбра — линии, отображающие существующие связи и их направления. Числа, стоящие возле графов, демонстрируют силу связей. Графы сравниваются путём сопоставления вершин и рёбер.
Основываясь на результатах сравнительного анализа полученных графов и анализа отношения частоты встречаемости слов определённой длинны к общему объёму текстов, был сделан вывод, что вышеупомянутые письма не принадлежат авторству Зодиака. Более того, мы считаем, что все четыре анализируемых письма принадлежат разным авторам.