Группа американских лингвистов проанализировала тысячи предложений из 37 языков, принадлежащих к 10 разным языковым семьям, чтобы проверить гипотезу об универсальности принципа уменьшения длины зависимости, т.е. что расстояние между главным и зависимым словом — число слов, отделяющих одно от другого — стремится к разумному минимуму. И действительно, все 37 языков, включая немецкий, минимизируют длину зависимости значительно больше, чем в моделях с текстами, перемешанными случайным образом, хотя и в неодинаковой степени. Результаты работы опубликованы в журнале PNAS, коротко их пересказывает Science.

Все языки мира, которых насчитывается почти 7000, обладают одним универсальным свойством: они обеспечивают коммуникацию между людьми и, что особенно важно, стремятся сделать это наиболее эффективным способом. Однако способы складывать слова в предложения в разных языках значительно отличаются (мы уже писали об этом, рассказывая о последней конференции по историческому синтаксису в Неаполе).

Так, три базовых блока предложения — субъект (S), объект (O) и глагол (V) — могут появляться практически во всех вариантах последовательностей, например SOV (как в японском языке), SVO (как в английском и французском), VSO (как в арабском и иврите). Немаркированный порядок слов может быть более или менее жестким — к примеру, русский обладает относительно свободным порядком слов, зависящим больше от информационной структуры предложения.

Уже давно замечено, что при разном порядке слов в разных языках есть одна и та же особенность: расстояние между главным и зависимым словом, то есть число слов, отделяющих одно от другого, стремится к разумному минимуму. Такое расстояние называется длиной зависимости (dependency distance), а гипотеза, утверждающая универсальность такого подхода, — это принцип минимизации длины зависимости (Dependency Length Minimization, DLM). Однако до сих пор даже в самых обширных исследованиях в обзор включали не более семи языков, причем немецкий материал давал довольно слабую поддержку этой гипотезе. Отсюда возник вопрос — а точно ли принцип минимизации длины зависимости так универсален, как хочется думать?

Именно эти сомнения взялась развеять группа лингвистов под руководством Ричарда Фатрелла (Richard Futrell) из Массачусетского технологического института (MIT, США). На материале 37 языков из 10 разных языковых семей они проанализировали длины зависимостей, чтобы понять, есть ли, в самом деле, тенденция к их минимизации. Кроме английского, немецкого, французского и испанского — базовых языков для типологического исследования, — база данных этой группы включала такие языки, как древнегреческий, латынь, арабский, баскский, тамильский, телугу и др.

Для большинства языков лингвисты пользовались корпусами на основе газет, художественной литературы и блогов. В случае древнегреческого и латыни для анализа был взят поэтический корпус. Общий объем данных составил тысячи предложений, которые были проанализированы автоматически, с помощью алгоритма, разработанного специально для замера длины зависимостей.

Итог исследования таков: все 37 языков, включая немецкий, минимизируют длину зависимости значительно больше, чем в моделях с текстами, перемешанными случайным образом. Однако лингвисты обнаружили, что степень минимизации в разных языках значительно отличается. Высокие степени минимизации показали такие языки, как итальянский, индонезийский и ирландский. Авторы исследования отметили также, что языки типа SOV в целом обнаруживают более длинные расстояния между управляющим и зависимым словами. Но ответ на вопрос, почему такие вариации в принципе существуют, лингвистам еще предстоит искать в будущем.