Материалы портала «Научная Россия»

Яндекс сообщает: 40% слов из словаря Даля уже не используются

Яндекс сообщает: 40% слов из словаря Даля уже не используются
Аналитики сравнили слова из словаря Даля с теми, которые используют люди в поисковых запросах.

Аналитики компании «Яндекс» в часть 150-летия с момента публикации знаменитого словаря Владимира Даля провели необычное исследование, сравнив слова из словаря с теми, что сейчас используют люди в поисковых запросах. Оказалось, что примерно треть слов распространены до сих пор, еще чуть меньше трети используются, но крайне мало. Почти 40% слов можно считать полностью вышедшими из употребления, говорится с результатах исследования.

Словарь Даля прославился как словарь именно живого, повседневного языка, на котором говорили в России в середине XIX века. Количество слов в нем — около 200 тысяч.

«Яндекс» за год отвечает примерно на 70 миллиардов запросов из России. Специалисты по пробелам и специальным символам разделили эти запросы на словоформы, выбрали только те, которые состоят из кириллических букв, и автоматически привели их к начальной форме. Получилось больше 285 миллионов разных слов — невероятное число (для сравнения, в Большом оксфордском словаре около 600 тысяч вхождений). Но не торопитесь удивляться или возмущаться — существующих слов из них меньше процента, все остальное — слова с ошибками, написанные в неправильной раскладке или просто бессмысленные буквосочетания.

Все это множество слов и «слов» было соотнесено со словами из Национального корпуса русского языка XX и XXI веков. Пересечений оказалось всего около 750 тысяч. «Можно сказать, что это слова, которые употребляются в современных текстах разных жанров — от художественной литературы до деловых документов», — объяснили авторы исследования.

Но это далеко не окончательная цифра — пришло время сравнить это множество со множеством вхождений в словаре Даля. И вот что получилось:

18% слов в словаре Даля не используется вообще — за год они ни разу не встретились в поисковых запросах, никто даже не интересовался, что они значат.

Еще 38% слов в запросах встречались, зато их нет в корпусе русского языка. Можно сказать, что это уходящие слова — их уже не используют в письменной речи, но все еще ищут в интернете. 8,5% из них встречаются в основном в запросах о значении. Как правило, слова из этой категории редко попадают в поисковые запросы, а в текстах из корпуса не встречаются вовсе. Наибольшей популярностью — а значит, наибольшей «степенью живости» на данный момент — пользуются слова «инсинуация», «демагогия», «утрировать», «моногамия» и «импонировать».

Осталось 44%. Но и это не окончательный подсчет «выживших» — есть еще омонимы. То есть слова, которые полтора столетия назад значили совсем другое, слова, написание которых в словаре совпадает с распространённой в поиске ошибкой или опечаткой (e.g. «навинка» и «кател»), слова, сохранившиеся в украинском (e.g. «ознак» и «метелик»), названия населённых пунктов (e.g. «хопер» и «пустовар»), наконец, фамилии. Таких набралось около трети.

Итак, после всех уточнений получается, что в составе живого русского языка со времен Владимира Ивановича Даля сохранилось около 32%. Немного меньшая доля, около 30% слов, из активного словаря большинства наших сограждан активно выходит, причем треть из них встречается только в запросах о значении. Наконец, почти 40% слов, более в устной и письменной речи не встречается. По крайнее мере, у абсолютного большинства русскоговорящих в России.

словарь даля частотность слов в языке яндекс

Назад

Социальные сети

Комментарии

Авторизуйтесь, чтобы оставить комментарий