« 21 »  05  20 15 г.




Частотный словарь современного русского языка

FREQUENCY DICTIONARY OF THE RUSSIAN NATIONAL CORPUS: Виноградова, Москва Шаров С. Словарь содержит представительный базовый словник современного русского языка 2-я половина XX — начало XXI вв. Словарь основан на текстах Национального корпуса русского языка объемом млн. Для русского языка было разработано несколько частотных словарей. Пионером был словарь Г. Йоссельсона, изданный в году в Детройте на материале языка по преимуществу дореволюционной России. Штейнфельд , Л.

Засориной , Л. Леннгрена и др. Существуют также специализированные словари, в частности, словарь Е. Степановой , посвященный общенаучной лексике. Отдельную отрасль статистических словарей составляют словари языка Пушкина, Достоевского, Грибоедова, Цветаевой Виноградов , Шайкевич и др. Новый частотный словарь — универсальный.

Несмотря на то, что последний его прямой предшественник был выпущен 15 лет назад Леннгрен , очевидно, что за это время изменилось многое — как сам язык, так и технология подготовки частотных словарей. Наш словарь призван представить статистическую картину современного словоупотребления г. Распределение текстов в подкорпусе современного русского языка с года по функциональным стилям показано в таблице 1. Тексты нехудожественной литературы относятся к более чем 50 предметным областям экономика и финансы, право, путешествия и др.

Художественные тексты включают романы, повести, рассказы, очерки, пьесы, сказки, эссе, литературные письма и др. Функциональные стили подкорпуса современного русского языка. Большой размер и стилистическая сбалансированность корпуса являются предпосылкой того, что он будет давать надежные статистические результаты для наиболее частотных слов: Это показывает опыт составления частотных словарей других миллионных национальных корпусов, таких как британский , чешский Leech et al.

Естественно, что частотный словарь НКРЯ во многом, и в технологических вопросах, и содержательно, ориентируется на эти образцы. Размер корпуса и надежность выборки. Существующие частотные словари для русского языка были построены на сравнительно небольших корпусах: ЭВМ первых поколений не могли работать с корпусами большего размера. Интересно, что теоретические рекомендации, выработанные в е годы Пиотровский и др.

Эта аргументация строилась на понятии доверительного интервала, который широко используется в статистике и социологии: В таблице 2 приводятся примеры частоты отдельных слов в словарях Леннгрена, Засориной и Штейнфельд в сравнении с частотами НКРЯ и миллионного корпуса русского языка, собранного из Интернета о последнем см.

Несмотря на то, что слова думать, задача, любить безусловно относятся к ядру языка входят в число самых частотных лемм , в небольших корпусах даже их частота различается весьма существенно. Частота сравнительно менее частотных слов загрязнение, изучение, милый варьируется в еще больших пределах.

Хотя состав Интернет-корпуса довольно существенно отличается от НКРЯ большим количеством технических текстов и форумов и меньшим количеством художественной литературы , различия в частоте этих единиц между ними не столь велики.

Сравнение частоты отдельных слов среднее на миллион словоупотреблений. Как видим, теоретические рекомендации относительно достаточного размера корпуса в данном случае оказываются не слишком достоверными.

Причина этого кроется в исходных допущениях на нормальное Гауссово распределение частоты слов, в соответствии с которым каждое слово встречается с одинаковой частотой во всех текстах. Если слово встретилось в тексте один раз, то при нормальном распределении это не влияет на вероятность его употребления там во второй раз. Но в реальности это не так. Каждый текст имеет некоторую собственную тему, слова которой в этом тексте будут употребляться намного чаще среднего.

В тексте про хоббитов слово хоббит будет употребляться так же часто, как и многие служебные слова, что существенно повысит его частоту в корпусе, который будет включать хотя бы один такой текст [1]. В результате частотный список, построенный на основе корпуса, отражает специфику тех текстов, которые попали в него при его составлении. Таблица 2 показывает несовершенство частотных словарей, построенных на относительно небольших корпусах, но простое увеличение размера корпуса также не гарантирует стабильности результатов.

При интерпретации списков частотного словаря надо помнить, что любой корпус, каким бы большим он ни был, является конечным подмножеством потенциально бесконечного множества текстов на данном языке.

Любая другая выборка этого подмножества породит несколько другой список, который будет отличаться в своих менее частотных элементах. Корпус большего размера, отражающий большее количество тем и функциональных стилей корпус типа BNC или НКРЯ , обеспечивает хорошую надежность для наиболее частотных элементов. Тем не менее, дальнейшее увеличение объема текстов в ущерб их разнообразию см. Поскольку задачей частотного словаря является не просто ранжировать слова по их частоте в отдельном корпусе, но и определить лексическое ядро языка, необходимо отделить слова, часто встречающиеся во многих текстах, от тех, чье лексическое поведение подобно словам Норьега или хоббит , и которые случайно оказались в той или иной позиции частотного списка.

Во многих частотных словарях Леннгрена, Британского национального корпуса, словаря французской лексики в области бизнеса используется коэффициент D, введенный А. Жуйаном Juilland et al. Значение D у слов, встречающихся в большинстве документов, близко к , а у слов, часто встречающихся лишь в небольшом числе документов, близко к 0.

Частотный список словаря Леннгрена даже отсортирован по значению произведения этого коэффициента на среднюю частоту слова. В связи с тем, что теоретический статус этого произведения неясен, мы не считали целесообразным сортировать наш словарь по нему. Однако его указание для каждого слова дает возможность оценить, насколько оно специфично для отдельных предметных областей. Например, слова жуткий, специфический и сырье имеют примерно равную частоту 21 употребление на миллион слов , но при этом коэффициент D у специфический - 66, сырье - 18, а у жуткий - 78, что означает, что последнее слово значимо для большего числа предметных областей и при прочих равных условиях имеет большие шансы на место в неспециализированном словаре.

Словарная часть содержит следующие разделы: Имена собственные и аббревиатуры. В алфавитном списке лемм приводится имя леммы, часть речи, общая частота леммы, число документов, в которых она встретилась и коэффициент вариации D.

Общая частота характеризует число употреблений на миллион слов корпуса, или ipm instances per million words. Это делается для того, чтобы упростить сравнение частоты слова в разных корпусах, которые могут довольно сильно отличаться по своим размерам. Например, если слово власть встречается 55 раз в корпусе размером тыс. Алфавитный список электронного издания включает 60 наиболее частотных лемм. В списке лемм, упорядоченном по частотности, указываются имя леммы, часть речи, общая частота леммы, число документов, коэффициент D и распределение частотности по десятилетиям.

Частотный список включает 20 самых частотных лемм. Частотные словари функциональных стилей составлены на основе подкорпусов художественной литературы, публицистики, другой нехудожественной литературы и устной речи. В список включены 5 самых частотных лемм этих подкорпусов. Список наиболее типичных лемм для каждого типа текстов был выделен на основе сравнения частоты лемм в таких текстах и в остальном корпусе.

В качестве метрики сравнения был использован критерий отношения правдоподобия log-likelihood , вычисляемый на основе следующей матрицы: Словари значимой лексики для разных функциональных стилей включают по лемм.

Алфавитный список словоформ включает все словоформы корпуса с частотой выше 0. Для каждой леммы указана ее общая частота и ранг порядковый номер в общем списке. Каждый список содержит по 1 тысяче наиболее частотных лемм. Вспомогательные таблицы включают в себя данные о частотности частеречных классов, других грамматических категорий, а также информацию о покрытии текста лексемами, средней длине слова, словоформы и предложения.

Завершает словарь алфавитный список имен собственных и аббревиатур. Имена собственные отделены от основной части словника, так как образуют значительно менее стабильную в статистическом отношении группу, а их частотность в большой степени зависит от выбора текстов в корпусе и их хронотопа. В Леннгрен высказано мнение, что включение имен собственных в частотный словарь на общих основаниях неизбежно приводит к его преждевременному устареванию.

Русский частотный словарь Шарова

Для получения списка имен собственных и аббревиатур из конкорданса корпуса были выделены имена существительные и сокращения, написание которых в текстах с большой буквы превышало процентный порог, ср.

Россия, Смирнов, ГРЭС, МИД, КЗоТ. Частотный список обозначений одежды и обуви. В качестве примера в таблице 3 мы приводим частоты имен существительных, обозначающих одежду и обувь. Базовые списки частотного словаря были получены в автоматическом режиме, при этом использовалась метатекстовая и лексико-грамматическая разметка корпуса. На основе метатекстовой информации были построены и сравнивались между собой частотные списки на отдельных выборках корпуса по функциональным стилям, по времени создания текста.

Другой вид разметки, лексико-грамматическая, позволяет установить исходную форму слова лемму , ее часть речи и такие грамматические характеристики, как падеж, число, время и т. При создании настоящего словаря был использован вариант лексико-грамматической разметки корпуса с автоматическим разрешением морфологической омонимии.

Русский язык как язык с богатым словоизменением создает дополнительные трудности для составителей частотного словаря, так как многие словоформы в текстах омонимичны ср.

Тем не менее, в частотном словаре исходная форма слова, или лемма, должна быть приписана любой словоформе однозначно. В словарях предшествующего поколения Засорина , Леннгрен омонимия разрешалась вручную, так как объем обрабатываемого корпуса был незначителен. Очевидно, что для миллионного корпуса такое решение не подходит.

При составлении настоящего словаря был учтен опыт чешских коллег, которым пришлось дорабатывать морфологический анализатор, пополнять словарь и проводить ручную редактуру. Первоначально корпус НКРЯ был размечен морфологическим анализатором Mystem Сегалович, Маслов Неоднозначность в лексико-грамматической разметке была разрешена с помощью программы А. Сокирко, использующей модель триграмм и тренировочный подкорпус со снятой вручную омонимией Сокирко, Толдова Существенную проблему для лемматизации представляют также несловарные слова Ляшевская и др.

Если слово отсутствует в грамматической словаре морфологического парсера, то ему приписываются одна или несколько гипотез об исходной форме слова и его грамматических характеристиках.

Янсен , Барклаивать ср. Для частотных несловарных словоформ использовались программы пост-обработки морфологической разметки НКРЯ, составленные Б. Бронниковым, а также результаты валидации работы этих программ, полученные О.

Бронниковой Ляшевская , Бронникова Наиболее эффективными оказались два подхода к лемматизации несловарных слов: Поскольку автоматическое разрешение омонимии и интерпретация несловарных форм допускают определенную, хотя и незначительную, погрешность, омонимы, входящие в первые 20 тысяч частотных слов, подверглись дополнительной ручной проверке. Авторы выражают благодарность В. Шайкевичу, а также Е.

Сичинаве и другим участникам семинара НКРЯ, принимавшим участие в обсуждении принципов создания словаря. Сокирко за помощь в сборе и обработке материала. Сравнение алгоритмов лемматизации на материале Национального корпуса русского языка. Словарь поэтического языка Марины Цветаевой. Дом-музей Марины Цветаевой , Грамматический словарь русского языка: Частотный словарь русского языка. Русский язык , The Frequency Dictionary of Modern Russian.

Национальный корпус русского языка Высшая школа , Электронный словарь языка писателя на примере языка А. Частотный словарь общенаучной лексики. Статистический словарь языка Достоевского. Языки славянской культуры , Частотный словарь современного русского литературного языка. New generation corpus-based frequency dictionaries: Empirical estimates of adaptation: Las Palmas, Spain, A Frequency Dictionary of Spanish: Core Vocabulary for Learners. The Russian Word Count and Frequency Analysis of Grammatical Categories of Standard Literary Russian.

Wayne University Press, Frequency Dictionary of French Words. The Hague - Paris: Word Frequencies in Written and Spoken English: Working papers on the Web as Corpus. Некоторые особенности лемматизации связаны с тем, что сбор данных происходит по преимуществу в автоматическом режиме. Отметим, что учитывается только пословная разметка: Новый год, в течение, тем не менее, друг друга не включаются в словарь. PRINCIPLES AND TECHNOLOGY Ляшевская О. Введение Для русского языка было разработано несколько частотных словарей.

Лемма Леннгрен Засорина Штейнф. НКРЯ Интернет власть думать загрязнение 69 1 0 9 11 задача изучение 0 63 78 любить милый 58




Ирина Моросяк

Частотный словарь общенаучной лексики. Книги Электроника Бытовая техника Дом и сад Ремонт и строительство Детям и мамам Творчество и хобби Красота и здоровье Аптека Спорт и отдых Одежда, обувь, аксессуары Продукты питания Зоотовары Авто и мототовары Канцелярские товары Игры и софт DVD и Blu-ray Музыка Антиквариат, винтаж, искусство OZON. Проблемы при создании частотных списков заключаются в:.