Начало Новости Технологии и ноу-хау Дайджест Проекты Новосибирский филиал Персоналии Публикации | ||
Начало Новости Технологии Дайджест Проекты Alex AURA InBASE InDOC INTEGRA.NM SemP-T ТАО Time-EX Unicalc Частотный словарь Экономика НC филиал Персоналии Публикации
|
Вторая версия частотного списка На этой странице Вы можете получить списки наиболее частотных слов русского языка. До настоящего времени Частотный словарь русского языка под ред. Л.Н.Засориной (1977) чаще всего использовался в качестве источника информации о частоте русских слов. Однако корпус, на основе которого была подсчитана частота слов в этом словаре, по современным стандартам очень мал (около миллиона слов). Кроме того, список существенно устарел: он соответствует частоте использования слов в период с 20-х до 60-х годов. В результате корпус включает большое число идеологических источников, например, произведения Ленина и Калинина, Материалы 22 и 23 съездов КПСС и советские газеты. Слова советский и товарищ входят в первую сотню русских слов, наряду со служебными словами (они встречаются чаще слов где, здесь, ваш), слова партия, революция, коммунистический встречаются чаще чем назад, около, лучше и т.д. Наконец, список слов из словаря Засориной не существует в электронном виде. Список слов, доступный с этой страницы, содержит примерно 35000 слов с частотой большей 1 ipm (вхождений на миллион слов, instances per million words). Имеется также более короткий список из 5000 наиболее частотных русских слов. Списки используют кодировку кириллицы utf8 и упакованы утилитой WinZip (пользователи Linux или Mac могут использовать StuffIt для распаковки).
Структура списков соответствует формату
лемматизированных списков из British National Corpus (BNC)
, созданных Адамом Килгарифом, а именно: Слова с частотой больше 1 ipm
Список 5000 наиболее частых слов
Некоторые статистические данные об использовании русских слов
Более полная информация о соответствии между частотой слова и покрытием корпуса находится здесь. Список построен на основе представительного корпуса современного русского языка. Он включает в себя подборку современной прозы, политических мемуаров, современных газет и научно-популярной литературы (около 40 миллионов слов, проза составляет примерно чуть больше половины объема). Все тексты корпуса были написаны на русском в промежутке между 1970 и 2002; большинство между 1980 и 1995, газетный корпус 1997-1999 (корпус основан на текстах из Библиотеки Мошкова и корпуса современной публицистики А.В.Баранова). Хорошо известно, что большие тексты представляют проблему для составления частотных списков, поскольке относительно длинный текст может содержать большое количество вхождений некоторого редкого слова, что существенно увеличит его частоту в итоговом списке. Например, корпус, использованный для составления данного списка, содержит вариацию на тему Толкиеновского "Повелителя Колец" (автор Ник Перумов). Несмотря на то, что длина этого романа составляет 250 тыс.слов, менее одного процента всего корпуса, частота использования слова хоббит в этом романе ставит его в первую тысячу русских слов, если частоту считать по всем текстам без ограничений на их длину. По этой причине частотные списки были составлены при условии, что выборка из больших текстов ограничена 10 тыс. слов, и выборка из текстов одного автора составляет менее 100 тыс. слов. В результате подмножество полного корпуса, использованное при подсчете частоты, составляет около 16 миллионов слов.
Распределение слов в текстах далеко от равномерного. Некоторые слова (например, предлоги) встречаются во многих текстах с вполне предсказуемой частотой. Частота других (например, местоимений или ментальных глаголов) существенно зависит от автора или жанра текста, в то время как многие слова относятся к "заразным": если это слово (например, имя собственное, обозначение человека по званию или должности или технический термин) встретилось в тексте один раз, весьма вероятно, что оно повторится там еще много раз, таким образом, существенно повышая его частоту в документе. Сушествуют разные способы измерения такой вариации (Church, K. and Gale, W. (1995) Poisson Mixtures, Journal of Natural Language Engineering, 1:2). Простейший способ для оценки поведения слова: посчитать коэффициент вариации, который вычисляется как среднеквадратичное отклонение, поделенное на среднее значение. Среднеквадратичное отклонение дает абсолютное значение вариации набора данных (оно увеличивается для слов с большей средней частотой), в то время как коэффициент вариации позволяет сравнить распределение слов с неравной средней частотой. Значения отклонений для 5000 наиболее частотных слов можно посмотреть здесь. Структура файла: Корпус, средства для работы с ним, а также параллельный англо-русский корпус (выравнение на основе предложения) описаны, в частности, в следующей публикации автора: Sharoff, Serge, (2002). Meaning as use: exploitation of aligned corpora for the contrastive study of lexical semantics. Proc. of Language Resources and Evaluation Conference (LREC02). May, 2002, Las Palmas, Spain. PDF file. Также отдельные частотные списки есть для следующих классов слов: Создание корпуса, разработка соответствующих программных средств и частотных списков были поддержаны грантом, предоставленным автору Фондом имени Гумбольдта, Германия. Лемматизация для анализа словоформ в корпусе была проведена с помощью морфологического анализатора Диалинг. Поскольку многие словоформы неоднозначны (например, дорогой, были, стали, для, три, уже), частота некоторых слов не вполне достоверна, например, для рассматривалось как глагол, только если за ним не следует существительное, прилагательное или местоимение, стали всегда рассматривалось как существительное, для супруги всегда выбиралось супруга при возможных супруг и супруги (мн.ч). Критериями для выбора словоформы служили:
Предложения и замечания просьба присылать автору. |
||||||||||||||
Все права защищены. © 2001 РосНИИ ИИ | Copyright. © 2001 RRIAI |