
* Данный текст распознан в автоматическом режиме, поэтому может содержать ошибки
Введение Жанр частотных словарей когда-то рассматривался лингвистами как сугубо прикладное направление. Один из грандиознейших словарей подобного рода, созданных в докомпьютерную эру, вышел в свет под характерным заголовком —- «Словарь учителя...» (Thorndike Е. L . , Lorge I . The Teacher's Word Book of 30,000 words. N . Y., 1944). Первый частотный словарь русского языка (Josselson Н. The Russian Word Count. Detroit, 19S3) был адресован преподавателям, он опирался на корпус в 1 млн словоупотреблений (1830-1950) и содержал более 5 тысяч разных лексем. На основе корпуса в 400 тыс. словоупотреблений (литература для детей и юношества) построен «Частотный словарь современного русского языка» Э. А. Штейнфельдт (Таллин, 1963), в нем было представлено 2500 наиболее употребительных слов. Первый опыт использования компьютера для этих целей материализовался в виде «Частотного словаря русского языка» под ред. Л. Н. Засориной (М., 1977). Словарь построен на базе текстов 19001960-х годов обшим объемом 1 млн словоупотреблений. Опубликованный словарь включал весь лексический материал (кроме имен собственных). В 1993 г. в Швеции опубликован «Частотный словарь современного русского языка» Л. Леннгрена (Uppsala, 1993). Исходный корпус (1 млн словоупотреблений) содержал в равной доле художественную литературу 1960-1980-х годов и журнально-газетные тексты 1985-1988 годов. К сожалению, в публикацию не включены лексические единицы с частотой 1-9, т. о. в печатном словаре находим около 9 тыс. лексем. Появление персонального компьтера, сканирующих устройств, развитие Интернета было технологической революцией и, казалось бы, обещало появление все новых и новых частотных словарей. В действительности, прогресс в этой области был не столь быстрым. При росте текстовых корпусов на два (или даже три порядка) автоматизация разметки текста и лемматизации повысли эффективность труда на порядок. Первым примером такого типа может служить Частотный словарь чешского языка — Frekvencnl slovnik destiny (pod vedemm F. Cermaka a M . Kfena). Praha, 2004. Национальный корпус чешского языка, на базе которого создан этот словарь, включает около 100 млн. словоупотреблений. В словаре представлено более 50 тыс. лемм, начиная с частоты 13. Одновременно меняются конечные цели, ради которых создаются статистические словари языка. Во главу угла ставится уже не прикладная задача отбора лексики для студентов-иностранцев, но фундаментальная задача описания языка во всем разнообразии жанров, стилей и периодов развития. Первым замечательным образцом такого рода был «Dictionnaire des frequences (P.: Didier, 1971). Соответствующий корпус в 70 млн словоупотреблений включал тексты художественной литературы от 1789 до 1964 г. В итоговых таблицах отражены 4 хронологических среза. Настоящий словарь должен положить начало серии статистических словарей для разных периодов и разных жанров русского языка. Замысел возник еще в начале 1990-х гг. В те «тощие» для науки годы в Отделе машинного фонда Института русского языка им. В. В. Винофадова РАН удалось вручную ввести в компьютер заголовки нескольких газет 1991-93 гг. («Вечерняя Москва», «Известия», «Комсомольская правда», «Московская правда», «Независимая газета», «Правда», «Сегодня»), Позднее к ним были добавлены заголовки электронных корпусов, упоминаемых ниже. Общий объем корпуса заголовков составляет 1,5 млн словоупотреблений. В первом томе нашего словаря соответствующие частоты даны в правом столбце. К началу 1997 г. ситуация начала меняться. Появилась возможность подписки на электронные издания газет, что, впрочем, потребовало продолжительной неустанной борьбы с опечатками. Сама эта работа стала возможной благодаря финансовой поддержке РФФИ (гранты 97-06-80100, 00-06-80230, 04-06-80094). Так возник корпус девяти газет 1997 года (в основном, второй половины года): «Известия" (2146 тыс. словоупотреблений), «Литературная газета» (1043), «Московский комсомолец» (1887), «Независимая газета» (3536), «Новая газета» (419), «Правда-5» (737), «Российские вести» (706), «Санкт-петербургские ведомости» (1614), «Сегодня» (2423). В этот корпус были добавлены тексты из националистических изданий 1991-93 гг. («Завтра» и т. п. — 231), из «Московских новостей» 1995 г. (201) и «Литературной газеты» 1994 г. (45). общий объем результирующего корпуса составил 14987 тыс. или круглым счетом 15 млн словоупотреблений. В настоящем словаре этот корпус условно именуется «Корпусом 1997», соответствующие частоты приводятся в левом столбце.