
* Данный текст распознан в автоматическом режиме, поэтому может содержать ошибки
II Компакт-диски с электронными комплектами «Независимой газеты» стали появляться с 1998 г. Стало возможным появление третьего газетного корпуса — текстов «Независимой газеты» за 1996¬ 2000 гг.общим объемом 35 млн словоупотреблений. Соответствующие данные образуют средний столбец наших таблиц. На материале этого последнего корпуса можно впервые начать анализ краткосрочной лексической динамики, что методически важно для составителей частотных словарей, кроме того, материал этот может заинтересовать историков и политологов. Таким образом, публикуемый словарь представляет собой композицию трех частично пересекающихся частотных словарей. В левый столбец включено 10% материала среднего столбца (вторая половина 1997 г.), большая часть материала правого столбца присутствует в двух других столбцах. Суммирование данных трех столбцов, следовательно, неправомерно. Словник В нашем материале представлено 811 тысяч разных графических слов. Чтобы сделать осмысленным это богатство форм, необходимо свести его к меньшему числу вокабул. В громадном большинстве случаев (но не во всех) вокабула совпадает с леммой, т. е. со словарной формой представления слова. О принципах лемматизации речь пойдет ниже, пока же остановимся на проблеме ограничения объема словника. Для печатной версии словаря вводим следующие правила: 1. Слова русского языка (за исключением имен собственных), их аффиксальные производные и сложные слова со слитным н ъ т с а н и ш ъкдючаются в словарь, начиная с частоты 13. 2. а) Энклитические частицы с дефисным написанием (-де, -ка, -кась, -от, -с, -таки, -тко, -то) отделяются от предшествующего слова и включаются в словарь без частотных ограничений. Также разделяются слова с конечным -другой. б) Разделение слова с дефисом не проводится, если частица -то присоединяется к местоименному слову с начальным к- (г-) или ч-. в) Сложные числительные с дефисным написанием разделяются на два слова. Также разделяются дефисные написания с названиями месяцев. Г) Не разделяются на части графические слова вообще-то, все-таки, наконец-то, ну-ка, ну-с, нутка, опять-таки, потому-то, столько-то, сякой-то, так-то, такой-то, то-то, туда-то, тут-то. 3. Имена собственные включаются в словарь, если их частота превышает 29. Этот же порог действителен для аббревиатур организаций, компаний и фирм, всевозможных мероприятий с цифровым компонентом (Ту-130, Формула-1 и т. п.). 4. Леммы, записанные латиницей, включаются в словарь, начиная от частоты 5. 5. В словарь включены и числа, если их частота превышает 99. Лемматизация Строгое разделение частей речи потребовало бы изощренной программной системы или ручного обследования миллионов контекстов. Особенно трудоемко разделение прилагательных и причастий, в несколько меньшей мере прилагательных и существительных. Далеко не все эти задачи имеют однозначное решение. При составлении данного словаря мы следовали гибкой политике, иногда жертвуя грамматической чистотой в пользу лексической семантики. Синтетические компаративы и суперлативы выделялись в особые вокабулы, равно соотнесенные с прилагательными и наречиями. Деадъективные формы на -о считались особыми вокабулами (в них может быть скрыт какой-то процент кратких форм среднего рода прилагательных). Стремление к посильной семантической дифференциации заставляло иногда расщеплять традиционные словарные статьи обычных словарей. Так, разделены формы числа существительных Бог и боги, выбор и выборы, круг и круги, многое и многие, новости и новость, рамка и рамки, сведение и сведения, цвет, цветок и цветы. Трактуется как особая вокабула форма образом. Отдельными вокабулами стали болит {болело), давай{те), кажется, придется (пришлось), приходится (приходилось), разумеется, следует (следовало), сообщается, спрашивается, стоит