10

Главная \ Статистический словарь языка Достоевского \ 1-50

* Данный текст распознан в автоматическом режиме, поэтому может содержать ошибки

элементов (префиксов и суффиксов). Во всех остальных таблицах принят прямой алфавитный порядок. В существующих частотных словарях до половины общего объема прихо дится на ранговые словари, т. е. на таблицы, в которых единицы расположены в порядке уменьшения их частоты ( f ) и соответствующего возрастания их ранга ( г ) . Примером может служить таблица 3. В описываемом Словаре ранговые словари занимают очень скромное м е сто — в электронной части Словаря даются четыре списка по 500 самых "частых графических слов для всего корпуса текстов, для совокупности художественных текстов, для публицистики и для писем; аналогичным образом будут включены таблицы слов (лемм). Такое решение объясняется просто: ранговыми словарями" практически нельзя пользоваться. В них можно ответить на такие экзотические вопросы, как «какие именно слова имеют частоту 15?» или «какое слово зани мает 305-е место в ранговом словаре?», но. нельзя найти конкретные слова средней и низкой частоты. Если же читателю все-таки понадобится перейти от частоты к соответствующему рангу, это можно будет сделать при помощи таб лицы, умещающейся на одной-двух страницах (см. таблицу 1 0 ) . Структура этих кратких таблиц описана в следующем параграфе. Все примеры таблиц, представленные до сих пор, содержат абсолютные частоты лингвистических единиц. Их преимущество — представление полного объема информации, их недостаток — сложность непосредственного сравнения данных, входящих в разные столбцы. Как правило, столбцы отражают данные разных полкорпусов, каждый из которых не совпадает по объему с другими. На пример, в таблице 1 общий объем «Критики и писем» примерно совпадает, но «Художественная литература» превышает их в три с половиной раза. Конечно, рассматривая строки с небольшой совокупной частотой, читатель мысленно учтет это обстоятельство и сделает правильный вывод. Вот три примера из таблицы 1 : 3 бритва брошюра брюнетка Всего 36 25 15 X 23 3 14 К 12 13 П 1 9 1 Без каких бы то ни было сложных вычислений читателю ясно, что слово бритва сосредоточено в критике, что слово брошюра крайне редко появляется в худо жественной литературе, а слово брюнетка именно в этом жанре и сосредото чено. Если же совокупная частота велика, то требуется проводить некоторые арифметические операции, что без калькулятора делать трудно. Разрешить данную трудность можно при помощи таблиц относительных ч а с тот, где частоты приведены к общему знаменателю (скажем, на 100 тыс. слово употреблений) . Именно этот принцип характеризует таблицу 2 . Представление результатов в виде относительных частот имеет одно ограничение — оно бессмысленно в приложении к редким явлениям. В связи с этим в Словарь вводится еще и специальная мера оценки статистической значи мости реальных частот: 4 S = (f-m-1)/ Vm, где f — наблюдаемая частота данного события, m - математическое ожидание этого события, подсчитанное на основе какой-то нулевой гипотезы. Эта величина нашла в Словаре самое широкое применение. Важно, что при этом в круг анализа вовлекаются также хотя и редкие, но значимые события, иногда даже двукратное появление слова или словосочетания. Предположим нам У многих лингвостатистиков именно ранговый словарь именуется «частотным словарем», для второго основного варианта частотного словаря они используют термин «алфавитночастотный словарь». Как это принято в статистике, в таблицах относительных частот численные значения меньше 0,5 показаны многоточием. 4 3