* Данный текст распознан в автоматическом режиме, поэтому может содержать ошибки
надо -оценить статистическую значимость слова деньги в макрожанре «Письма». Частота слова деньги в текстах Достоевского равна 2 0 9 7 , в письмах оно встретилось 822 раза. Предположим, что слово деньги не зависит от специфики макрожанра, тогда, зная долю писем во всем корпусе ( 0 , 1 8 3 3 ) , м ы м о ж е м под считать математическое ожидание появления этого слова в письмах: 2097 х 0,1833 = 2 8 4 . Подставляя величины 8 2 2 и 284 в нашу формулу, получаем S = 3 l (величину и с ключительно в ы с о к у ю ) , отсюда вывод — слово деньги очень характерно для пи сем Достоевского. Будем называть такие единицы лексическими маркерами подкорпусов (макрожанров, микрожанров, периодов творчества, отдельных текстов, отдельных персонажей и т. п . ) . Соответствующие списки целиком входят в С л о варь. В этих списках частота ( f ) подчинена мере статистической значимости ( S ) . Примером могут служить таблицы 1 4 - 1 6 . Формула оценки статистической значимости может быть использована для выявления текстуальных связей слов. Весь текст м е х а н и ч е с к и м образом ч л е нится на фрагменты равной длины (скажем, 4 0 с л о в ) , а затем подсчитывается число фрагментов, в которых одновременно встретились слово х и слово у. Если реальная частота совместной встречаемости статистически значима, дела ется вывод о текстуальной связи двух слов. Таким образом, в Словаре найдет отражение еще один лингвистический объект — текстуальные связи слов. Так, редкое слово агония встретилось в жанре критики всего 4 раза, но показало текстуальные связи с пятью словами: актер (S=18), естественный ( S = 6 ) , зритель ( S = 1 0 ) , правда (сущ.) ( S = 2 ) , умирать ( S = 6 ) . Из этих пяти связей одна (со словом умирать) может считаться общезначимой для русского языка, остальные — обусловлены конкретным текстом, где ведется речь об и з о бражении агонии на сцене. Более сбалансированное соотношение общезначимых и текстуальных связей обнаружим в жанре «Критика и публицистика» у слова Гоголь. Таблица 002 Текстуальные связи слова Гоголь (f==47) S 18 16 15 13 12 11 11 7 7 7 7 5 5 4 f 3 5 8 3 5 2 2 3 3 3 2 2 4 2 «Женитьба» перевод Тургенев «Мертвые души» Островский Виардо непереводимый жанр комедия перевести Репин Писемский смех Диккенс S 4 4 4 4 4 4 4 3 3 3 3 3 3 3 f 3 2 4 2 4 3 5 2 2 2 2 2 5 4 исчезнуть по-французски повесть Поприщин произведение сверх того язык где-то драма Лермонтов портрет правый Пушкин французский S 2 2 2 2 2 2 2 2 2 2 2 2 2 f 2 3 2 5 4 3 2 2 7 7 3 4 2 - выражаться господин комический литература начинать писатель следовать сочинение тогда хотя художественный что-то Щедрин Здесь м ы обнаруживаем текстуальные связи, которые м о г л и бы ожидать от имени Гоголь даже не проводя специальных исследований, с другой же стороны, встречаемся со связями, обусловленными конкретным текстом, в котором речь идет о непереводимости Гоголя (перевод, непереводимый, перевести, по-фран цузски, французский, Виардо, Тургенев). Подробнее об анализе текстуальных связей см. ниже. 4. Описание отдельных таблиц книги Таблица 1 «Распределение л е к с е м по основным жанрам» содержит 4 3577 лемм (и 34 4 5 других л е к с е м ) . Основные ж а н р ы (или м а к р о ж а н р ы ) сокращенно за писаны как X — Х у д о ж е с т в е н н а я л и т е р а т у р а , К — Критика и п у б л и ц и с т и к а , П — пирьма. Д л я экономии места слова с ч а с т о т о й 1 напечатаны в подбор в конце каждой страницы, два последних жанра записаны здесь кодами К и П, слова, встретившиеся в художественной л и т е р а т у р е , не сопровождаются каким-либс символом. Таблица 2 «Относительная частота л е к с е м в основных жанрах» содержит 3000 лексем. Относительные частоты округлены до целого числа, лексемы,