6

Главная \ Статистический словарь языка Достоевского \ 1-50

* Данный текст распознан в автоматическом режиме, поэтому может содержать ошибки

Введение Настоящий Словарь подготовлен в Отделе машинного фонда Института р у с ского языка РАН. Работа над Словарем начиналась в рамках проекта «Словарь языка Достоевского», (руководитель — Ю. Н. К а р а у л о в ) , поддержанного РГНФ, а затем выделилась в самостоятельное направление. На этом этапе авторы и с пользовали также финансовую поддержку РГНФ, оказанную более широкому про екту «Дистрибутивно-статистическое описание языка русской прозы 1855¬ 1880 гг.» (01-04-00247а). Следует с самого начала подчеркнуть, что цели обоих словарей не совпадают. Цель «Словаря языка Достоевского» — показать лексику писателя во всем ее богатстве (с детальной семантической разработкой, с собранием иллю стративных примеров, с исчерпывающим словоуказателем и т. п . ) . Итогом явится лексикографическая серия, намного превосходящая по объему лучшие о б разцы авторской лексикографии, такие как первый опыт на русской почве — «Словарь языка Пушкина» [Словарь Пушкина] или замечательный «Словарь языка Мицкевича» [ S i o w n i k ] . Первый выпуск этой серии уже вышел в свет [Словарь Достоевского]. Задача «Статистического словаря языка Достоевского» скромнее, он дол жен представить лексику Достоевского в количественном виде, повторив и обо гатив опыт уникального конкорданса к Шекспиру [ S p e v a c k ] . Однако и при таком ограничении результат оказался бы слишком объемным для бумажного издания (речь идет о многих сотнях авторских л и с т о в ) , а потому было принято решение издать Словарь в гибридном виде — как однотомную книгу, показывающую лишь часть таблиц, и как сопровождающий ее компакт-диск, содержащий информацию в полном объеме. Конечно, в первом опыте такого рода нас подстерегают многие технические трудности издания, а также психологические предубеждения чита телей, но именно на этом пути нам видится дальнейший прогресс академической лексикографии. Предваряя описание структуры Словаря, выскажем одно замечание относи тельно развития статистической лексикографии. В 1960-1970-х гг. наблюдалось широко распространенное увлечение частотными словарями, особенно в связи с педагогическими и информационными приложениями. От очень скромных по объему изданий (4 00 тыс. словоупотреблений) лексикография шагнула к рубежу в 1 млн. словоупотреблений, а затем и к новым рекордам — максимально диффе ренцированный словарь американских текстов для школы содержит более 5 м л н . словоупотреблений [ C a r r o l l ] , а словарь, созданный Институтом французского языка [ D i c t i o n n a i r e ] , опирается на корпус литературных текстов объемом б о лее 70 млн. словоупотреблений. Затем наступает кризис: электронные корпусы текстов продолжают множиться и увеличиваться по объему (в некоторых из них счет идет уже на сотни миллионов словоупотреблений), но не видно новых ч а с тотных словарей, которые были бы созданы на основе этих корпусов. В чем же дело? Причин может быть много, назовем некоторые из них. 1) Программными средствами можно легко и просто получить статистику графических слов. Именно такая информация представлена в вышеупомянутом словаре Керрола [ C a r r o l l ] . Но читателю обычно нужно большее — графические слова должны быть сведены в осмысленные лингвистические единицы, они должны быть лемматизированы. Процесс же лемматизации не поддается алгоритмам на сто процентов. Доля ручного вмешательства хотя и уменьшается относительно, но продолжает расти абсолютно. При росте объема текстового корпуса в 100 раз объем ручного труда при постредактировании возрастет, скажем, в 10 раз. 2) До сих пор не разработаны хорошие автоматизированные процедуры формирования выборки на большом корпусе текстов. Впрочем, эта трудность не