Радован Гарабик Институт языкознания им. Л.Штура, Братислава, Словакия Кубединова Л.Ш. Таврический национальный университет им.В.И.Вернадского, Симферополь, Украина Корпусная лингвистика - современная, быстро развивающаяся область, возникшая вследствие растущих потребностей лингвистики во внедрении компьютерных технологий для работы с большими массивами языковых данных. На современном технологическом уровне лингвистику уже не удовлетворяют просто электронные библиотеки или полнотекстовые базы данных. Лингвисту нужны электронные корпуса, т.е. такие электронные коллекции текстов, которые отобраны исходя из некоторых принципов, специально подготовлены и размечены, и в которых с помощью специальных программ можно искать необходимые фрагменты текста по заданным параметрам. Внедрение корпусных методов радикально изменило общий научный ландшафт в лингвистике. Теперь ограничений на объем анализируемого материала и скорость поиска информации в нем по существу нет, а это означает, что в распоряжении исследователя оказываются колоссальные массивы текстов самого разного типа. На сегодняшний день, каждый язык нуждается в создании корпуса, особенно, это касается малоизученных языков или языков, которые не располагают электронными технологиями для их изучения. Крымско-татарский язык не располагает ни своей электронной библиотекой, ни какой-либо полнотекстовой базой данных. Но, как и другие языки, он нуждается в корпусах, т.е. в компьютерных коллекциях текстов, специально подобранных и специально подготовленных для научных исследований. Целью нашего исследования является создание корпуса текстов крымско-татарского языка. Этот корпус направлен на создание базы данных современного письменного крымско-татарского языка. База данных состоит в основном из текстов газетного стиля. Для создания данного корпуса была применена система, позволяющая применить специфические черты обработки данных конкретного языка. Система использует преимущественно современный объектно-ориентированный язык программирования Python, имеющий превосходные возможности обработки текстовых данных. Данная система была разработана институтом языкознания им. Л.Штура, г.Братислава и представлена на международной конференции Megaling 2005. К корпусу имеется свободный доступ через Интернет. Поиск в нём осуществляется через простую форму WWW , используя простые выражения для запроса. В докладе также представлены статистические данные полученные при работе с корпусом.