![]() |
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ФИЦ ПХФ и МХ РАН |
||
Сохранение данных исчезающего языка (нивхский, палеоазиатские) в корпусном формате
The preservation of language diversity is a primary concern for linguists worldwide. Languages with a small number of speakers are disappearing due to the increasing influence of socially prestigious languages such as English, Russian, French, Spanish, etc. Unfortunately, this problem is also prevalent in Russia. For many languages, preservation has become the main and primary objective. The Nivkh language, part of the Paleo-Siberian group, is one such language. The number of people who self-identify as Nivkh, approximately 4,500 individuals, has remained relatively stable over the past century of study. However, the Nivkh language has undergone significant changes. Until the mid-20th century, it was the primary language and the language of everyday communication for almost all Nivkhs. Nowadays, it is not being passed on to younger generations. Consequently, the number of fluent speakers is now only a few dozen, with none under the age of 70. Meanwhile, the Nivkh language exhibits a number of fascinating features, whose combination in a single language makes it truly unique. These features include: numeral classifiers (which are not found in any other language in Russia); the absence of adjectives as a separate grammatical category (it is replaced by stative verbs); the incorporation of dependents in verb phrases and noun phrases; phonological distinctions at the beginning of stems in transitive and intransitive verbs; active use of reduplication to indicate plurality of nouns / intensity of action or a feature of a predicate; remnants of the dual number; an elaborate system of semantic cases, but unmarked subject, object, and possessor; absence of ordinal numerals; and the use of converbs as the head of an independent clause, among others. Given the aforementioned characteristics, the Nivkh language is a valuable source of unique data for research that may offer new perspectives on the study of natural language, benefiting typologists and language theorists. The main issue is that, in the near future, it will become impossible to study the Nivkh language using traditional grammatical questionnaires. The only way to preserve the language is through digitalization. The current state of modern computer technologies enables the conversion of Nivkh materials into digital format. Currently, one corpus of the Nivkh language is available at http://nivkh.web-corpora.net/. This corpus contains approximately 50,000 words, with only part of it being morphologically annotated. Additionally, there are some dictionaries available at http://nivkh.ru/ and http://bibl-nogl-dictionary.ru/dictionary.html. Given the most likely scenario of the Nivkh language disappearing from native speakers' competence, significantly increasing the volume of the Nivkh corpus is crucial for preserving the language for further linguistic research. The current project involves the creation of new annotated corpora of texts. The primary sources of language material may include texts collected between 2002-2015 by Japanese linguist Shiraishi (available at http://ext-web.edu.sgu.ac.jp/hidetos/HTML/SMNStitle.html), as well as texts already published by L. Y. Sternberg, E. A. Kreinovich, and V. Z. Panfilov (Sternberg’s and Panfilov’s texts are partially included in the aforementioned corpus), and also texts gathered by project participants from native speakers. The principles of annotation and the list of glosses were initially developed during a special course on the Nivkh language held at Lomonosov Moscow State University.
Главным результатом работ по гранту должно стать появление новых корпусов нивхских данных. Предполагается собрать массив данных не меньшего объема, чем уже имеющийся (50 т. слов или более). Этот массив должен быть проверен с точки зрения последовательности орфографической записи и должен получить корректный русский перевод. Дополнительный результат состоит в разметке части этих данных (в идеале - не менее 10 т.слов) морфологическими глоссами. Параллельно с этим должен быть выбран формат представления корпуса (FieldWorks/FLEx или какой-либо другой), итоговые данные должны быть представлены в этом формате в открытом доступе в сети Интернет. Побочным результатом работы ожидается набор лингвистических наблюдений относительно нивхского морфосинтаксиса, сформулированных в виде научных публикаций и докладов. В процессе работ над проектом предполагается также создать ряд дополнительных инструментов для автоматизированной обработки нивхских текстов.
Руководитель проекта располагает значительным опытом работы в области описания языков России. П. В. Гращенков имеет большой опыт исследования и описания бесписьменных языков (багвалинский, хваршинский), диалектов "больших" языков России (мишарский диалект татарского, черкесский диалект адыгского и т.д.) В 2023 г. П. В. Гращенков предпринял полевые исследования социолингвистической ситуации в нивхском языке Сахалина, результаты которой были опубликованы в "Востоковедных чтениях" Института востоковедения РАН. Во время данной поездки были также получены контакты носителей языка, которые могли бы участвовать в разборе нивхских текстах в роли экспертов-носителей. Параллельно с этим было собрано некоторое количество уже созданных этими носителями ранее записей текстов, которые также могут быть включены в планируемый корпус. Кроме этого, по просьбе руководителей районной библиотеки пгт. Ноглики была осуществлена транскрипция нивхского словаря, разрабатываемого сотрудниками данной библиотеки. Наряду с этим руководитель проекта имеет опыт создания корпусов, им разработан корпус русского языка с разметкой по синтаксическим составляющим, см. https://github.com/grapaul/Ru_Const. Молодые участники проекта также имеют экспедиционный опыт с осетинским и кумыкским языками. Значимой и полезной подготовкой к совместной работе было проведение в рамках учебной программы ОТиПЛ МГУ с/к, посвященного нивхскому языку. В рамках данного курса обсуждались базовые аспекты грамматики нивхского языка. Отдельные грамматические темы освещались как П. В. Гращенковым, так и Э. Измайловой, Е. Гогуа и Д. Савиной. В процессе проведения с/к всеми участниками проекта также была проделана работа по подготовке и глоссированию текста на нивхском языке. Участниками также было проведено предварительное обсуждение набора глосс и методов глоссирования, составлен дальнейший план работ с нивхскими текстами.
грант РНФ |
# | Сроки | Название |
1 | 1 января 2025 г.-31 декабря 2025 г. | Цифровизация данных исчезающего языка: нивхский |
Результаты этапа: | ||
2 | 1 января 2026 г.-31 декабря 2026 г. | Цифровизация данных исчезающего языка: нивхский |
Результаты этапа: |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".