Глобальная лексикостатистическая база данных: материалы


НОВОСТИ

ОБЩАЯ ИНФОРМАЦИЯ

ЦЕЛЬ ПРОЕКТА

СПЕЦИФИКА ГЛБД

УЧАСТНИКИ

ПЛАНЫ

СОТРУДНИЧЕСТВО

МАТЕРИАЛЫ

 

Экспериментальные «древостроительные» процедуры ГЛБД:

предварительные результаты

 

Эту страницу на данный момент следует воспринимать как предварительные зарисовки к более детальной и точной кар­ти­не, построение которой является основной целью ГЛБД. Здесь выложен ряд классификационных схем (деревьев), со­здан­ных в рамках проекта на осно­вании (1) применения к относительно небольшим («1-го уровня») базам данных стан­дарт­но­го срав­ни­тельно-исторического анализа; (2) попыток заменить потенциально субъективный исторический анализ «объ­ек­тив­ной» компьютеризированной процедурой; (3) замены тщательного, детального анализа индивидуальных списков на об­щий, до­ста­точно грубый набросок того, как в будущем мог бы выглядеть один из самых высоких уровней ГЛБД.


 

1. «Стандартные» деревья

В ГЛБД на сегодняшний день предусмотрена возможность построения генеалогического древа в он-лайн режиме с выбором различных параметров (подробности см. в Кратком руководстве). По умолчанию «правильным» де­ре­вом при этом считается то, которое построено в соответствии с параметром «Фиксированная скорость» (по фор­муле С. А. Старостина, моди­фици­ро­ван­ной по сравнению с формулой Сводеша; скорость «распада» 100-словного списка при этом равна 0.05% за тысячу лет) или в соответствии с параметром «Переменная скорость» (по той же формуле, но с переменной скоростью «распада», зависящей от ин­дивидуальных индексов стабильности разных элементов списка Сводеша); как правило, деревья, построенные по этим двум способам, почти не отличаются друг от друга. В нижеследующей таблице приводятся такого рода «официальные» де­ре­вья (включая примерные глоттохронологические датировки) по всем языковым группам, представленным на сайте ГЛБД.

 

Языковая группа

Фиксированная

скорость

Переменная

скорость

Языковая группа

Фиксированная скорость

Переменная скорость

Нахская

Description: Description: Description: Description: Description: Description: Description: Description: Description: C:\nah.png

Description: Description: Description: Description: Description: Description: Description: Description: Description: C:\nah-v.png

Сев.-койсанская

Description: Description: Description: Description: Description: Description: Description: Description: Description: C:\nkh-f.png

Description: Description: Description: Description: Description: Description: Description: Description: Description: C:\nkh-v.png

Обско-угорская

Description: Description: Description: Description: Description: Description: Description: Description: Description: C:\oug-f.png

Description: Description: Description: Description: Description: Description: Description: Description: Description: C:\oug-v.png

Экоидная

Description: Description: Description: Description: Description: Description: Description: Description: Description: C:\Users\Gstarst\Desktop\eko-f.png

Description: Description: Description: Description: Description: Description: Description: Description: Description: C:\Users\Gstarst\Desktop\eko-v.png


 

2. «Объективно построенное» дерево фонетического сходства

 

Это дерево генерируется на основании примерно тех же принципов, которые задействованы для создания гораз­до более ре­пре­зентативного графа «ASJP World Language Tree of Lexical Similarity» (в последнем использован несколько более сложный алгоритм и, самое главное, задействованы данные по общему числу языков, более чем в 100 раз превышающему текущий инвентарь ГЛБД – с другой стороны, алгоритм ASJP пока работает только на 40-, не на 100-словных списках, к тому же далеко не всегда составленных с надлежащим качеством контроля за ис­полнением). В него включены данные по всем языкам, задействованным в ГЛБД (за исключением новейших добавлений; само дерево обновляется раз в несколько месяцев), обработанные следующим образом:

а. Алгоритм снимает индексы когнации, проставленные составителями списков на основании соображений эти­мо­ло­гического характера;

б. Вместо старых индексов автоматически проставляются новые, определяющие «родство» слов на основании обнаружения между ними достаточного фонетического сходства. Основное условие сходства определяется при этом так: «первый и второй согласные в корнях сравниваемых слов относятся к одному и тому же консонантному классу» (т. е. в словах совпадают друг с другом основные фонетические признаки как их первых, так и их вторых соглас­ных). Информация о том, какие звуки/знаки представляют какие консонантные классы, содержится в базе данных sound.dbf; с ее текущей структурой можно ознакомиться здесь.

в. После этого алгоритм, по формуле «переменной скорости», составляет новую лексикостатистическую матрицу и новое генеалогическое дерево, опираясь на полученные «псевдо-индексы когнации».

 

Щелкните здесь, чтобы ознакомиться с последней версией (01.14.2013) «Объективно построенного» дерева фо­не­тического сходства.

Более ранние версии: 10.19.2011, 07.31.2011.

 

Цветовая раскраска пространства между узлами дерева расшифровывается следующим образом:

синий = компьютеру удалось правильно распознать языковую семью или хотя бы часть языковой семьи (правда, внутренняя структура этой семьи все равно может содержать ошибки) = позитивный результат;

желтый = компьютер опознал всю или часть «сомнительной» семьи, гипотеза о существовании которой под­держивается хотя бы некоторыми лингвистами на основании серьезной аргументации, но пока что не нашла массовой поддержки = релевантный, но неокончательный результат;

красный = связь установлена на минимальном числе «псевдо-когнатов», скорее всего, неотличимом от случай­ности; отражает недоказуемую (по крайней мере, в рамках данного алгоритма) или заведомо ошибочную связь = нерелевантный результат.


3. Предварительное генеалогическое дерево языков Евразии (по 50-словным спискам)

 

Дерево является очень грубой, в полном смысле слова предварительной «прикидкой» того, как в дальнейшем может быть ус­тро­е­на типичная база «высокого уровня» в составе ГЛБД. Оно построено по результатам ручной индексации как на­деж­ных, так и сугубо гипотетических когнатов в пределах 50-словных списков, составленных для более чем 150 праязыков «низких уровней» (таких, как прагерманский, пратюркский, праэфиосемитский, пра­нахский и т. п.) и языков-изолятов Евразии. Основной массив базы скомпилирован Г. Старостиным при активной поддержке А. Дыбо, А. Касьяна, М. Живлова и других коллег по Ностратическому семинару в рамках Центра ком­паративистики ИВКА РГГУ.

Индексация когнатов там, где это возможно, проводилась на основе регулярных фонетических соответствий. Там, где язы­ко­вые группы плохо изучены (в историческом плане), а также на «макросемейных» уровнях вместо фоне­тических соответствий использовалось элементарное фонетическое сходство праформ (определяемое пример­но по тем же параметрам, что и в случае с «объективным» деревом, описанным выше). Все сопоставления прово­дились с использованием «промежуточных» уровней реконструкции — в соответствии с принципами, подробно из­ложенными в статье «Preliminary lexicostatistics».

 

Щелкните здесь, чтобы ознакомиться с последней версией (07.31.2011) Предварительного генеалогического де­ре­ва языков Евразии (длинный вариант).

Щелкните здесь, чтобы ознакомиться с последней версией (07.31.2011) Предварительного генеалогического де­ре­ва языков Евразии (короткий вариант).

Щелкните здесь, чтобы ознакомиться с данными списков (без индексов когнации) в виде таблицы Excel (ВНИ­МА­НИЕ: Многие из форм под звездочкой даны в «сыром» виде и нуждаются в дополнительной тщательной про­верке. Убедительная просьба не ссылаться ни на какие данные из этого файла без предварительной кон­суль­та­ции с авторами по адресу gstarst@rinet.ru).

 


НА ГЛАВНУЮ СТРАНИЦУ                                    К БАЗАМ ДАННЫХ                              АНГЛИЙСКАЯ ВЕРСИЯ

 

         © 2011 George Starostin (site design, data input coordination)
        © 2011 Phil Krylov (programming, technical support)