Rambler's Top100
Просмотреть марку >>
О нас
Учителя и авторитеты
Они просто сделали это
Статьи по разделам
Приятное с полезным
События. Фотоальбом.
Книги и полезные ссылки
Гостевая книга
Обратная связь
Партнеры журнала
Карта сайта
Поиск

TOP



Детерминационный анализ. Отличия и Литература.

Серей Чесноков, Кирилл Резник (исполнительный директор Контекст) kirill@context.ru

Чем подход ДА отличается от классического факторного анализа?

Под "классическим факторным анализом" имеется в виду любая схема факторного анализа, при которой связи между переменными описываются матрицей парных коэффициентов статистической связи, где каждый коэффициент представляет связь между двумя какими-либо переменными.

Пример. Сравнение Анализа Правил и классического факторного анализа

"Пример иллюстрирует неприменимость классической схемы факторного анализа для анализа правил в случае, когда матрица парных коэффициентов статистической связи дает неполное описание связей между переменными, характеризующими проблемную ситуацию" (С.В.Чесноков, 1975).

Рассмотрим случай, когда проблемная ситуация характеризуется тремя бинарными переменными: переменной x со значениями , , переменной y со значениями ,  и переменной z со значениями , . Пусть по этим переменным проведены измерения на выборке в 1000 объектов. Предположим, что совместное распределение по трем переменным имеет вид, показанный в Таблице 1. 

 

 

 

 

 

250

0

0

250

 

0

250

250

0

 

 

y z

Таблица 1. Совместное распределение по переменным x,y,z.

Постановка задачи факторного анализа

Задан набор переменных x, y, z. Найти минимальное число факторов (в данном случае - переменных из заданного набора), зная которые можно “восстановить” значения всех других переменных.

Решение задачи методом Анализа Правил

Из таблицы видно, что значения переменной x полностью детерминируется значениями переменных y, z с помощью четырех точных правил:

  • Правило 1.     (Если ,  то )

  • Правило 2.    (Если ,  то )

  • Правило 3.    (Если , то )

  • Правило 4.    (Если , то )

Этот результат можно рассматривать как решение задачи факторного анализа методом Анализа Правил. Переменные y, z есть идеальные факторы. Они позволяют восстановить значения переменной x без каких бы то ни было погрешностей. Алгоритм восстановления дается функцией x = (y,z), которая полностью определена правилами 1-4.

Таким образом, решение, полученное с помощью ДА: число факторов равно двум. В качестве факторов можно выбрать переменные y, z.

Решение той же задачи методом классического факторного анализа

Проанализируем ситуацию, применив классический факторный анализ. Следуя стандартному рецепту, вычислим коэффициенты статистической связи между парами переменных и составим их них матрицу. Предположим, что для анализа используется любой показатель статистической связи между парами переменных, который равен нулю в случае статистической независимости переменных и принимает максимальное значение (положим его равным единице), в случае тождественного совпадения переменных.

Из распределения, представленного в Таблице 1 получим три парных распределения, которые показаны в Таблице 2.

X

 

 

 

 

y

 

 

 

 

z

 

 

 

250

250

 

 

250

250

 

 

250

250

 

250

250

 

 

250

250

 

 

250

250

 

 

Y

 

 

Z

 

 

x

Таблица 2. Распределения по парам переменных (x,y), (y,z), (z,x), полученные из распределения в Таблице 1. Все переменные попарно статистически независимы.

Отсюда видно, что переменные x, y, z попарно статистически независимы. Значения меры связи для пар переменных (x,y), (y,z), (z,x) все равны нулю, а для пар переменных (x,x), (y,y), (z,z) все равны единице. В итоге матрица коэффициентов статистической связи между парами переменных будет единичной матрицей размерности 3X3:

Причины, из-за которых Факторный Анализ дает неверный результат:

Матрица парных коэффициентов статистической связи дает неполное описание связей между переменными, характеризующими проблемную ситуацию.

Чем подход ДА отличается от регрессионного анализа?

Ответ. В ДА и в регрессионном анализе по-разному ставится задача анализа связей.

Постановка задачи в схеме регрессионного анализа. Заданы переменная y и набор переменных x1,x2,x3,...,xn. Найти Уравнение Регрессии y =F(x1,x2,x3,...,xn) которое показывает, как переменная y зависит от переменных xi .i =1,2,3,...,n.

Постановка задачи в схеме ДА. Заданы признак B и набор переменных x1,x2,x3,...,xn. Найти все правила вида  A1A2A3,...,An ® B , точность и полнота которых находятся в заданных границах. Здесь Ai - значение либо совокупность значений переменной xi из числа заданных (i =1,2,3,...,n).

Регрессионный анализ тоже оперирует правилами

Регрессионный анализ оперирует функциями регрессии. Функция регрессии y = f(x) состоит из правил вида “Если x, то y = f(x)” (x  y = f(x)). Для любого x = x0 величина y0 = f(x0) вычисляется как среднее значение по переменной y при заданном x0. Таким образом, регрессионный анализ может рассматриваться как один из методов поиска и анализа правил и в этом плане его можно сравнивать с ДА, но регрессионный анализ не применим для анализа нечисловых переменных.

Чтобы воспользоваться регрессионным анализом и найти правила, из которых состоит функция регрессии y = f(x), нужно, чтобы переменная y была числовой. Регрессионный анализ не применим, если переменная y – текстовая. ДА свободен от такого рода ограничений. Способ нахождения правил, применяемый в рамках ДА, не требует, чтобы переменные были обязательно числовыми.

Регрессионный анализ дает приближенное, а ДА дает точное решение задачи прогноза.

Предположим, что правила, из которых состоит функция регрессии, используются для целей прогноза. В этом случае требуется высокая точность правил. Это обеспечивает малую ошибку прогноза и надежность объяснения. Однако, алгоритмы регрессионного анализа в принципе не гарантируют высокую точность правил (См. пример: С.Чесноков, "Детерминационный анализ социально-экономических данных", 1982, стр. 148-149).

Недостатки регрессионного анализа имеют принципиальный характер. Они обусловлены исключительно понятием регрессии, и не могут быть отменены выбором той или иной конкретной модели регрессионного анализа. Причина эффективности ДА при поиске правил не связана с частным видом распределения, рассмотренного в примере. Она в том, что алгоритмы ДА опираются на непосредственное вычисление точности и полноты правил. В этом еще одно принципиальное отличие ДА от регрессионного анализа.

Чем подход ДА отличается от подхода нечетких множеств?

ДА и теория нечетких множеств несовместимы ни в математическом плане, ни в плане методологическом.

ДА оперирует наблюдаемыми частотами событий, непосредственно вычисляемыми из опыта. Теория нечетких множеств оперирует ненаблюдаемыми величинами (функциями принадлежности), которые непосредственно из опыта не вычисляются.

Аксиоматика ДА согласуется с аксиоматикой теории вероятностей. Аксиоматика теории нечетких множеств не согласуется с аксиоматикой теории вероятностей.

ДА исходит их предпосылки, что нечеткость понятий, используемых в естественном языке, описывается правилами, точность которых отлична от максимально возможной. Теория нечетких множеств исходит из предпосылки, что нечеткость понятий, используемых в естественном языке, описывается отношением нечеткой принадлежности между элементом множества и множеством.

Как ДА связан с теорией вероятностей?

Анализ правил это исчисление условных частот. Точность и полнота правил суть условные частоты. Вклады факторов в точность и полноту правил суть приращения условных частот. Операции над условными частотами в анализе правил подчиняются тем же самым аксиомам, что и операции над условными вероятностями в теории вероятностей. Принципиальное отличие математической схемы Анализа Правил от математической схемы Теории Вероятностей сводится к двум пунктам:

В анализе правил нет понятия безусловной частоты, все частоты условны. Любая частота есть точность либо полнота некоторого правила. На языке Теории Вероятностей это означало бы отсутствие безусловных вероятностей.

Центральная роль в аппарате Анализа Правил принадлежит статистическому детерминизму. В Теории Вероятностей центральная роль отводится статистической независимости событий.

Анализ Правил и статистический детерминизм

Если воспользоваться стандартными обозначениями теории вероятностей, точность и полнота правила “Если A, то B” суть обычные условные частоты P(B|A), P(A|B):

  • Точность правила “Если A, то B” = N(A,B)/N(A) = P(B|A).

  • Полнота правила “Если A, то B” = N(A,B)/N(B) = P(A|B).

В Анализе Правил ключевую роль играет понятие статистического детерминизма. Детерминизм имеет место в случаях, когда точность или полнота правил становится равной единице.

Односторонний статистический детерминизм в направлении от A к B

Определение. Допустим, точность правила “Если A, то B” равна 1. Это условие, записанное в виде P(B|A) = 1 означает, что имеет место односторонний статистический детерминизм, в направлении от A к B: если есть A, неизбежно есть и B.

Односторонний статистический детерминизм в направлении от B к A

Определение. Допустим, полнота правила “Если A, то B” равна 1. Это условие, записанное в виде P(A|B) = 1 означает, что в отношениях между признаками A, B имеет место односторонний статистический детерминизм в направлении от B к A: если есть B, неизбежно есть и A.

Двусторонний статистический детерминизм

Предположим, что и точность, и полнота правила “Если A, то B” равны 1. Это значит, что в отношениях между признаками A, B имеет место двусторониий статистический детерминизм, действующий в обоих направлениях от A к B, и от B к A: наличие A всегда детерминирует B и обратно, наличие B всегда детерминирует A. Двусторонний детерминизм означает, что признаки A и B неотличимы друг от друга.

Роль статистического детерминизма в Анализе Правил

Математический аппарат Анализа Правил направлен на выявление статистического детерминизма и отклонений от него. Анализ Правил это специальная техника вычислений, позволяющая обнаруживать детерминизм на фоне хаотично распределенных данных.

Как связаны ДА и Data Mining?

ДА дополняет методы, используемые в пакетах Data Mining.

Как связаны ДА и "Деревья принятия решений?

Методы ДА могут быть использованы для построения "Деревьев принятия решений". Таблицы правил в ДА-системе представляют собой один из способов представления деревьев принятия решений.

Где найти информацию о Детерминационном Анализе?

Информация общего характера и начальные сведения:

  • Руководство Пользователя для ДА-системы, версия 4.0, на русском языке.

  • User's Guide (DALSolution, Release 4.0) – на английском языке.

  • Web-сервер www.context.ru на русском языке.

  • Web-сервер www.dalsolution.com на английском языке.

  • Web-сервер www.itsv.com/itss на шведском языке.

  • Web-сервер www.elzaresearch.com на английском языке.

Выборочная библиография

Ниже приведены основные работы по математическим основам и методологии ДА, некоторые работы по приложениям ДА в социологии, лингвистике, логике естественного языка, медицине, геоинформационных системах, а также работы, связанные с философскими проблемами теории детерминаций и детерминационной логики.

Основные работы по теории детерминаций

  1. Чесноков С.В. “Детерминационный анализ  социально-экономических данных”. Москва, “Наука”, 1982.

  2. Чесноков С.В. Силлогизмы в детерминационном анализе. Известия АНСССР, серия Техническая кибернетика, 1984, № 5, стр. 55-83. (Перевод на английский в Engineering Cybernetics 22, no. 6, 1985, pp. 96-120).

  3. Чесноков С.В. Вычисление точности D-силлогизмов в статистике таблиц сопряженности. Известия АН СССР, серия Техническая кибернетика, №1, 1985, стр.141-144.

  4. Чесноков С.В. (1990). Детерминационная двузначная силлогистика. Известия АН СССР, серия Техническая кибернетика, 1990, №5, стр.3-21. (Перевод на английский в Soviet Journal of Computer and Systems Sciences, vol. 29, № 3, 1991, pp. 67-84).

Детерминационный анализ в социологии и гуманитарных исследованиях

  1. Чесноков С.В. Детерминационный анализ социологических данных. Социологические исследования, 1980, №3, стр. 179-189.

  2. Чесноков С.В. “Основы гуманитарных измерений”. Препринт Института Системных исследований ГКНТ и АН СССР, Москва, 1985.

Детерминационный анализ в логике естественного языка и лингвистике

  1. Ротенберг В.С., Чесноков С.В. Виртуальность имен в процессе диалога в естественном языке. Известия АН СССР, Техническая кибернетика, №5, 1986, стр. 115-127.

  2. Chesnokov, S.V. The Effect of Semantic Freedom in the Logic of Natural Language. Fuzzi Sets and Systems, 1987, v. 22, pp. 121-154.

  3. Chesnokov, S.V., and Luelsdorff P.A. Determinacy Analysis and Theoretical Orthography, Theoretical Linguistics, Walter de Gruyter, Berlin - New York, 1991, V. 17 1/2/3, pp.231-262.

  4. Luelsdorff P.A. and Chesnokov S.V. (1994) Determinacy - Experience. In: “Writing vs Speaking (Language, Text, Discours, Communication)”. S. Chmejrkova, F. Danesh, E. Havlova (eds.), Gunter Narr Verlag Tubingen, pp. 407-413.

  5. Luelsdorff P.A. and Chesnokov  S.V. Determinacy Form as the Essence of Language. In “Prague Linguistic Circle Papers”, 1996, V.2, pp.205-234.

Детерминационный анализ в медицине

  1. Чесноков С.В. “Применение Детерминационного Анализа для поиска диагностических критериев и обработки данных при проведении комплексных ультразвуковых обследований”. Глава XVII в книге “Клиническое руководство по ультразвуковой диагностике”. Москва, 1997, т.4, стр. 362-376.

  2. Чесноков С.В. Детерминационный анализ и поиск диагностических критериев в медицине (на примере комплексных ультразвуковых обследований). Ультразвуковая диагностика, 1996, №4, стр. 42-47

  3. Хитрова  А.Н. Дифференциальная  диагностика  кист  почечного синуса и гидронефрозов  методом  комплексного  ультразвукового обследования. Диссертация на соискание ученой степени кандидата медицинских наук. Москва, 1996.

  4. Мусаева М.Д. Значение допплеровских методик исследования в  диагностике заболеваний желчного пузыря. Диссертация на соискание ученой степени кандидата медицинских наук. Москва, 1996.

  5. Насникова И.Ю. Значение допплерографии в оценке нарушения уродинамики. Материалы диссертации на соискание ученой степени кандидата медицинских наук. Москва, 1997.

Детерминационный анализ в Геоинформационных системах

N. Zaslavsky. Logical Inference about Categorical Coverages in Multi-Layer GIS. Ph.D. dissertation, University of Washington, 1995.

Философские проблемы теории детерминаций и детерминационной логики

  1. Чесноков С.В. “Физика Логоса”. Нью-Йорк, Телекс, 1991

  2. Чесноков. “Люди, наука, логос”. Москва, 1987-1993 (неопубликована)

  3. Чесноков С.В. Возможна ли физика Логоса. Москва, 1994 (неопубликована)

Краткая историческая справка

В ДА-системе реализован Детерминационный Анализ (сокращенно  ДА). Это метод обработки и анализа данных, ориентированный на поиск и анализ правил (детерминаций). Математические основы метода разработаны Сергеем Чесноковым в 70-е годы в Институте Системных исследований (ВНИИСИ, Москва) в отделе академика С.С.Шаталина (годы жизни 1934-1997).

Первые вычислительные системы, поддерживающие ДА, были созданы в конце 70-х. В 1982 году опубликована монография, посвященная методу, с подробным изложением его оснований (Чесноков, 1982).

В 80-е годы в теории детерминаций были получены фундаментальные математические результаты. Была построена детерминационная логика, где получили развитие взгляды Аристотеля, игнорировавшиеся в математической логике двадцатого столетия. В частности, на базе теории детерминаций было получено радикальное обобщение силлогистики Аристотеля, приведшее к новому пониманию роли силлогистики в основаниях логики и арифметики, в анализе данных и в естественном языке (Чесноков, работы 1983-1994).

В 80-90-е годы ДА получил широкое применение в медицине, социологии, лингвистике, в задачах конструирования интеллектуальных систем, в геоинформационных системах (см. Библиографию). Новый импульс применению ДА в разных областях науки, управления и бизнеса был дан благодаря фирме “Контекст” и организованному внутри нее приватному Институту физики Логоса. С 1989 года фирма и Институт взяли на себя развитие метода и его приложений, а также реализацию прикладных проектов. Были разработаны современные версии ДА-систем, которые открыли доступ к детерминационному анализу для широких кругов пользователей в различных областях науки, управления и бизнеса.

Ключевые слова статьи:

ДА-система | маркетинг | маркетинговые исследования | менеджмент | детерминационный анализ | Сергей Чесноков | математические модели в бизнесе | анализ правил | дерево принятия решений 

 

Высказаться

Перейти на сайт Гильдии Лидеров Перемен

 

 
Rambler's Top100
Рейтинг@Mail.ru
 
Главная страница Написать письмо Поиск
 


© Е.Г. Маркушина, 2001