![]() |
||
Главная Рефераты по рекламе Рефераты по философии Рефераты по финансам Рефераты по химии Рефераты по цифровым устройствам Рефераты по экологическому праву Рефераты по экономико-математическому моделированию Рефераты по экономической географии Рефераты по экономической теории Рефераты по этике Рефераты по юриспруденции Рефераты по языковедению Рефераты по юридическим наукам Рефераты по истории Рефераты по компьютерным наукам Рефераты по медицинским наукам Рефераты по финансовым наукам Рефераты по управленческим наукам Рефераты по строительным наукам Психология педагогика Промышленность производство Биология и химия Языкознание филология Издательское дело и полиграфия Рефераты по краеведению и этнографии Рефераты по религии и мифологии Рефераты по медицине Рефераты по сексологии Рефераты по москвоведению Рефераты по экологии Краткое содержание произведений Рефераты по физкультуре и спорту Топики по английскому языку Рефераты по математике Рефераты по музыке Остальные рефераты |
Доклад: Классификация объектов нечисловой природы на основе непараметрических оценок плотностиДоклад: Классификация объектов нечисловой природы на основе непараметрических оценок плотности
В СССР в середине 70-х годов активно ведутся работы по статистическому анализу нечисловых данных [1]. В настоящее время во Всесоюзном центре статистических методов и информатики мы при разработке методических документов и программных продуктов по прикладной статистике делим ее на четыре части соответственно виду обрабатываемых статистических данных: на статистику случайных величин, многомерный статистический анализ, статистику временных рядов и случайных процессов, статистику объектов нечисловой природы (другими словами, статистику нечисловых данных). Вероятностный и статистический анализ нечисловых данных сопровождали теорию вероятностей и математическую статистику с самого начала их развития. Типичными примерами являются урновые схемы и изучение рождаемости. Испытание Бернулли- вероятностная модель простейшего объекта нечисловой природы. Наиболее массовым применением статистических методов является, видимо, выборочный контроль качества продукции по альтернативному признаку (т. е. по признаку "годен” - “не годен"), относящийся, очевидно, к статистике объектов нечисловой природы [2]. Развитие прикладных исследований привело к необходимости рассмотрения в качестве статистических данных различных объектов нечисловой природы. Этот термин применяем к объектам, которые нецелесообразно рассматривать как описанные числами. Другими словами, речь идет об элементах пространства, не являющихся линейными (векторными). Примеры: бинарные отношения (ранжировки, разбиения, толерантности и т. д.); множества; нечеткие множества; результаты измерений в шкалах, отличной от абсолютной; как обобщение перечисленных объектов - элементы пространств общей природы. Для результатов наблюдений, являющихся объектами нечисловой природы, рассматривают [1] классические задачи статистики: описание данных (включая классификацию) оценивание (параметров, характеристик, плотности распределения, регрессионной зависимости и т. д.). Математический аппарат статистики объектов нечисловой природы основан не на свойстве линейности пространства, а на применении симметрик и метрик в нем, поэтому существенно отличается от классического. В прикладных работах наиболее распространенный пример объектов нечисловой природы - разнотипные данные. В этом случае реальный объект описывается вектором, часть координат которого - значения количественных признаков, а часть - качественных (номинальных и порядковых). Основная цель настоящего раздела - обосновать новый подход [3] к классификации в пространствах произвольной природы, основанный на построении не параметрических оценок плотности распределений вероятности в таких пространствах [4]. "
Пусть для
любого Будем
считать, что в пространстве объектов нечисловой природы фиксирована некоторая
мера Если - В
случае считающей меры значение плотности в точке Многие методы классификации используют расстояния или меры близости между объектами или признаками. Такие методы пригодны и для классификации объектов нечисловой природы, лишь бы в соответствующем пространстве было определено расстояние или мера близости. Таким образом, широко известные иерархические агломеративные алгоритмы ближайшего соседа, дальнего соседа, средней связи и др., результатом работы которых являются дендрограммы, на самом деле относятся к статистике объектов нечисловой природы. Не пытаясь рассмотреть все многообразие методов классификации в статистике объектов нечисловой природы (см., например, [6, 7]), сосредоточимся на тех из них, которые используют плотности распределения и их оценки. Зная плотности распределения классов, можно решать основные задачи классификации - как задачи выделения кластеров, так и задачи диагностики. В задачах кластер-анализа можно находить моды плотности и принимать их за центры кластеров или за начальные точки итерационных методов типа динамических сгущений. В задачах диагностики (дискриминации, распознавания образов с учителя) можно принимать решения о классификации объектов на основе отношения плотностей, соответствующих классам. При неизвестных плотностях представляется естественным использовать их состоятельные оценки. Корректность такой постановки, как правило, нетрудно обосновать, например, в стиле [8]. Таким образом, для переноса на пространства произвольной природы основных методов классификации рассматриваемого типа достаточно уметь оценивать плотность распределения вероятности в таких пространствах. Методы оценивания плотности вероятности в пространствах общего вида предложен и первоначально изучены в [4]. В частности, в задачах классификации объектов нечисловой природы предлагаем использовать непараметрические ядерные оценки плотности типа Парзена-Розенблатта (этот вид оценок и его название введены нами в [4]):
где К: Оценки
типа Парзена-Розенблатта - частный случай линейных оценок [4]. В теоретическом
плане они выделяются тем, что удается получать результаты такого же типа, что в
классическом одномерном случае ( Одна
из основных идей состоит в том, чтобы согласовать между собой расстояние и их меры Предположим,
что Это
- монотонное преобразование расстояния, а потому Введем
Поскольку
где Переход
от Преобразование
Функцию
где Поскольку можно записать, что где то
переход от ТЕОРЕМА
1. Пусть
Плотность
Теорема 1 доказана в [4]. Однако остается открытым вопрос о скорости сходимости ядерных оценок, т. е. о поведении величины и об
оптимальном выборе показателей размытости Введем
круговое распределение ТЕОРЕМА
2. Пусть ядерная функция причем
остаточный член равномерно ограничен [0, 1,...., Тогда Величина
при что
совпадает с классическими результатами для В
случае дискретных пространств естественных метрик не существует. Однако можно
получить аналоги теорем 1 и 2 переходя к пределу не только по объему выборки Пусть
Положим
Тогда
функции ТЕОРЕМА
3. Если ПРИМЕР
1. Пространство ПРИМЕР 2.
Рассмотрим пространство функций Если . ПРИМЕР
3. Рассматривая пространства ранжировок Пространства
разнотипных признаков - это декартово произведение непрерывных и дискретных
пространств. Для него возможны различные постановки. Пусть, например, число
градаций качественных признаков остается постоянным. Тогда непараметрическая
оценка плотности сводится к произведению частоты попадания в точку в
пространстве качественных признаков на классическую оценку Парзена-Розенблатта
в пространстве количественных переменных. В общем случае расстояние Наличие
количественных факторов приводит к непрерывности и строгому возрастанию Литература 1.Орлов А.И. Устойчивость в социально-экономических моделях.-М.Наука,1979.-296 с. 2.Орлов А.И. Экспертные оценки / Вопросы кибернетики. Вып.58.-М.: Научный Совет СССР по комплексной проблеме "Кибернетика", 1979.С.17-33. 3.Орлов А.И. / Тезисы докладов Четвертой международной Вильнюсской конференции по теории вероятностей и математической статистике: Том 2.-Вильнюс, Вильнюсский госуниверситет, 1985.С.278-280. 4.Орлов А.И. / Анализ нечисловой информации в социологических исследованиях.-М.Наука, 1985.С.58-92. 5.Орлов А.И. / Статистика. Вероятность. Экономика.-М.Наука,1985. С.99-107. 6.Орлов А.И. / Заводская лаборатория. 1987.Т.58. N3.С.90-91. 7.Орлов А.И. /Надежность и контроль качества. 1987.N6.С.54-59. 8.Рекомендации. Прикладная статистика. Методы обработки данных. Основные требования и характеристики.- М.:ВНИИС,1987.-64 с. 9.Кривцов В.С., Фомин В.Н., Орлов А.И. / Стандарты и качество. 1988.N3.С.32-36. 11.Колмогоров А.Н. Статистический приемочный контроль при допустимом числе дефектных изделий, равном нулю. - Л.: ДНТП, 1951. - 22 с. 12. Гнеденко Б.В. Математика и контроль качества продукции.- М.: Знание, 1978. - 64 с. 13. Беляев Ю.К. Вероятностные методы выборочного контроля.-М.: Наука, 1975. - 408 с. 14. Лумельский Я.П. Статистические оценки результатов контроля качества. - М.: Из-во стандартов, 1979. - 200 с. 15. Орлов А.И. Современные проблемы кибернетики: Прикладная статистика. - М.: Знание, 1981. с 3-14. 16. Статистические методы анализа экспертных оценок / Ученые записки по статистике, т. 29, -М.: Наука, 1977-384 с. 17. 17.Экспертные оценки в системных исследованиях / Сборник трудов. - Вып. 4. - М.: ВНИИСИ, 1970 - 120 с. 18. Экспертные оценки / Вопросы кибернетики. - Вып. 58. - М.: Научный Совет АН СССР по комплексной проблеме / "Кибернетика". 1979. - 200 с. |
|
|