Тикунов В. С. Геоинформатика. Нейросетевые алгоритмы — математические аспекты.

Скачать полную версию учебника (с рисунками, формулами, картами, схемами и таблицами) одним файлом в формате MS Office Word Скачать книгу

Нейросетевые алгоритмы — математические аспекты. Под именем нейросетевых алгоритмов в настоящее время объединяется несколько подходов к обработке данных, которые их авторы, не согласовывая друг с другом, сочли напоминающими принципы организации биологических нейронных сетей. Видимо, сыграла роль привлекательность названия вместе с тем обстоятельством, что по-настоящему принципы работы таких сложных биологических систем, как мозг человека, никому не известны, и в этом смысле все равны и свободны. Это несколько нарушает существующие в математике традиции логически обоснованной классификации алгоритмов, но поскольку некоторые нейроалгоритмы достаточно эффективны, приходится считаться с установившейся практикой. Рассмотрим два типа нейроалгоритмов, наиболее часто используемых в приложениях, — алгоритмы обратного распространения ошибки (back error propagation algorithms; BackProp; в российских публикациях 80-х годов использовалось математически более точное название: алгоритмы двойственного функционирования; АДФ) и карты Кохонена (самоорганизующиеся карты, self-organization maps, SOM).

Алгоритм обратного распространения ошибки. Такие алгоритмы создавались во многом для решения классической задачи математической статистики — задачи регрессии табличных данных. Хорошо известны простейшие задачи регрессии — такие как задача проведения прямой, наилучшим образом приближающей облако точек (например, прямой, сумма квадратов расстояний точек до которой минимальна). В этом примере речь идет о линейной регрессии, алгоритм которой должен определить параметры положения прямой, — ее углы наклона к осям координат и координаты одной из точек прямой.
Если речь идет о нелинейной регрессии, в качестве аппроксимирующего облака точек многообразия выступает не прямая, не плоскость или гиперплоскость, а некоторая гладкая кривая, поверхность или гиперповерхность. Чтобы описать такие нелинейные многообразия, требуется увеличить число параметров по сравнению со случаем линейной регрессии: возникает задача многопараметрической нелинейной регрессии.

Задолго до возникновения алгоритма обратного распространения ошибки были известны сложности проведения нелинейной многопараметрической регрессии данных:
• при большом числе параметров регрессии увеличивается время счета;
• параметры регрессии определяются неоднозначно (так называемая плохая обусловленность задач многопараметрической регрессии);
• неясно, как выбрать лучший из множества вариантов нелинейной регрессии.

Алгоритм обратного распространения ошибки успешно преодолел первую из указанных сложностей, после чего был накоплен практический опыт в отношении двух оставшихся сложностей, так что в настоящее время эти сложности уже не смущают, хотя полной математической теории по их поводу так и не было создано Можно говорить о том, что нейроалгоритм обратного распространения ошибки эффективно решает задачи многопараметрической нелинейной регрессии: имеются программы, осуществляющие «хорошую» нелинейную регрессию для десятков и сотен тысяч точек с определением десятков тысяч регрессионных параметров за приемлемое время (до нескольких суток счета). Суть метода изложена в специальной литературе.

Алгоритмы квантования данных и карты Кохонена. Карты Кохонена — это вариант алгоритмов квантования данных, т. е. представления N точек данных с помощью меньшего числа точек-образцов. Изложим один из вариантов — Batch SOM.
1. Выбирается регулярная сетка М узлов, расположенная так, чтобы примерно соответствовать наиболее важной части пространства данных, обычно М существенно меньше N.
2. Каждая точка данных «приписывается» к ближайшему для нее узлу.
3. Определяется среднее арифметическое положение векторов «приписанных» групп, пусть для узла iэто будет ri.
4. Определяется среднее арифметическое положение векторов, «приписанных» к первым соседям групп, пусть для узла i это будет pi.
5. Новое положение узлов задается вектором рi+ лri, где л — параметр метода порядка десятых единицы.
6. Шаги 2-5 повторяются несколько раз.

В итоге получается сетка, не лишенная черт регулярности, но сгущающаяся там, где густы исходные данные. Такая сетка может рассматриваться как компактная модель исходного множества данных либо как средство классификации новых данных — этим данным можно приписывать тот же класс, который ранее был приписан ближайшему к вектору данных узлу карты Кохонена.

Прочие нейросетевые алгоритмы. Комбинируя два изложенных типа алгоритмов, можно получать новые варианты алгоритмов обработки данных. Например, если данных много, то можно сначала по ним построить компактную карту Кохонена (точнее, ее многомерную версию), и уже к этой карте применять методы нелинейной регрессии. Однако не все нейроалгоритмы сводятся к такого рода комбинациям — с ними следует знакомиться по многочисленным специализированным изданиям.

Скачать полную версию учебника (с рисунками, формулами, картами, схемами и таблицами) одним файлом в формате MS Office Word Скачать книгу