Правила производных: Произведение, степень и цепное правило

28 апр 2019 в 14:20

Данная статья является переводом статьи How To Understand Derivatives: The Product, Power & Chain Rules.


Автор оригинала: Kalid Azad, перевёл: Филипп Сорокин.




Введение


Мне кажется, что правила для взятия производных слишком запутаны и сложны для понимания. Правила сложения, произведения, деления – как они согласуются друг с другом? Чего мы пытаемся добиться, применяя их?


Мой взгляд на производные:


- У нас есть некоторая система для анализа, наша функция f

- Производная f’ (она же df/dx) – это её поведение момент за моментом

- Может оказаться так, что f является частью большей системы (h = f + g)

- Сможем ли мы выяснить, как ведёт себя целая система, изучая поведение её частей?


Да. У каждой части системы есть своя «точка зрения» на то, сколько изменений она вносит. Для получения общего поведения системы мы должны объединить точки зрения всех её частей. Каждое правило дифференцирования является примером объединения различных точек зрения.


Но почему бы нам не проанализировать всю систему целиком? По той же причине, по которой мы не съедаем гамбургер за один укус: маленькие части проще укладываются в голове.


Вместо того, чтобы запоминать отдельные правила, давайте посмотрим на них вместе:


Таблица с рассматриваемыми правилами и их объяснением

Ваша цель – интуитивное понимание того, как сочетаются части системы. Это понимание охватывает правила сложения, произведения, степени и цепное правило. Вперёд!




Функции: Что угодно, но не графики


Часто в мат. анализе в качестве примера можно встретить функцию «f(x) = x2» вместе с графиком. Поможет ли график нашему интуитивному пониманию?


Я так не думаю. Графики отображают входящее и исходящее значения функции, как одну кривую, при этом скрывая сам механизм, который преобразует первое во второе. Но правила дифференцирования тесно связаны с механизмом, давайте взглянем.


Я представляю функцию как процедуру «Ввод (x) => f => Вывод (y)».


Ввод (x) => f => Вывод (y)

Это не только мой подход. Взгляните на удивительный, механический компьютер наведения (сериал на youtube с начала).


Механизм вычисляет функции, основанные на операциях, таких как сложение и умножение, при помощи шестерёнок – вы можете взглянуть на развертку механизма!


Кадры из видео, показывающие срез механизма с шестерёнками

Представьте себе функцию f, как механизм с рычагом «x» на входе и рычагом «y» на выходе. Когда мы тянем за x, f устанавливает высоту для y. Другая аналогия: x – входящий сигнал, f принимает его, пропускает через какой-то магический алгоритм и выплёвывает сигнал y. Мы можем использовать любую понятную аналогию (перевод этой статьи и других из серии статей про развитие математической интуиции будет позже – прим. пер.).




Сдвиги, сдвиги, сдвиги


Производная – это «помоментное» поведение функции. Что это значит? (Не следует бормотать бездумно, что «производная – это наклон кривой». Где ты тут увидел графики, приятель?)


Производная – это то, как как движемся. Рычаг находится на x, мы «шевелим» его и видим, как меняется значение y. «О, мы передвинули рычаг на входе на 1 мм, а рычаг на выходе при этом сдвинулся на 5 мм. Интересно.»


Результат может быть записан как «количество движения на выходе за движение на входе» или «dy/dx» (5 мм / 1 мм = 5, как в нашем случае). Результатом обычно является формула, а не статическое значение, поскольку результат может зависеть от входящего значения.


Например, когда f(x) = x2, производная равна 2x. Да, ты это помнишь. Но что имеется в виду?


Если наше входящее значение x = 10, и мы слегка шевелим его (сдвигая на dx=0.1, до 10.1), исходящее значение должно измениться на dy. На сколько именно?


- Мы знаем, что f’(x) = dy/dx = 2 * x

- Когда x = 10, «количество движения на выходе за движение на входе» будет 2 * 10 = 20. Исходящее значение смещается на 20 единиц за смещение на одну единицу входящего значения.

- Если dx = 0.1, то dy = 20 * 0.1 = 2


И действительно, разница между 102 и (10.1)2 около 2. Производная помогла определить, насколько далеко сдвинется рычаг на выходе (идеальное, бесконечно малое движение сдвинет его на 2 единицы; мы сдвинули на 2.01).


Ключ к пониманию правил производных:


- Берём систему

- Шевелим каждой частью системы по отдельности и смотрим, насколько смещается результат на выходе

- Объединяем результаты

Общий сдвиг – это сумма сдвигов каждой части.




Сложение и вычитание


Пришло время для нашей первой системы:


h(x) = f(x) + g(x)
h(x) = f(x) + g(x)

Что происходит, когда изменяется входящий параметр (x)?


Я размышляю в голове так: «Функция h принимает один аргумент. Она передаёт его же в функции f и g, а то, что получает от них на выходе, складывает. Функции f и g работают независимо и даже не знают о существовании друг друга!»


Функция f знает, что она способствует некоторому движению (df), g также знает, что способствует некоторому движению (dg), а мы, являясь их надзирателями, знаем о том, что каждая из них вкладывает в систему:


Схематичное представление вклада f и g в систему

Давайте снова опишем каждую «точку зрения»:


- Вся система имеет поведение dh

- Функция f, со своей точки зрения, вносит вклад df [она не знает о существовании g]

- Функция g, со своей точки зрения, вносит вклад dg [она не знает о существовании f]


Каждое изменение в системе происходит из-за изменений в какой-то из её частей (f и g). Если мы сложим вклады каждой возможной переменной, мы сможем описать всю систему.




df или df/dx


Иногда мы пишем df, иногда df/dx – в чём разница? (Когда-то это меня смущало.)


- df – означает в общем «насколько изменяется f»

- df/dx – означает в частности «насколько изменяется f с учётом изменения x»


Просто «df» позволяет нам увидеть общее поведение.


Аналогия: представьте, что вы путешествуете по стране и хотите узнать эффективность использования топлива вашим автомобилем. Вы измеряете пройденное расстояние, проверяете свой бак, чтобы увидеть, какое количество топлива было использовано и, наконец, делите одно на другое, чтобы вычислить количество пройденных «миль на галлон» (miles per gallon – единицы объёма топлива, принятые в США – прим. пер.). Вы измеряете расстояние и топливо по отдельности – вам не нужно запрыгивать в бензобак, чтобы узнать скорость расхода топлива на ходу!


Иногда в мат. анализе нам нужно думать о фактическом изменении, а не о соотношении. Работа на общем уровне с «df» даёт нам возможность понять, как функция изменяется глобально. В конце концов, мы сможем уменьшить этот показатель, если захотим взглянуть с точки зрения конкретного вклада.


И мы сделаем это сейчас. Ранее упомянутое правило сложения может быть описано на основе «по dx», как:


dh/dx = df/dx + dg/dx


Умножение (правило произведения)


Следующая задача: предположим, что наша система перемножает части «f» и «g». Как всё это себя поведёт?


h(x) = f(x) * g(x)

Хм, стало сложнее – теперь части взаимодействуют более тесно. Но стратегия остаётся та же: определить вклад каждой части с её точки зрения, а затем объединить эти вклады.


Общее изменение в h = вклад f (с точки зрения f) + вклад g (с точки зрения g)

Посмотрите на эту диаграмму:


Схематичное представление правила произведения на примере площади прямоугольника

Что здесь происходит?


- У нас есть наша система: f и g перемножаются, давая h (как площадь прямоугольника).

- Где-то входящая переменная «x» сдвигается на dx. f сдвигается на некоторую величину df (абсолютно, не относительно). Таким же образом сдвигается g, на некоторую величину dg. Из-за того, что f и g сдвинулись, расширяется также и площадь прямоугольника.

- Как изменилась площадь с точки зрения f? Ну, f знает о своём сдвиге на df, но при этом не имеет понятия о том, что случилось с g. С точки зрения f, только его собственное значение сдвинулось и расширило площадь на некоторый кусочек = df * g.

- Таким же образом, g не знает об изменении f, но знает о своём собственном вкладе «dg * f» в площадь.


Общее изменение в системе (dh) – это два кусочка площади:


dh = f * dg + g * df

Теперь, как и в случае примером с милями на галлон, мы «делим на dx», чтобы записать систему с точки зрения изменений в x:


dh/dx = f * dg/dx + g * df/dx

(Отступление: Деление на dx? Инженеры кивнут, математики нахмурятся. Технически df/dx не является дробью: это целиком операция взятия производной (с пределами и всяким таким). Но мы, посвящённые в бесконечно малые числа, интуитивно «масштабируем по dx». Я улыбнулся.)


Ключ к пониманию правила произведения: добавьте две «части площади», по одной на каждую точку зрения.


Подвох: Но разве изменение обоих значений f и g (df * dg) не даёт никакого эффекта? (Имеется в виду та часть площади, которая образуется в правом верхнем углу прямоугольника на последней схеме – прим. пер.)


Да. Однако, эта площадь состоит из двух перемноженных бесконечно малых измерений («бесконечно малое 2-го порядка»), она не видна на текущем уровне. Это сложная концепция, но (df * dg) / dx просто исчезает в сравнении с обычными производными типа df/dx. Мы изменяем f и g независимо и объединяем результаты, игнорируя при этом результат от их совместного движения.




Цепное правило: Всё не так уж плохо


Давайте предположим, что g зависит от f, а f, в свою очередь, зависит от x.


y = g(f(x))
Схематичное представление системы y = g(f(x))

Цепное правило позволяет нам рассмотреть функцию под увеличительным стеклом и проследить, как начальное изменение (x) может влиять на конечный результат на протяжении линии (g).


Интерпретация 1: Преобразование скорости


Распространено толкование на примере умножения скорости:


dg/dx = dg/df * df/dx

С помощью x двигается f. Это даёт скорость изменения df/dx, которая двигает g в dg/df. Движение целиком:


dg/df * df/dx

Очень похоже на методы «факторного анализа»:


миль в секунду = миль в час * 1/3600

Если нужно изменить единицы измерения, «мили в секунду» достаточно просто умножить на коэффициент для получения значения в «милях в час». Секунды ничего не знают про часы – они проходят через промежуточную конвертацию: секунды => минуты.


Точно также, g не знает об x напрямую, а знает только об f. Функция g знает, что она должна отмасштабировать свои входящие данные по dg/df и выдать исходящие. Начальная скорость (df/dx) изменяется по мере продвижения вверх по цепочке.


Интерпретация 2: Преобразование движения


Мне больше нравится представлять цепное правило с точки зрения движения.


- x смещается на dx, так что

- f смещается на df, так что

- g смещается на dg


Отлично. Но как здесь на самом деле взаимосвязь? Ах да, производные! (Это количество движения на выходе за движение на входе):


df = dx * df/dx

Помните, производная от f (df/dx) – это показатель того, насколько велико масштабирование изначального движения. То же самое происходит и с g:


dg = df * dg/df

Он отмасштабирует любое движение, которое поступит от рычага на входе (f) по dg/df. Если мы описываем движение на df с точки зрения dx:


dg = (dx * df/dx) * dg/df

У нас есть другая версия цепного правила: dx запускает цепь, приводящую к некоторому конечному результату dg. Если мы хотим получить окончательное движение с точки зрения dx, мы должны разделить обе стороны на dx:


dg/dx = df/dx * dg/df

Цепное правило – это не просто факторный анализ – это распространяющееся движение, регулируемое на каждом шагу.


Цепное правило может работать с несколькими переменными (a зависит от b, зависящего от c), для этого нужно просто продолжать добавлять сдвиги по мере обхода.


Попробуйте представить себе «масштабирование» с точки зрения другой переменной. Начиная с dx и глядя вверх, вы видите всю цепочку преобразований, которые необходимо произвести перед тем, как импульс достигнет g.




Цепное правило: Время примеров


Предположим, мы поставим «механизм, возводящий в квадрат» перед «механизмом, возводящим в куб»:


ввод(x) => f:x2 => g:f3 => вывод(y)

f:x2 означает, что f возводит в квадрат своё входящее значение. g:f3 означает, что g возводит в куб своё входящее значение, а именно результат от f. Например:


ввод(2) => f(2) => g(4) => вывод:64

Сначала f возвёл 2 в квадрат (22 = 4), затем g возвёл это в куб (43 = 64). Вместе они представляют из себя механизм, возводящий в 6 степень:


g(f(x)) = (x^2)^3

И какая же будет производная?


dg/dx = dg/df * df/dx

- f изменяет входящее движение на df/dx = 2x

- g изменяет входящее движение на dg/df = 3f2


Конечное изменение:


3f^2 * 2x = 3(x^2)^2 * 2x = 3x^4 * 2x = 6x^5


Цепное правило: Подвохи


Функции обрабатывают свои входящие данные как единое целое.


В примере производная g («(x3)’ = 3x2») не обращается к значению «x», т.к. не важно, какие входящие данные поступают ((foo3)’ = 3*foo2). Входящим значением функции является результат функции f, который рассматривается, как единое значение. Уже позже мы переписываем f с точки зрения x. Но g не имеет к этому никакого отношения – ему всё равно, будет ли f переписан с точки зрения более мелких составляющих.


Во многих примерах переменная «x» является «концом цепи».


Вопросом обычно является df/dx, т.е.: «Предоставьте мне изменения с точки зрения x». В свою очередь x может зависеть от какой-то другой переменной более глубокого порядка, но это уже выходит за рамки вопроса. Это как сказать: «Я хочу мили в час. Меня не волнуют мили в минуту или мили в секунду. Просто подайте мне мили в час». df/dx означает: «Прекратите поиск входящих значений, как только доберётесь до x».


Почему мы умножаем производные с помощью цепного правила, но складываем в других случаях?


Обычно правила связаны с объединением точек зрения для получения общей картины. Какие изменения наблюдает f? Какие изменения наблюдает g? Просто сложите их в общую сумму.


Цепное правило состоит в том, чтобы углубиться в одну часть (такую, как f) и посмотреть, управляется ли она другой переменной. Это как смотреть внутрь часов и говорить: «Эй, минутная стрелка управляется секундной стрелкой!». Мы остаёмся внутри одной части, переходя к другой.


В конце концов эта «посекундная» точка зрения f может быть прибавлена к некоторой точке зрения g. Замечательно. Но цепное правило – больше как о погружении глубже в первопричины f.




Правило степени: Часто запоминается, редко понимается


Какая производная от x4? 4x3? Верно. Вы вынесли чисто из степени в множитель, а степень уменьшили на единицу. Теперь объясните, почему?!


Хм. Есть несколько подходов к объяснению, вот мою любимый: x4 на самом деле это x * x * x * x. Это умножение 4 «независимых» переменных. Каждая переменная x ничего не знает о других, общую функцию можно представить так: x * u * v * w.


Теперь подумайте о точке зрения первого x:


- Она изменяется с x до x + dx

- Изменение в общей функции выглядят так: [(x + dx) - x][u * v * w] = dx[u * v * w]

- Изменение на основе «по dx»: [u * v * w]


Таким образом,


- С точки зрения u, он меняется на du. Он вносит свой вклад (du/dx)*[x * v * w] на основе «по dx»

- v вносит вклад (dv/dx) * [x * u * w]

- w вносит вклад (dw/dx) * [x * u * v]


Занавес открыт: x, u, v и w – это одно и то же! Коэффициент «точки зрения» – это 1 (du/dx = dv/dx = dw/dx = dx/dx = 1), а общее изменение такое:


(x * x * x) + (x * x * x) + (x * x * x) + (x * x * x) = 4x^3

Одним предложением: производная от x4 равна 4x3, потому что у x4 есть четыре идентичные «точки зрения», которые складываются. Ура!




Передышка



Я надеюсь, вам удалось увидеть производную в новом свете: у нас есть система частей, мы шевелим рычагом на входе и смотрим, как всё это движется. Речь об объединении точек зрения: какой вклад в целое вносит каждая из частей?


В следующей статье мы рассмотрим ещё более мощные правила (связанные с экспонентами, коэффициентами и логарифмами). Счастливой математики!




Статьи из серии про мат. анализ от Kalid Azad:




Комментарии

Данная страница не является рекламой