1 00:00:08,124 --> 00:00:10,742 Рабочие станции и топовые персональные компьютеры справляются 2 00:00:10,742 --> 00:00:14,749 с обработкой цифрового звука довольно легко последние пятнадцать лет. 3 00:00:14,749 --> 00:00:17,470 Только около пяти лет приличные рабочие станции способны 4 00:00:17,470 --> 00:00:21,643 справляться с несжатым видео без кучи дорогого специализированного оборудования. 5 00:00:21,643 --> 00:00:25,400 Но сегодня даже самый дешевый домашний компьютер имеет процессор и 6 00:00:25,400 --> 00:00:28,092 жесткий диск, достаточные, чтобы реально раскидывать несжатое видео, 7 00:00:28,092 --> 00:00:30,479 по крайней мере, без излишнего напряжения. 8 00:00:30,479 --> 00:00:33,579 Итак, теперь, когда у каждого есть все это необходимое недорогое оборудование, 9 00:00:33,579 --> 00:00:36,651 все больше людей, что неудивительно, хотят заниматься интересными 10 00:00:36,651 --> 00:00:39,908 вещами с цифровым контентом, особенно потоковым воспроизведением. 11 00:00:39,908 --> 00:00:44,017 YouTube явился первым огромным успехом, и теперь каждый хочет поучаствовать. 12 00:00:44,017 --> 00:00:47,413 Ну хорошо! Потому что это очень весело! 13 00:00:48,250 --> 00:00:51,179 Совсем не проблема найти потребителя цифрового контента. 14 00:00:51,179 --> 00:00:54,649 Но здесь я бы хотел обратиться к инженерам, к математикам, 15 00:00:54,649 --> 00:00:57,869 хакерам, людям, заинтересованным в открытиях, 16 00:00:57,869 --> 00:01:01,302 создании вещей и создании самих технологий. 17 00:01:01,302 --> 00:01:03,282 Людям, близким мне по духу. 18 00:01:04,250 --> 00:01:08,723 Цифровой контент, особенно сжатие, воспринимается как что-то сверх-элитное, 19 00:01:08,723 --> 00:01:12,822 почему-то невероятно более сложное, чем что-либо другое в компьютерной науке. 20 00:01:12,822 --> 00:01:15,700 Крупные индустриальные игроки в этой области вообще не против такого восприятия; 21 00:01:15,700 --> 00:01:19,734 это помогает оправдывать ошеломляющее количество фундаментальных патентов, которые они держат. 22 00:01:19,734 --> 00:01:23,870 Им нравится образ, представляющий их исследователей лучшими из лучших, 23 00:01:23,870 --> 00:01:27,738 которые настолько умнее всех остальных, что их блестящие идеи не могут 24 00:01:27,738 --> 00:01:29,903 быть даже поняты простыми смертными. 25 00:01:30,625 --> 00:01:33,716 Это чушь. 26 00:01:35,205 --> 00:01:38,900 Цифровое аудио, видео, потоковая передача и сжатие 27 00:01:38,900 --> 00:01:42,738 представляют бесконечно глубокие и стимулирующие умственные испытания, 28 00:01:42,738 --> 00:01:44,662 как и любая другая дисциплина. 29 00:01:44,662 --> 00:01:47,929 Это выглядит элитным, потому что слишком мало людей вовлечены. 30 00:01:47,929 --> 00:01:51,223 Так мало людей были вовлечены, возможно, потому, что так мало людей 31 00:01:51,223 --> 00:01:54,665 могли позволить себе необходимое дорогое специализированное оборудование. 32 00:01:54,665 --> 00:01:58,792 Но сегодня почти любой смотрящий это видео, имеет дешевый 33 00:01:58,792 --> 00:02:03,317 универсальный компьютер, достаточно мощный, чтобы играть с большими парнями. 34 00:02:05,926 --> 00:02:11,108 Сегодня идут сражения вокруг HTML5, браузеров, 35 00:02:11,108 --> 00:02:13,671 видео и открытого против закрытого. 36 00:02:13,671 --> 00:02:17,048 Поэтому, сейчас самое подходящее время принять участие. 37 00:02:17,048 --> 00:02:20,000 Легче всего начать, возможно, с понимания 38 00:02:20,000 --> 00:02:22,619 имеющейся у нас технологии. 39 00:02:23,500 --> 00:02:25,071 Это - вступление. 40 00:02:25,071 --> 00:02:28,180 Поскольку это вступление, оно опускает массу деталей, 41 00:02:28,180 --> 00:02:30,882 так что большую картину несколько легче понять. 42 00:02:30,882 --> 00:02:33,908 Порядочное число смотрящих уже знакомы со всем, 43 00:02:33,908 --> 00:02:36,378 о чем я буду говорить, по крайней мере пока. 44 00:02:36,378 --> 00:02:39,293 С другой стороны, возможно, я буду рассказывать слишком быстро для тех, 45 00:02:39,293 --> 00:02:44,558 кто совсем не знаком со всем этим, поэтому, если все это ново для вас, расслабьтесь. 46 00:02:44,558 --> 00:02:48,629 Важно выделить все идеи, которые действительно захватывают ваше воображение. 47 00:02:48,629 --> 00:02:52,497 Особенно уделите внимание терминологии, связанной с этими идеями, 48 00:02:52,479 --> 00:02:56,078 потому что с ними, а так же с Гуглом и Википедией, вы можете копать 49 00:02:56,078 --> 00:02:57,753 настолько глубоко, насколько вы заинтересованы. 50 00:02:57,753 --> 00:03:00,094 Итак, без лишних церемоний, 51 00:03:00,094 --> 00:03:03,351 добро пожаловать вчертовски хорошее хобби. 52 00:03:10,291 --> 00:03:13,030 Звук - это распространение волн давления по воздуху, 53 00:03:13,030 --> 00:03:16,981 расходящихся от источника подобно кругам на воде от брошенного в пруд камня. 54 00:03:16,981 --> 00:03:19,489 Микрофон, или человеческое ухо в его роли, 55 00:03:19,489 --> 00:03:22,876 преобразовывает эту распространяющуюся пульсацию в электрический сигнал. 56 00:03:22,876 --> 00:03:25,800 Верно, это курс средней школы, это помнит каждый. 57 00:03:25,800 --> 00:03:26,771 Двигаемся дальше. 58 00:03:27,465 --> 00:03:32,527 Этот аудиосигнал является одномерной функцией, единственным значением, изменяющимся во времени. 59 00:03:32,527 --> 00:03:34,248 Если мы немного замедлим осциллограф... 60 00:03:36,450 --> 00:03:38,190 это будет несколько легче увидеть. 61 00:03:38,190 --> 00:03:40,688 Также важны несколько других аспектов сигнала. 62 00:03:40,688 --> 00:03:43,418 Он непрерывен и во времени и в значениях; 63 00:03:43,418 --> 00:03:46,813 то есть, в любой момент времени у него есть действительное значение, 64 00:03:46,813 --> 00:03:50,228 а также его значение плавно меняется от одной точки во времени к другой. 65 00:03:50,228 --> 00:03:52,439 Не важно, насколько мы увеличиваем масштаб, 66 00:03:54,068 --> 00:03:58,510 не будет никаких разрывов, сингулярностей, мгновенных изменений значений 67 00:03:58,510 --> 00:04:01,285 или точек, в которых сигнал прекращает существовать. 68 00:04:03,247 --> 00:04:08,475 Он определён везде. Классическая непрерывная математика хорошо применима к этим сигналам. 69 00:04:11,001 --> 00:04:15,378 Цифровой сигнал, с другой стороны, является дискретным по значению и по времени. 70 00:04:15,378 --> 00:04:19,107 В самой простой и наиболее общепринятой системе, которая называется "импульсно-кодовая модуляция", 71 00:04:19,107 --> 00:04:24,058 каждое из фиксированного числа значений напрямую представляет амплитуду непрерывного сигнала 72 00:04:24,058 --> 00:04:30,165 в точках времени, разделённых равными промежутками. Конечным результатом является поток чисел. 73 00:04:30,674 --> 00:04:35,309 Теперь это выглядит ужасно похоже на это. 74 00:04:35,309 --> 00:04:38,964 Кажется интуитивным, что должен быть способ как-то строго преобразовывать 75 00:04:38,964 --> 00:04:44,683 одно в другое, и, хорошие новости, теорема отсчетов гласит, что мы можем, и рассказывает, как. 76 00:04:44,683 --> 00:04:48,477 Опубликованная в своей самой известной форме Клодом Шенноном в 1949 77 00:04:48,477 --> 00:04:52,409 и основанная на работах Найквиста и Хартли, и многих других, 78 00:04:52,409 --> 00:04:56,138 теорема отсчетов не только утверждает, что мы можем переходить туда-обратно между 79 00:04:56,138 --> 00:05:00,913 аналоговым и цифровым представлением, но также устанавливает ряд условий, при которых конверсия 80 00:05:00,913 --> 00:05:06,779 происходит без потерь и два представления становятся эквивалентными и взаимозаменяемыми. 81 00:05:06,779 --> 00:05:10,601 Когда эти условия не выполняются, теорема отсчетов говорит нам, 82 00:05:10,601 --> 00:05:14,247 как и сколько информации потеряно или испорчено. 83 00:05:14,900 --> 00:05:21,270 До самого последнего времени, аналоговая технология была основой для практически всей работы со звуком, 84 00:05:21,270 --> 00:05:25,267 и не только потому, что большинство аудиоданных имеют аналоговое происхождение. 85 00:05:25,267 --> 00:05:28,450 Вы могли подумать, что раз компьютеры появились относительное недавно, 86 00:05:28,450 --> 00:05:31,643 технология аналогового сигнала, должно быть, появилась первой. 87 00:05:31,643 --> 00:05:34,428 Нет. Цифровая, на самом деле, старше. 88 00:05:34,428 --> 00:05:37,611 Телеграф предшествовал телефону на полвека 89 00:05:37,611 --> 00:05:41,951 и был почти полностью механически автоматизирован к 1860м, посылая закодированные, 90 00:05:41,951 --> 00:05:46,476 мультиплексированные цифровые сигналы на длинные дистанции. Вы знаете... Телеграфная лента. 91 00:05:46,476 --> 00:05:50,427 Гарри Найквист из Bell Labs исследовал импульсную телеграфическую передачу, 92 00:05:50,427 --> 00:05:53,027 когда опубликовал своё описание того, что потом стало известно как 93 00:05:53,027 --> 00:05:57,219 частота Найквиста, ключевая концепция теоремы отсчетов. 94 00:05:57,219 --> 00:06:01,642 Теперь правда в том, что телеграф передавал символьную информацию, текст, 95 00:06:01,642 --> 00:06:06,883 а не оцифрованный аналоговый сигнал, но с пришествием телефона и радио 96 00:06:06,883 --> 00:06:12,000 технологии аналогового и цифрового сигнала развивались быстро бок о бок. 97 00:06:12,699 --> 00:06:18,732 Аудио всегда обрабатывалось как аналоговый сигнал потому что... ну, это настолько легче! 98 00:06:18,732 --> 00:06:23,257 Фильтр низких частот второго порядка, например, требует двух пассивных компонентов. 99 00:06:23,257 --> 00:06:26,505 Полностью аналогичное кратковременное преобразование Фурье - нескольких сотен. 100 00:06:26,505 --> 00:06:30,752 Хорошо, возможно, тысячи, если вы хотите собрать что-то действительно хорошее. 101 00:06:31,844 --> 00:06:35,989 Обработка сигналов цифровым способом требует от миллионов до миллиардов транзисторов, 102 00:06:35,989 --> 00:06:40,366 работающих на микроволновых частотах, аппаратную поддержку по меньшей мере оцифровки 103 00:06:40,366 --> 00:06:43,836 и реконструкции аналоговых сигналов, законченную программную экосистему 104 00:06:43,836 --> 00:06:47,362 для программирования и управления этим миллиардно-транзистроным Джаггернаутом, 105 00:06:47,362 --> 00:06:51,091 и цифровое хранилище, на тот случай, если вы хотите сохранить результаты на будущее... 106 00:06:51,091 --> 00:06:56,171 Таким образом, мы приходим к выводу, что только аналоговый подход практичен для работы с аудио... 107 00:06:56,171 --> 00:07:07,019 ну, по крайней мере, если у вас не завалялись миллиард транзисторов и все остальное. 108 00:07:07,850 --> 00:07:12,660 А поскольку у нас завалялись, цифровая обработка сигнала становится очень заманчивой. 109 00:07:13,363 --> 00:07:18,906 Во-первых, аналоговые комплектующие просто не имеют гибкости компьютера общего назначения. 110 00:07:18,906 --> 00:07:21,182 Добавление новой функции в этого зверя... 111 00:07:22,191 --> 00:07:24,578 да, вероятно, этого не произойдёт. 112 00:07:24,578 --> 00:07:26,567 Хотя на цифровом процессоре... 113 00:07:28,668 --> 00:07:34,127 ...просто напишите новую программу. Программирование не тривиально, но оно намного легче. 114 00:07:34,127 --> 00:07:39,550 Возможно более важно, что каждый аналоговый компонент является приближением. 115 00:07:39,550 --> 00:07:44,352 Не существует такой вещи как идеальный транзистор или идеальный проводник, или идеальный конденсатор. 116 00:07:44,352 --> 00:07:51,569 В аналоговой обработке каждый компонент добавляет шума и искажений, обычно не очень много, но они суммируются. 117 00:07:51,569 --> 00:07:55,669 Одна только передача аналогового сигнала, особенно на длинные дистанции, 118 00:07:55,669 --> 00:08:00,434 постепенно, умеренно, необратимо портит его. 119 00:08:00,434 --> 00:08:06,513 Кроме того, все эти одноцелевые аналоговые компоненты занимают много места. 120 00:08:06,513 --> 00:08:09,946 Две строки кода на миллиарде транзисторов здесь 121 00:08:09,946 --> 00:08:14,702 могут реализовать фильтр, который бы потребовал индуктора размером с холодильник. 122 00:08:14,702 --> 00:08:17,941 Цифровые системы не имеют этих недостатков. 123 00:08:17,941 --> 00:08:24,335 Цифровые сигналы могут храниться, копироваться, обрабатываться и передаваться без наложения шумов и искажений. 124 00:08:24,335 --> 00:08:26,889 Да, мы используем время от времени алгоритмы с потерей, 125 00:08:26,889 --> 00:08:31,284 но единственно неизбежными неидеальными шагами являются оцифровка и восстановление, 126 00:08:31,284 --> 00:08:35,929 когда цифровое должно взаимодействовать со всем этим неряшливым аналоговым. 127 00:08:35,929 --> 00:08:40,750 Неряшливые или нет, современные этапы преобразования очень, очень хороши. 128 00:08:40,750 --> 00:08:45,849 По меркам наших ушей, мы можем также считать их без потерь. 129 00:08:45,849 --> 00:08:50,429 С небольшим дополнительным оборудованием, большинство из которого компактно и недорого 130 00:08:50,429 --> 00:08:55,379 благодаря нашей современной промышленной инфраструктуре, цифровое аудио одерживает чистую победу над аналоговым. 131 00:08:55,379 --> 00:09:00,857 Давайте тогда перейдем к хранению, копированию, обработке и передаче. 132 00:09:04,956 --> 00:09:08,639 Импульсно-кодовая модуляция - самое распространенное представление необработанного аудио. 133 00:09:08,639 --> 00:09:13,867 Существуют и другие представления, например, сигма-дельта кодирование, используемое в SACD, 134 00:09:13,867 --> 00:09:16,625 которое является разновидностью импульсно-кодовой модуляции. 135 00:09:16,625 --> 00:09:19,687 Что говорит, что импульсно-кодовая модуляция значительно доминирует, 136 00:09:19,687 --> 00:09:22,158 главным образом потому, что она так математически удобна. 137 00:09:22,158 --> 00:09:26,350 Аудио инженер может провести целую карьеру, не работая ни с чем другим. 138 00:09:26,350 --> 00:09:29,135 Кодирование ИКМ можно охарактеризовать тремя параметрами, 139 00:09:29,135 --> 00:09:34,187 что позволяет посчитать каждый возможный вариант ИКМ без больших хлопот. 140 00:09:34,187 --> 00:09:36,426 Первый параметр - это частота дискретизации. 141 00:09:36,426 --> 00:09:40,886 Наивысшая частота, которую кодирование может передать, называется частотой Найквиста. 142 00:09:40,886 --> 00:09:45,124 Частота Найквиста ИКМ равняется ровно половине частоты дискретизации. 143 00:09:45,124 --> 00:09:51,389 Следовательно, частота дискретизации непосредственно определяет наивысшую возможную частоту в оцифрованном сигнале. 144 00:09:51,389 --> 00:09:56,515 Аналоговые телефонные системы традиционно ограничивали полосу голосовых каналов до чуть менее, чем 4 кГц, 145 00:09:56,515 --> 00:10:02,224 поэтому цифровая телефония и самые классические голосовые приложения используют частоту дискретизации 8 кГц, 146 00:10:02,224 --> 00:10:07,277 минимальную частоту, необходимую для охвата целевой полосы в 4 кГц. 147 00:10:07,227 --> 00:10:14,263 Вот как звучит частота дискретизации в 8 кГц--- немного приглушенно, но совсем разборчиво для голоса. 148 00:10:17,263 --> 00:10:18,149 Это самая низкая частота дискретизации, когда-либо широко использованная на практике. 149 00:10:18,149 --> 00:10:23,322 С этих пор, с увеличением производительности, памяти и накопителей, компьютеры потребителей 150 00:10:23,322 --> 00:10:29,642 смогли обеспечить частоту 11, потом 16, потом 22, а потом - 32 кГц. 151 00:10:29,642 --> 00:10:33,491 Очевидно, что с каждым увеличением частоты дискретизации и частоты Найквиста, 152 00:10:33,491 --> 00:10:38,302 качество звучания топовых конфигураций становится немного чище и звучит более естественно. 153 00:10:38,301 --> 00:10:44,576 Compact-Disk использует частоту дискретизации 44,1 кГц, которая немного лучше, чем 32 кГц, 154 00:10:44,576 --> 00:10:46,788 но улучшения становятся все менее различимыми. 155 00:10:46,788 --> 00:10:52,053 44,1 кГц - это несколько странноватый выбор, особенно при том, что он никогда не использовался 156 00:10:52,053 --> 00:10:56,559 до Compact-Disk, но огромный успех компакт-дисков сделал его общепринятой частотой. 157 00:10:56,559 --> 00:11:01,195 Наиболее распространённой частотой дискретизации высокого качества за пределами CD является 48 кГц. 158 00:11:05,710 --> 00:11:08,597 Фактически между ними нет ощутимой разницы в звучании. 159 00:11:08,597 --> 00:11:13,640 Это видео, по крайней мере его оригинальная версия, была снята и выпущена с аудио 48 кГц, 160 00:11:13,640 --> 00:11:18,545 что является первоначальным стандартом для высококачественного звука в видеозаписях. 161 00:11:18,545 --> 00:11:25,100 Сверхвысококачественные частоты дискретизации в 88, 96 и 192кГц также имели место. 162 00:11:25,100 --> 00:11:30,888 Суть в дискретизации на частоте выше 48 кГц заключается не в дальнейшем расширении высокочастотного диапазона. 163 00:11:30,888 --> 00:11:32,489 Его суть в другом. 164 00:11:32,896 --> 00:11:37,319 Отвлекаясь на секунду, скажу, что французский математик Жан Батист Жозеф Фурье 165 00:11:37,319 --> 00:11:42,353 показал, что мы также можем рассматривать сигналы вроде аудио как набор составных частот. 166 00:11:42,353 --> 00:11:45,841 Это представление частотной области эквивалентно временному представлению; 167 00:11:45,841 --> 00:11:49,719 сигнал точно такой же, просто мы рассматриваем его по-другому. 168 00:11:49,719 --> 00:11:56,131 Здесь мы видим представление частотной области гипотетического аналогового сигнала, который мы собираемся оцифровать. 169 00:11:56,131 --> 00:11:59,888 Теорема Найквиста-Шеннона рассказывает о двух вещах, связанных с процессом дискретизации. 170 00:11:59,888 --> 00:12:04,727 Во-первых, цифровой сигнал не может передавать частоты выше частоты Найквиста. 171 00:12:04,727 --> 00:12:10,640 Во-вторых, и это новая часть, если мы не удалим их низкочастотным фильтром перед дискретизацией, 172 00:12:10,640 --> 00:12:16,414 этот процесс обрежет их до допустимого диапазона, создав искажения наложения. 173 00:12:16,414 --> 00:12:20,069 Наложение, в двух словах, звучит ужасно, 174 00:12:20,069 --> 00:12:25,242 поэтому естественно удалять все частоты ниже частоты Найквиста перед дискретизацией и после восстановления. 175 00:12:25,871 --> 00:12:31,265 Считается, что восприятие звука человеком простирается примерно до 20 кГц. 176 00:12:31,265 --> 00:12:37,548 При частоте 44,1 или 48 кГц, фильтрация низких частот перед стадией дискретизации должна быть предельно точной, 177 00:12:37,548 --> 00:12:42,101 чтобы избежать удаления слышимых частот ниже 20 кГц, 178 00:12:42,101 --> 00:12:49,439 и в то же время не допуская попадания частот выше частоты Найквиста в процесс дискретизации. 179 00:12:49,439 --> 00:12:55,342 Этот тяжело реализуемый фильтр и ни один фильтр на практике не преуспел полностью. 180 00:12:55,342 --> 00:13:00,024 С другой стороны, если частота дискретизации 96 кГц или 192 кГц, 181 00:13:00,024 --> 00:13:07,223 низкочастотный фильтр имеет дополнительно октаву или две в диапазоне модуляции. Такой фильтр намного легче построить. 182 00:13:07,223 --> 00:13:14,348 Частоты дискретизации ниже 48 кГц являются на самом деле одним из неприятных компромиссов на аналоговом этапе. 183 00:13:15,014 --> 00:13:20,844 Второй фундаментальный параметр ИКМ - это формат выборки, то есть форма каждого цифрового числа. 184 00:13:20,844 --> 00:13:26,285 Число - это число, но оно может быть представлено несколькими разными путями. 185 00:13:26,942 --> 00:13:30,902 Ранняя ИКМ была линейной 8 битной, кодировалась беззнаковым байтом. 186 00:13:30,902 --> 00:13:37,028 Динамический диапазон ограничен примерно 50 дБ и шум квантования, как вы можете слышать, достаточно резок. 187 00:13:37,028 --> 00:13:39,970 Восьмибитное аудио сегодня исчезающе встречается. 188 00:13:41,007 --> 00:13:47,484 В цифровой телефонии обычно используется одна из двух связанных нелинейных восьмибитных кодировок,называемых А-закон и мю-закон. 189 00:13:47,484 --> 00:13:51,287 Эти форматы кодируют примерно 14 битный динамический диапазон в восьми битах, 190 00:13:51,287 --> 00:13:54,674 раздвигая более высокие значения амплитуды дальше друг от друга. 191 00:13:54,674 --> 00:13:59,226 А-закон и мю-закон, очевидно, улучшают шум квантования в сравнении с линейным 8-битным, 192 00:13:59,226 --> 00:14:03,557 а голосовые гармоники хорошо скрывают оставшийся шум квантования. 193 00:14:03,557 --> 00:14:08,248 Все три восьмибитные кодировки - линейная, А-закон и мю-закон, обычно используются 194 00:14:08,248 --> 00:14:13,328 вместо с частотой дискретизации 8 кГц, хотя я демонстрирую их на 48 кГц. 195 00:14:13,328 --> 00:14:18,491 Большинство современных ИКМ использует знаковые целые 16 или 24 бит с дополнением до двух для кодирования 196 00:14:18,491 --> 00:14:23,858 диапазона от минус бесконечности до нуля децибел с точностью 16 или 24 бита. 197 00:14:23,858 --> 00:14:27,800 Максимальное абсолютное значение соответствует нулю децибел. 198 00:14:27,800 --> 00:14:31,584 Как и во всех современных форматах дискретизации, сигналы выше нуля децибел 199 00:14:31,584 --> 00:14:35,619 и, таким образом, за пределами представимого диапазона, обрезаются. 200 00:14:35,619 --> 00:14:41,199 В микшировании и сведении не является редкостью использование чисел с плавающей точкой для ИКМ вместо целых чисел. 201 00:14:41,199 --> 00:14:47,222 32-битное число с плавающей точкой, обыкновенная разновидность плавающей точки на современных компьютерах, 202 00:14:47,222 --> 00:14:52,793 представляет 24 бит для разрешения, а семь бит плавающей экспоненты увеличивает передаваемый диапазон. 203 00:14:52,793 --> 00:14:57,040 В числах с плавающей точкой, ноль децибел обычно представляется как +/-1.0, 204 00:14:57,040 --> 00:15:00,547 и, поскольку они могут, очевидно, представлять диапазон значительно выше этого, 205 00:15:00,547 --> 00:15:05,220 временно превышение нуля децибел в процессе смешивания не приводит к обрезанию. 206 00:15:05,220 --> 00:15:11,077 ИКМ с плавающей точкой занимает больше объема, поэтому она, как правило, используется только в качестве промежуточного производственного формата. 207 00:15:11,077 --> 00:15:15,796 Наконец, большинство компьютеров общего назначения по-прежнему читают и пишут данные восьмиразрядными байтами, 208 00:15:15,796 --> 00:15:18,489 потому важно помнить, что семплы больше восьми бит 209 00:15:18,489 --> 00:15:22,838 могут быть в порядке big или little endian, и оба порядка распространены. 210 00:15:22,838 --> 00:15:28,751 Например, файлы Microsoft WAV - в little endian, а Apple AIFC - как правило в big-endian. 211 00:15:28,751 --> 00:15:30,139 Имейте это в виду. 212 00:15:30,870 --> 00:15:34,071 Третий параметр ИКМ - это число каналов. 213 00:15:34,071 --> 00:15:38,485 Соглашением в сыром ИКМ является кодирование множества каналов, чередуя семплы каждого 214 00:15:38,485 --> 00:15:43,398 канала вместе в едином потоке. Просто и расширяемо. 215 00:15:43,398 --> 00:15:47,701 Вот и все. Это описывает все возможные представления ИКМ. 216 00:15:47,701 --> 00:15:51,578 Готово. Цифровое аудио _настолько просто_! 217 00:15:51,578 --> 00:15:56,436 Конечно, есть ещё много чего, но на данный момент у нас есть хороший полезный кусок аудиоданных, 218 00:15:56,436 --> 00:15:58,092 давайте добудем также немного видео. 219 00:16:02,571 --> 00:16:08,798 Можно рассматривать видео как аудио, только с двумя пространственными измерениями, X и Y, 220 00:16:08,798 --> 00:16:12,787 в дополнение к измерению времени. Математически, это звук. 221 00:16:12,787 --> 00:16:19,097 Теорема отсчетов применима ко всем трем измерениям видео точно также, как и к одному измерению времени в аудио. 222 00:16:19,097 --> 00:16:25,815 Очевидно, на практике аудио и видео немного различны. С одной стороны, в сравнении с аудио, видео огромно. 223 00:16:25,815 --> 00:16:29,294 Несжатое CD-аудио - это примерно 1,4 мегабита в секунду. 224 00:16:29,294 --> 00:16:33,958 Несжатое видео 1080i HD - более 700 мегабит в секунду. 225 00:16:33,958 --> 00:16:40,056 Приходится захватывать, обрабатывать и сохранять более, чем в 500 раз больше данных в одну секунду. 226 00:16:40,056 --> 00:16:43,711 По закону Мура... выходит... давайте посмотрим... примерно восемь удвоений раз в два года, 227 00:16:43,711 --> 00:16:47,838 так что да, компьютеры требуют около пятнадцати дополнительных лет для овладения несжатым видео 228 00:16:47,838 --> 00:16:51,252 после укрощения несжатого аудио. 229 00:16:51,252 --> 00:16:55,425 Основы сырого видео также несколько сложнее, чем основы сырого аудио. 230 00:16:55,425 --> 00:16:58,599 Большой объем данных в настоящее время требуется представления 231 00:16:58,599 --> 00:17:02,106 более эффективного, чем линейная ИКМ, используемая в аудио. 232 00:17:02,106 --> 00:17:06,705 К тому же, электронное видео происходит практически полностью из одного телевизионного вещания, 233 00:17:06,705 --> 00:17:13,423 а комитеты по стандартам, которые регулируют телевещание всегда были очень озабочены обратной совместимостью. 234 00:17:13,423 --> 00:17:17,559 До самых последних лет в США старый, шестидесятилетний черно-белый телевизор 235 00:17:17,559 --> 00:17:21,038 мог по-прежнему показывать обычные аналоговые телевизионные передачи. 236 00:17:21,038 --> 00:17:23,879 На самом деле это действительно искусный трюк. 237 00:17:23,879 --> 00:17:28,718 Недостатком обратной совместимости является то, что если когда-то что-то попадает в стандарт, 238 00:17:28,718 --> 00:17:30,985 вы не можете на самом деле больше никогда выкинуть его. 239 00:17:30,985 --> 00:17:37,305 Электронное видео никогда не переделывалось с нуля, как это было неоднократно с аудио. 240 00:17:37,305 --> 00:17:43,958 Шестьдесят лет стоят умных но устаревших хаков, необходимых в связи с уходом технологии данной эпохи, 241 00:17:43,958 --> 00:17:50,102 образующих на самом деле нагромождение, а поскольку цифровые стандарты также пришли с телевидения, 242 00:17:50,102 --> 00:17:54,664 все эти жуткие хаки были перенесены также и в цифровые стандарты. 243 00:17:54,664 --> 00:18:00,022 Вкратце, в цифровом видео замешано намного больше деталей, чем в аудио. 244 00:18:00,022 --> 00:18:05,592 Нет надежды охватить здесь их все полностью, поэтому мы широко охватим основы. 245 00:18:06,036 --> 00:18:10,857 Наиболее очевидными параметрами сырого видео являются ширина и высота изображения в пикселях. 246 00:18:10,857 --> 00:18:15,882 Так же просто, как это может показаться, разрешение в пикселях само по себе на самом деле не определяет абсолютные 247 00:18:15,882 --> 00:18:22,016 ширину и высоту изображения, поскольку большинство видео, происходящего из телевещания не использует квадратные пиксели. 248 00:18:22,016 --> 00:18:25,005 Число растровых строк в трансляционном изображении было фиксированным, 249 00:18:25,005 --> 00:18:29,021 но действительное количество горизонтальных пикселей зависело от ширины канала. 250 00:18:29,021 --> 00:18:31,945 Действительное горизонтальное разрешение могло приводить к тому, что пиксели 251 00:18:31,945 --> 00:18:35,489 были либо уже, либо шире, чем интервал между строками. 252 00:18:35,489 --> 00:18:38,395 Стандарты в основном указывают, что оцифрованное видео 253 00:18:38,395 --> 00:18:41,902 должно отражать реальное разрешение оригинального аналогового источника, 254 00:18:41,902 --> 00:18:45,566 поэтому большое количество цифрового видео также использует не квадратные пиксели. 255 00:18:45,566 --> 00:18:49,924 Например, обычное NTSC DVD с соотношением 4:3 обычно кодируется 256 00:18:49,924 --> 00:18:55,374 с разрешением экрана 704 на 408, соотношение, более широкое, чем 4:3. 257 00:18:55,374 --> 00:18:59,640 В данном случае сами пиксели получают соотношение 10:11, 258 00:18:59,640 --> 00:19:04,553 что делает их выше собственной ширины и сужает изображение горизонтально до правильного соотношения. 259 00:19:04,553 --> 00:19:09,800 Такое изображение должно проходить ресемплинг для корректного отображения на дисплеях с квадратными пикселями. 260 00:19:10,253 --> 00:19:15,287 Второй очевидный параметр видео - это частота смены кадров, количество полных кадров в секунду. 261 00:19:15,287 --> 00:19:19,655 Активно используются несколько стандартных частот кадров. Цифровое видео, в той или иной форме, 262 00:19:19,655 --> 00:19:23,689 может использовать их все. Или, другую частоту кадров. Или даже переменные частоты, 263 00:19:23,689 --> 00:19:27,113 когда частота кадров адаптивно меняется по ходу видео. 264 00:19:27,113 --> 00:19:32,998 Чем выше частота кадров, тем более плавны движения, и это приводит нас, к сожалению, к интерлейсингу. 265 00:19:32,998 --> 00:19:37,967 В самые ранние дни трансляции видео, инженеры искали наивысшую практическую частоту кадров 266 00:19:37,967 --> 00:19:42,075 для гладкого движения и с минимальным мерцанием на фосфорных ЭЛТ. 267 00:19:42,075 --> 00:19:45,277 Им было необходимо использовать минимальную ширину полосы 268 00:19:45,277 --> 00:19:48,182 для достижения максимального разрешения и наивысшей частоты кадров. 269 00:19:48,182 --> 00:19:51,208 Их решением было "сплетать" видео, когда четные линии отправляются 270 00:19:51,208 --> 00:19:54,826 в один проход и нечетные - в следующий. 271 00:19:54,826 --> 00:19:59,961 Каждый проход называется полем, а два поля как бы образуют законченный кадр. 272 00:19:59,961 --> 00:20:05,319 "Как бы" - потому что четные и нечетные поля на самом деле не принадлежат одному исходному кадру. 273 00:20:05,319 --> 00:20:10,797 В изображении с 60 полями в секунду исходная частота кадров соответствует 60 полным кадрам в секунду, 274 00:20:10,797 --> 00:20:15,386 а половина каждого кадра, каждая лишняя линия, просто отбрасывается. 275 00:20:15,386 --> 00:20:20,272 Вот почему мы не можем применить деинтерлейсинг к видео простым комбинированием двух полей в один кадр; 276 00:20:20,272 --> 00:20:23,039 на самом деле они не из одного и того же кадра. 277 00:20:24,047 --> 00:20:29,683 Электронно-лучевая трубка была единственной доступной технологией отображения на протяжении большей части истории электронного видео. 278 00:20:29,683 --> 00:20:32,949 Выходная яркость ЭЛТ нелинейна, приблизительно равняется 279 00:20:32,949 --> 00:20:36,585 входному управляющему напряжению, возведённому в степень 2,5. 280 00:20:36,585 --> 00:20:43,821 Эта степень, 2,5 - избранная гамма, и поэтому она часто обозначается как гамма дисплея. 281 00:20:43,821 --> 00:20:50,493 Камеры, напротив, являются линейными, и если вы передадите ЭЛТ линейный входной сигнал, это будет выглядеть следующим образом. 282 00:20:51,270 --> 00:20:56,637 Поскольку первоначально было очень мало камер, которые были фантастически дорогими, 283 00:20:56,637 --> 00:21:01,634 и предполагалось много, много телевизоров, которые должны быть как можно менее дорогими, 284 00:21:01,634 --> 00:21:08,222 инженеры решили добавить необходимую схему гамма-коррекции в камеры, а не телевизоры. 285 00:21:08,222 --> 00:21:13,062 Видео, переданное по радиоволнам, таким образом, должно иметь нелинейную интенсивность, используя 286 00:21:13,062 --> 00:21:18,271 обратную степень гаммы телевизора, поэтому, как только сигнал с камеры, наконец, отображен на ЭЛТ, 287 00:21:18,271 --> 00:21:23,305 общий ответ системы камера-телевизор вновь становится линейным. 288 00:21:23,777 --> 00:21:25,118 Почти. 289 00:21:30,393 --> 00:21:33,113 Также есть ещё две настройки. 290 00:21:33,113 --> 00:21:40,442 Телекамера на самом деле использует экспоненту гаммы, обратную 2,2, а не 2,5. 291 00:21:40,442 --> 00:21:43,754 Это просто коррекция для просмотра в темном окружении. 292 00:21:43,754 --> 00:21:48,279 Кроме того, экспоненциальная кривая переходит в линейных закон вблизи черного цвета. 293 00:21:48,279 --> 00:21:52,360 Это просто старый хак для подавления шума датчика в камере. 294 00:21:54,941 --> 00:21:57,347 Гамма-коррекция также имела удачную выгоду. 295 00:21:57,347 --> 00:22:02,214 По воле случая, человеческий глаз имеет гамму восприятия около 3. 296 00:22:02,214 --> 00:22:05,962 Это относительно близко к гамме ЭЛТ, 2,5. 297 00:22:05,962 --> 00:22:10,607 Изображение, использующее гамма-коррекцию уделяет больше разрешения низким интенсивностям, 298 00:22:10,607 --> 00:22:14,336 где, как оказалось, у глаза наилучшая различимость, 299 00:22:14,336 --> 00:22:18,222 а следовательно, использует имеющееся разрешение более эффективно. 300 00:22:18,222 --> 00:22:22,784 Хотя в настоящее время ЭЛТ исчезают, стандартный дисплей компьютера sRGB 301 00:22:22,784 --> 00:22:28,419 по-прежнему использует нелинейную кривую интенсивности, схожую с телевизионной, с линейным законом в области черного, 302 00:22:28,419 --> 00:22:32,491 с экспоненциальной кривой со значением гаммы 2,4. 303 00:22:32,491 --> 00:22:36,636 Это кодирует шестнадцатибитный линейный диапазон в восьми битах. 304 00:22:37,580 --> 00:22:41,790 В человеческом глазу есть три раздельных цветовых канала - красный, зеленый и синий, 305 00:22:41,790 --> 00:22:47,407 и большинство дисплеев использует эти три цвета как компоненты смешивания, чтобы получить полный спектр цветов. 306 00:22:49,258 --> 00:22:54,190 В печати, по той же причине, основными пигментами являются голубой (Cyan), пурпурный (Magenta) и Желтый (Yellow); 307 00:22:54,190 --> 00:22:59,381 пигменты являются вычитаемыми, и каждый из этих пигментов вычитает один чистый цвет из отраженного света. 308 00:22:59,381 --> 00:23:05,682 Голубой вычитает красный, пурпурный вычитает зеленый, а желтый вычитает синий. 309 00:23:05,682 --> 00:23:10,919 Видео может, и иногда бывает, представлено красным, зеленым и синим каналами, 310 00:23:10,919 --> 00:23:17,211 но RGB-видео нетипично. Человеческий глаз намного более чувствителен к яркости, нежели к её цвету, 311 00:23:17,211 --> 00:23:21,329 а RGB стремится распределять энергию на изображение равномерно по всем трем каналам. 312 00:23:21,329 --> 00:23:25,326 Посмотрите, красная плоскость выглядит как красная версия оригинально изображения, 313 00:23:25,326 --> 00:23:28,769 зеленая плоскость выглядит как зеленая версия оригинального изображения, 314 00:23:28,769 --> 00:23:32,063 а синяя плоскость выглядит как синяя версия оригинально изображения. 315 00:23:32,063 --> 00:23:35,705 Черно-белый в тройном объеме. Неэффективно. 316 00:23:35,706 --> 00:23:39,438 По этой причине и потому, что телевидение изначально все равно было черно-белым, 317 00:23:39,438 --> 00:23:45,017 видео обычно представляется как канал яркости высокого разрешения, 318 00:23:45,017 --> 00:23:51,041 черно-белый, вместе с дополнительными, зачастую с меньшим разрешением, каналами цвета. 319 00:23:51,041 --> 00:23:57,074 Канал яркости, Y, получают взвешиванием, а затем сложением отдельных, красного, зеленого и синего сигналов. 320 00:23:57,074 --> 00:24:01,867 Каналы насыщенности (цвета) U и V потом получают вычитанием сигнала яркости из синего, 321 00:24:01,867 --> 00:24:04,070 и вычитанием сигнала яркости из красного. 322 00:24:04,070 --> 00:24:11,750 Когда YUV масштабируется, смещается и дискретизируется для цифрового видео, его на самом деле правильнее называть Y'CbCr, 323 00:24:11,750 --> 00:24:15,238 но более общий термин YUV широко распространен для описания 324 00:24:15,238 --> 00:24:18,301 всех аналоговых и цифровых вариантов данной цветовой модели. 325 00:24:18,912 --> 00:24:22,983 Цветовые каналы U и V могут быть того же разрешения, что и канал Y, 326 00:24:22,983 --> 00:24:28,674 но, поскольку человеческий глаз имеет куда худшее пространственное разрешение насыщенности цвета, нежели разрешение яркости, 327 00:24:28,674 --> 00:24:34,346 разрешение насыщенности обычно берется половиной или даже четвертью в горизонтальном направлении, вертикальном, 328 00:24:34,346 --> 00:24:39,528 или обоих, обычно без какого-либо существенного влияния на качество видимого изображения. 329 00:24:39,528 --> 00:24:43,942 Практически любой возможный вариант субдискретизации был использован в то или иное время, 330 00:24:43,942 --> 00:24:46,875 но сегодня распространенными являются 331 00:24:46,875 --> 00:24:51,187 4:4:4, который, в действительности вообще не субдискретизируется, 332 00:24:51,187 --> 00:24:56,711 4:2:2, в котором горизонтальное разрешение каналов U и V делится пополам, 333 00:24:56,711 --> 00:25:02,587 и наиболее общепринятый из всех, 4:2:0, при котором и горизонтальное и вертикальное разрешения 334 00:25:02,587 --> 00:25:08,897 каналов насыщенности делятся пополам, что приводит к тому, что каждая из плоскостей U и V в четыре раза меньше Y. 335 00:25:08,897 --> 00:25:17,096 Термины 4:2:2, 4:2:0, 4:1:1 и т.д., и т.п. не являются полными описаниями субдискретизации насыщенности. 336 00:25:17,096 --> 00:25:21,186 Существует несколько возможных способов позиционирования пикселей насыщенности относительно пикселей яркости, 337 00:25:21,096 --> 00:25:24,776 и опять, есть несколько активно используемых для каждой субдискретизации. 338 00:25:24,776 --> 00:25:32,502 Например, motion JPEG, MPEG-1 video, MPEG-2 video, DV, Theora и WebM, все используют 339 00:25:32,502 --> 00:25:38,137 или могут использовать субдискретизацию 4:2:0, но они располагают цветовые пиксели тремя разными способами. 340 00:25:38,498 --> 00:25:43,023 Motion JPEG, MPEG1 video, Theora и WebM располагают пиксели насыщенности 341 00:25:43,023 --> 00:25:46,345 горизонтально и вертикально между пикселями яркости. 342 00:25:46,345 --> 00:25:51,989 MPEG2 располагает пиксели насыщенности между линий, но горизонтально выравнивает их с каждым пикселем яркости. 343 00:25:51,989 --> 00:25:57,106 Режимы с интерлейсингом несколько все усложняют, размещая их немного странно. 344 00:25:57,106 --> 00:26:00,909 И наконец, PAL-DV, который всегда использует интерлейсинг, размещает пиксели насыщенности 345 00:26:00,909 --> 00:26:04,398 в горизонтальном направлении в том же положении, что и пиксели яркости, 346 00:26:04,398 --> 00:26:07,303 а вертикально чередует канал насыщенности в каждой линии. 347 00:26:07,683 --> 00:26:12,282 И это все - только видео 4:2:0. Я оставлю остальные варианты субдискретизации как домашнее задание зрителю. 348 00:26:12,282 --> 00:26:14,882 У вас есть основная идея, двигайтесь дальше. 349 00:26:15,511 --> 00:26:21,128 В аудио мы обычно представляем несколько каналов в потоке ИКМ, чередуя по порядку 350 00:26:21,128 --> 00:26:26,383 семплы каждого канала. Видео использует как запакованные форматы, которые переплетают цветовые каналы, 351 00:26:26,383 --> 00:26:30,584 так и плоские форматы, которые хранят пиксели из каждого канала вместе в отдельных плоскостях, 352 00:26:30,584 --> 00:26:35,415 составленных по порядку в кадре. Существуют как минимум 50 различных форматов в этих двух больших категориях, 353 00:26:35,415 --> 00:26:41,549 возможно десять или пятнадцать из которых широко используются. Каждая субдискретизация насыщенности и 354 00:26:41,549 --> 00:26:46,574 разная битность требуют разного порядка упаковки, а потому и разного формата пикселей. Для каждой уникальной субдискретизации 355 00:26:46,574 --> 00:26:50,858 обычно также существует несколько эквивалентных форматов, состоящих из тривиальных перестановок или перепаковок 356 00:26:50,858 --> 00:26:55,966 порядка каналов, связанных либо с удобством на определённом железе в определенном случае 357 00:26:55,966 --> 00:27:00,352 либо, иногда, со старой доброй завистью. 358 00:27:00,352 --> 00:27:04,692 Пиксельные форматы описываются уникальным названием четырехсимвольного кода (FourCC). 359 00:27:04,692 --> 00:27:08,115 Их существует довольно много, и нет смысла сейчас приводить их все. 360 00:27:08,115 --> 00:27:13,704 Google ваш друг. Имейте в виду, что коды FourCC для сырого видео определяют порядок пикселей 361 00:27:13,704 --> 00:27:20,339 и субдискретизации насыщенности, но в общем случае не говорят ничего конкретного о размещении пикселей насыщенности или пространстве цветов. 362 00:27:20,339 --> 00:27:25,807 Для примера, YV12 video может использовать размещение JPEG, MPEG-2 или DV, 363 00:27:25,807 --> 00:27:28,991 а также любой из нескольких определений пространств цвета YUV. 364 00:27:29,472 --> 00:27:33,913 Это завершает наше не столь быстрое и ещё не совсем законченное путешествие в сырое видео. 365 00:27:33,913 --> 00:27:38,651 Хорошие новости в том, что мы уже можем выполнить достаточно много настоящей работы, опираясь на данный обзор. 366 00:27:38,651 --> 00:27:42,528 Во множестве ситуаций, кадр видеоданных является кадром видеоданных. 367 00:27:42,528 --> 00:27:46,451 Детали приобретают значение, когда приходит время писать программы, 368 00:27:46,452 --> 00:27:52,086 а сейчас я удовлетворен тем, что уважаемый зритель широко осведомлен в соответствующих вопросах. 369 00:27:55,640 --> 00:27:59,230 Итак. У нас есть аудиоданные. У нас есть видеоданные. 370 00:27:59,230 --> 00:28:03,246 Что осталось - так более знакомые не-сигнальные данные и непосредственное проектирование 371 00:28:03,246 --> 00:28:07,410 программного обеспечения, используемого разработчиками. И многое из всего этого! 372 00:28:07,928 --> 00:28:11,768 Цепочки данных сырого аудио или видео не имеют внешней видимой структуры, 373 00:28:11,768 --> 00:28:15,173 но они часто имеют одинаковый размер. Мы можем просто выстроить их вместе 374 00:28:15,173 --> 00:28:18,097 в жестком предопределенном порядке для стримминга или хранения, 375 00:28:18,097 --> 00:28:21,040 и многие простые системы делают примерно то же самое. 376 00:28:21,040 --> 00:28:24,195 С другой стороны, сжатые кадры не обязательно имеют предсказуемый размер, 377 00:28:24,195 --> 00:28:29,405 и нам часто может требоваться некоторая гибкость в использовании данных ряда различных типов в потоках. 378 00:28:29,405 --> 00:28:34,281 Если мы расположим произвольные бесформенные данные вместе, мы потеряем границы, разделяющие кадры 379 00:28:34,281 --> 00:28:37,871 и не сможем при необходимости узнать, какие данные к какому потоку относятся. 380 00:28:37,871 --> 00:28:42,192 Потоку необходима некоторая обобщенная структура, чтобы он был полезен. 381 00:28:42,192 --> 00:28:46,606 В дополнение к нашим сигнальным данным, у нас также есть наши параметры ИКМ и видео. 382 00:28:46,606 --> 00:28:49,752 Также существует множество других метаданных, с которыми мы также хотим работать, 383 00:28:49,752 --> 00:28:55,415 таких как аудио теги и главы видео, субтитры - все естественные компоненты rich media. 384 00:28:55,415 --> 00:29:01,633 Имеет смысл располагать эти метаданные, другими словами данные о данных, внутри самого носителя. 385 00:29:01,633 --> 00:29:06,445 Хранение и структурирование бесформенных данных и разнородных метаданных - это работа контейнера. 386 00:29:06,445 --> 00:29:09,221 Контейнеры предоставляют структурирование blob'ов (бинарных блоков) данных, 387 00:29:09,221 --> 00:29:12,015 чередование и идентификацию множества потоков данных, 388 00:29:12,015 --> 00:29:15,337 предоставляют информацию синхронизации и хранят метаданные, необходимые 389 00:29:15,337 --> 00:29:19,140 для разбора, навигации, управления и представления данных 390 00:29:19,140 --> 00:29:22,222 В общем, любой контейнер может содержать любой вид данных. 391 00:29:22,222 --> 00:29:24,970 И данные могут размещаться в любом контейнере. 392 00:29:28,801 --> 00:29:32,391 За последние тридцать минут мы охватили цифровое аудио и видео, 393 00:29:32,391 --> 00:29:35,435 немного истории и математики и немного проектирования. 394 00:29:35,435 --> 00:29:39,377 Мы только начали, но пришло время для заслуженного перерыва. 395 00:29:41,107 --> 00:29:45,373 Есть ещё так много, о чем стоит поговорить, поэтому я надеюсь, что вы присоединитесь ко мне снова в нашем следующем эпизоде. 396 00:29:45,373 --> 00:29:47,159 До тех пор--- Пока!