1
00:00:08,124 --> 00:00:10,742
Рабочие станции и топовые персональные компьютеры справляются 

2
00:00:10,742 --> 00:00:14,749
с обработкой цифрового звука довольно легко последние пятнадцать лет. 

3
00:00:14,749 --> 00:00:17,470
Только около пяти лет приличные рабочие станции способны 

4
00:00:17,470 --> 00:00:21,643
справляться с несжатым видео без кучи дорогого специализированного оборудования.

5
00:00:21,643 --> 00:00:25,400
Но сегодня даже самый дешевый домашний компьютер имеет процессор и 

6
00:00:25,400 --> 00:00:28,092
жесткий диск, достаточные, чтобы реально раскидывать несжатое видео, 

7
00:00:28,092 --> 00:00:30,479
по крайней мере, без излишнего напряжения.

8
00:00:30,479 --> 00:00:33,579
Итак, теперь, когда у каждого есть все это необходимое недорогое оборудование,

9
00:00:33,579 --> 00:00:36,651
все больше людей, что неудивительно, хотят заниматься интересными

10
00:00:36,651 --> 00:00:39,908
вещами с цифровым контентом, особенно потоковым воспроизведением.

11
00:00:39,908 --> 00:00:44,017
YouTube явился первым огромным успехом, и теперь каждый хочет поучаствовать.

12
00:00:44,017 --> 00:00:47,413
Ну хорошо! Потому что это очень весело!

13
00:00:48,250 --> 00:00:51,179
Совсем не проблема найти потребителя цифрового контента.

14
00:00:51,179 --> 00:00:54,649
Но здесь я бы хотел обратиться к инженерам, к математикам,

15
00:00:54,649 --> 00:00:57,869
хакерам, людям, заинтересованным в открытиях,

16
00:00:57,869 --> 00:01:01,302
создании вещей и создании самих технологий.

17
00:01:01,302 --> 00:01:03,282
Людям, близким мне по духу.

18
00:01:04,250 --> 00:01:08,723
Цифровой контент, особенно сжатие, воспринимается как что-то сверх-элитное,

19
00:01:08,723 --> 00:01:12,822
почему-то невероятно более сложное, чем что-либо другое в компьютерной науке.

20
00:01:12,822 --> 00:01:15,700
Крупные индустриальные игроки в этой области вообще не против такого восприятия;

21
00:01:15,700 --> 00:01:19,734
это помогает оправдывать ошеломляющее количество фундаментальных патентов, которые они держат.

22
00:01:19,734 --> 00:01:23,870
Им нравится образ, представляющий их исследователей лучшими из лучших,

23
00:01:23,870 --> 00:01:27,738
которые настолько умнее всех остальных, что их блестящие идеи не могут

24
00:01:27,738 --> 00:01:29,903
быть даже поняты простыми смертными.

25
00:01:30,625 --> 00:01:33,716
Это чушь.

26
00:01:35,205 --> 00:01:38,900
Цифровое аудио, видео, потоковая передача и сжатие

27
00:01:38,900 --> 00:01:42,738
представляют бесконечно глубокие и стимулирующие умственные испытания,

28
00:01:42,738 --> 00:01:44,662
как и любая другая дисциплина.

29
00:01:44,662 --> 00:01:47,929
Это выглядит элитным, потому что слишком мало людей вовлечены.

30
00:01:47,929 --> 00:01:51,223
Так мало людей были вовлечены, возможно, потому, что так мало людей

31
00:01:51,223 --> 00:01:54,665
могли позволить себе необходимое дорогое специализированное оборудование.

32
00:01:54,665 --> 00:01:58,792
Но сегодня почти любой смотрящий это видео, имеет дешевый

33
00:01:58,792 --> 00:02:03,317
универсальный компьютер, достаточно мощный, чтобы играть с большими парнями.

34
00:02:05,926 --> 00:02:11,108
Сегодня идут сражения вокруг HTML5, браузеров,

35
00:02:11,108 --> 00:02:13,671
видео и открытого против закрытого.

36
00:02:13,671 --> 00:02:17,048
Поэтому, сейчас самое подходящее время принять участие.

37
00:02:17,048 --> 00:02:20,000
Легче всего начать, возможно, с понимания

38
00:02:20,000 --> 00:02:22,619
имеющейся у нас технологии.

39
00:02:23,500 --> 00:02:25,071
Это - вступление.

40
00:02:25,071 --> 00:02:28,180
Поскольку это вступление, оно опускает массу деталей,

41
00:02:28,180 --> 00:02:30,882
так что большую картину несколько легче понять.

42
00:02:30,882 --> 00:02:33,908
Порядочное число смотрящих уже знакомы со всем,

43
00:02:33,908 --> 00:02:36,378
о чем я буду говорить, по крайней мере пока.

44
00:02:36,378 --> 00:02:39,293
С другой стороны, возможно, я буду рассказывать слишком быстро для тех,

45
00:02:39,293 --> 00:02:44,558
кто совсем не знаком со всем этим, поэтому, если все это ново для вас, расслабьтесь.

46
00:02:44,558 --> 00:02:48,629
Важно выделить все идеи, которые действительно захватывают ваше воображение.

47
00:02:48,629 --> 00:02:52,497
Особенно уделите внимание терминологии, связанной с этими идеями,

48
00:02:52,479 --> 00:02:56,078
потому что с ними, а так же с Гуглом и Википедией, вы можете копать

49
00:02:56,078 --> 00:02:57,753
настолько глубоко, насколько вы заинтересованы.

50
00:02:57,753 --> 00:03:00,094
Итак, без лишних церемоний,

51
00:03:00,094 --> 00:03:03,351
добро пожаловать вчертовски хорошее хобби.

52
00:03:10,291 --> 00:03:13,030
Звук - это распространение волн давления по воздуху,

53
00:03:13,030 --> 00:03:16,981
расходящихся от источника подобно кругам на воде от брошенного в пруд камня.

54
00:03:16,981 --> 00:03:19,489
Микрофон, или человеческое ухо в его роли,

55
00:03:19,489 --> 00:03:22,876
преобразовывает эту распространяющуюся пульсацию в электрический сигнал.

56
00:03:22,876 --> 00:03:25,800
Верно, это курс средней школы, это помнит каждый.

57
00:03:25,800 --> 00:03:26,771
Двигаемся дальше.

58
00:03:27,465 --> 00:03:32,527
Этот аудиосигнал является одномерной функцией, единственным значением, изменяющимся во времени.

59
00:03:32,527 --> 00:03:34,248
Если мы немного замедлим осциллограф...

60
00:03:36,450 --> 00:03:38,190
это будет несколько легче увидеть.

61
00:03:38,190 --> 00:03:40,688
Также важны несколько других аспектов сигнала.

62
00:03:40,688 --> 00:03:43,418
Он непрерывен и во времени и в значениях;

63
00:03:43,418 --> 00:03:46,813
то есть, в любой момент времени у него есть действительное значение,

64
00:03:46,813 --> 00:03:50,228
а также его значение плавно меняется от одной точки во времени к другой.

65
00:03:50,228 --> 00:03:52,439
Не важно, насколько мы увеличиваем масштаб,

66
00:03:54,068 --> 00:03:58,510 
не будет никаких разрывов, сингулярностей, мгновенных изменений значений

67
00:03:58,510 --> 00:04:01,285
или точек, в которых сигнал прекращает существовать.

68
00:04:03,247 --> 00:04:08,475
Он определён везде. Классическая непрерывная математика хорошо применима к этим сигналам.

69
00:04:11,001 --> 00:04:15,378
Цифровой сигнал, с другой стороны, является дискретным по значению и по времени.

70
00:04:15,378 --> 00:04:19,107
В самой простой и наиболее общепринятой системе, которая называется "импульсно-кодовая модуляция",

71
00:04:19,107 --> 00:04:24,058
каждое из фиксированного числа значений напрямую представляет амплитуду непрерывного сигнала

72
00:04:24,058 --> 00:04:30,165
в точках времени, разделённых равными промежутками. Конечным результатом является поток чисел.

73
00:04:30,674 --> 00:04:35,309
Теперь это выглядит ужасно похоже на это.

74
00:04:35,309 --> 00:04:38,964
Кажется интуитивным, что должен быть способ как-то строго преобразовывать

75
00:04:38,964 --> 00:04:44,683
одно в другое, и, хорошие новости, теорема отсчетов гласит, что мы можем, и рассказывает, как.

76
00:04:44,683 --> 00:04:48,477
Опубликованная в своей самой известной форме Клодом Шенноном в 1949

77
00:04:48,477 --> 00:04:52,409
и основанная на работах Найквиста и Хартли, и многих других,

78
00:04:52,409 --> 00:04:56,138
теорема отсчетов не только утверждает, что мы можем переходить туда-обратно между

79
00:04:56,138 --> 00:05:00,913
аналоговым и цифровым представлением, но также устанавливает ряд условий, при которых конверсия

80
00:05:00,913 --> 00:05:06,779
происходит без потерь и два представления становятся эквивалентными и взаимозаменяемыми.

81
00:05:06,779 --> 00:05:10,601
Когда эти условия не выполняются, теорема отсчетов говорит нам,

82
00:05:10,601 --> 00:05:14,247
как и сколько информации потеряно или испорчено.

83
00:05:14,900 --> 00:05:21,270
До самого последнего времени, аналоговая технология была основой для практически всей работы со звуком,

84
00:05:21,270 --> 00:05:25,267
и не только потому, что большинство аудиоданных имеют аналоговое происхождение.

85
00:05:25,267 --> 00:05:28,450
Вы могли подумать, что раз компьютеры появились относительное недавно,

86
00:05:28,450 --> 00:05:31,643
технология аналогового сигнала, должно быть, появилась первой.

87
00:05:31,643 --> 00:05:34,428
Нет. Цифровая, на самом деле, старше.

88
00:05:34,428 --> 00:05:37,611
Телеграф предшествовал телефону на полвека

89
00:05:37,611 --> 00:05:41,951
и был почти полностью механически автоматизирован к 1860м, посылая закодированные,

90
00:05:41,951 --> 00:05:46,476
мультиплексированные цифровые сигналы на длинные дистанции. Вы знаете... Телеграфная лента.

91
00:05:46,476 --> 00:05:50,427
Гарри Найквист из Bell Labs исследовал импульсную телеграфическую передачу,

92
00:05:50,427 --> 00:05:53,027
когда опубликовал своё описание того, что потом стало известно как

93
00:05:53,027 --> 00:05:57,219
частота Найквиста, ключевая концепция теоремы отсчетов.

94
00:05:57,219 --> 00:06:01,642
Теперь правда в том, что телеграф передавал символьную информацию, текст,

95
00:06:01,642 --> 00:06:06,883
а не оцифрованный аналоговый сигнал, но с пришествием телефона и радио

96
00:06:06,883 --> 00:06:12,000
технологии аналогового и цифрового сигнала развивались быстро бок о бок.

97
00:06:12,699 --> 00:06:18,732
Аудио всегда обрабатывалось как аналоговый сигнал потому что... ну, это настолько легче!

98
00:06:18,732 --> 00:06:23,257
Фильтр низких частот второго порядка, например, требует двух пассивных компонентов.

99
00:06:23,257 --> 00:06:26,505
Полностью аналогичное кратковременное преобразование Фурье - нескольких сотен.

100
00:06:26,505 --> 00:06:30,752
Хорошо, возможно, тысячи, если вы хотите собрать что-то действительно хорошее.

101
00:06:31,844 --> 00:06:35,989
Обработка сигналов цифровым способом требует от миллионов до миллиардов транзисторов,

102
00:06:35,989 --> 00:06:40,366
работающих на микроволновых частотах, аппаратную поддержку по меньшей мере оцифровки

103
00:06:40,366 --> 00:06:43,836
и реконструкции аналоговых сигналов, законченную программную экосистему

104
00:06:43,836 --> 00:06:47,362
для программирования и управления этим миллиардно-транзистроным Джаггернаутом,

105
00:06:47,362 --> 00:06:51,091
и цифровое хранилище, на тот случай, если вы хотите сохранить результаты на будущее...

106
00:06:51,091 --> 00:06:56,171
Таким образом, мы приходим к выводу, что только аналоговый подход практичен для работы с аудио...

107
00:06:56,171 --> 00:07:07,019
ну, по крайней мере, если у вас не завалялись миллиард транзисторов и все остальное.

108
00:07:07,850 --> 00:07:12,660
А поскольку у нас завалялись, цифровая обработка сигнала становится очень заманчивой.

109
00:07:13,363 --> 00:07:18,906
Во-первых, аналоговые комплектующие просто не имеют гибкости компьютера общего назначения.

110
00:07:18,906 --> 00:07:21,182
Добавление новой функции в этого зверя...

111
00:07:22,191 --> 00:07:24,578
да, вероятно, этого не произойдёт.

112
00:07:24,578 --> 00:07:26,567
Хотя на цифровом процессоре...

113
00:07:28,668 --> 00:07:34,127
...просто напишите новую программу. Программирование не тривиально, но оно намного легче.

114
00:07:34,127 --> 00:07:39,550
Возможно более важно, что каждый аналоговый компонент является приближением.

115
00:07:39,550 --> 00:07:44,352
Не существует такой вещи как идеальный транзистор или идеальный проводник, или идеальный конденсатор.

116
00:07:44,352 --> 00:07:51,569
В аналоговой  обработке каждый компонент добавляет шума и искажений, обычно не очень много, но они суммируются.

117
00:07:51,569 --> 00:07:55,669
Одна только передача аналогового сигнала, особенно на длинные дистанции,

118
00:07:55,669 --> 00:08:00,434
постепенно, умеренно, необратимо портит его.

119
00:08:00,434 --> 00:08:06,513
Кроме того, все эти одноцелевые аналоговые компоненты занимают много места.

120
00:08:06,513 --> 00:08:09,946
Две строки кода на миллиарде транзисторов здесь

121
00:08:09,946 --> 00:08:14,702
могут реализовать фильтр, который бы потребовал индуктора размером с холодильник.

122
00:08:14,702 --> 00:08:17,941
Цифровые системы не имеют этих недостатков.

123
00:08:17,941 --> 00:08:24,335
Цифровые сигналы могут храниться, копироваться, обрабатываться и передаваться без наложения шумов и искажений.

124
00:08:24,335 --> 00:08:26,889
Да, мы используем время от времени алгоритмы с потерей,

125
00:08:26,889 --> 00:08:31,284
но единственно неизбежными неидеальными шагами являются оцифровка и восстановление,

126
00:08:31,284 --> 00:08:35,929
когда цифровое должно взаимодействовать со всем этим неряшливым аналоговым.

127
00:08:35,929 --> 00:08:40,750
Неряшливые или нет, современные этапы преобразования очень, очень хороши.

128
00:08:40,750 --> 00:08:45,849
По меркам наших ушей, мы можем также считать их без потерь.

129
00:08:45,849 --> 00:08:50,429
С небольшим дополнительным оборудованием, большинство из которого компактно и недорого

130
00:08:50,429 --> 00:08:55,379
благодаря нашей современной промышленной инфраструктуре, цифровое аудио одерживает чистую победу над аналоговым.

131
00:08:55,379 --> 00:09:00,857
Давайте тогда перейдем к хранению, копированию, обработке и передаче.

132
00:09:04,956 --> 00:09:08,639
Импульсно-кодовая модуляция - самое распространенное представление необработанного аудио.

133
00:09:08,639 --> 00:09:13,867
Существуют и другие представления, например, сигма-дельта кодирование, используемое в SACD,

134
00:09:13,867 --> 00:09:16,625
которое является разновидностью импульсно-кодовой модуляции.

135
00:09:16,625 --> 00:09:19,687
Что говорит, что импульсно-кодовая модуляция значительно доминирует,

136
00:09:19,687 --> 00:09:22,158
главным образом потому, что она так математически удобна.

137
00:09:22,158 --> 00:09:26,350
Аудио инженер может провести целую карьеру, не работая ни с чем другим.

138
00:09:26,350 --> 00:09:29,135
Кодирование ИКМ можно охарактеризовать тремя параметрами,

139
00:09:29,135 --> 00:09:34,187
что позволяет посчитать каждый возможный вариант ИКМ без больших хлопот.

140
00:09:34,187 --> 00:09:36,426
Первый параметр - это частота дискретизации.

141
00:09:36,426 --> 00:09:40,886
Наивысшая частота, которую кодирование может передать, называется частотой Найквиста. 

142
00:09:40,886 --> 00:09:45,124
Частота Найквиста ИКМ равняется ровно половине частоты дискретизации.

143
00:09:45,124 --> 00:09:51,389
Следовательно, частота дискретизации непосредственно определяет наивысшую возможную частоту в оцифрованном сигнале.

144
00:09:51,389 --> 00:09:56,515
Аналоговые телефонные системы традиционно ограничивали полосу голосовых каналов до чуть менее, чем 4 кГц,

145
00:09:56,515 --> 00:10:02,224
поэтому цифровая телефония и самые классические голосовые приложения используют частоту дискретизации 8 кГц,

146
00:10:02,224 --> 00:10:07,277
минимальную частоту, необходимую для охвата целевой полосы в 4 кГц.

147
00:10:07,227 --> 00:10:14,263
Вот как звучит частота дискретизации в 8 кГц--- немного приглушенно, но совсем разборчиво для голоса.

148
00:10:17,263 --> 00:10:18,149
Это самая низкая частота дискретизации, когда-либо широко использованная на практике.

149
00:10:18,149 --> 00:10:23,322
С этих пор, с увеличением производительности, памяти и накопителей, компьютеры потребителей

150
00:10:23,322 --> 00:10:29,642
смогли обеспечить частоту 11, потом 16, потом 22, а потом - 32 кГц.

151
00:10:29,642 --> 00:10:33,491
Очевидно, что с каждым увеличением частоты дискретизации и частоты Найквиста,

152
00:10:33,491 --> 00:10:38,302
качество звучания топовых конфигураций становится немного чище и звучит более естественно.

153
00:10:38,301 --> 00:10:44,576
Compact-Disk использует частоту дискретизации 44,1 кГц, которая немного лучше, чем 32 кГц,

154
00:10:44,576 --> 00:10:46,788
но улучшения становятся все менее различимыми.

155
00:10:46,788 --> 00:10:52,053
44,1 кГц - это несколько странноватый выбор, особенно при том, что он никогда не использовался

156
00:10:52,053 --> 00:10:56,559
до Compact-Disk, но огромный успех компакт-дисков сделал его общепринятой частотой.

157
00:10:56,559 --> 00:11:01,195
Наиболее распространённой частотой дискретизации высокого качества за пределами CD является 48 кГц.

158
00:11:05,710 --> 00:11:08,597
Фактически между ними нет ощутимой разницы в звучании.

159
00:11:08,597 --> 00:11:13,640
Это видео, по крайней мере его оригинальная версия, была снята и выпущена с аудио 48 кГц,

160
00:11:13,640 --> 00:11:18,545
что является первоначальным стандартом для высококачественного звука в видеозаписях.

161
00:11:18,545 --> 00:11:25,100
Сверхвысококачественные частоты дискретизации в 88, 96 и 192кГц также имели место.

162
00:11:25,100 --> 00:11:30,888
Суть в дискретизации на частоте выше 48 кГц заключается не в дальнейшем расширении высокочастотного диапазона.

163
00:11:30,888 --> 00:11:32,489
Его суть в другом.

164
00:11:32,896 --> 00:11:37,319
Отвлекаясь на секунду, скажу, что французский математик Жан Батист Жозеф Фурье

165
00:11:37,319 --> 00:11:42,353
показал, что мы также можем рассматривать сигналы вроде аудио как набор составных частот.

166
00:11:42,353 --> 00:11:45,841
Это представление частотной области эквивалентно временному представлению;

167
00:11:45,841 --> 00:11:49,719
сигнал точно такой же, просто мы рассматриваем его по-другому.

168
00:11:49,719 --> 00:11:56,131
Здесь мы видим представление частотной области гипотетического аналогового сигнала, который мы собираемся оцифровать.

169
00:11:56,131 --> 00:11:59,888
Теорема Найквиста-Шеннона рассказывает о двух вещах, связанных с процессом дискретизации.

170
00:11:59,888 --> 00:12:04,727
Во-первых, цифровой сигнал не может передавать частоты выше частоты Найквиста.

171
00:12:04,727 --> 00:12:10,640
Во-вторых, и это новая часть, если мы не удалим их низкочастотным фильтром перед дискретизацией,

172
00:12:10,640 --> 00:12:16,414
этот процесс обрежет их до допустимого диапазона, создав искажения наложения.

173
00:12:16,414 --> 00:12:20,069
Наложение, в двух словах, звучит ужасно,

174
00:12:20,069 --> 00:12:25,242
поэтому естественно удалять все частоты ниже частоты Найквиста перед дискретизацией и после восстановления.

175
00:12:25,871 --> 00:12:31,265
Считается, что восприятие звука человеком простирается примерно до 20 кГц.

176
00:12:31,265 --> 00:12:37,548
При частоте 44,1 или 48 кГц, фильтрация низких частот перед стадией дискретизации должна быть предельно точной,

177
00:12:37,548 --> 00:12:42,101
чтобы избежать удаления слышимых частот ниже 20 кГц,

178
00:12:42,101 --> 00:12:49,439
и в то же время не допуская попадания частот выше частоты Найквиста в процесс дискретизации.

179
00:12:49,439 --> 00:12:55,342
Этот тяжело реализуемый фильтр и ни один фильтр на практике не преуспел полностью.

180
00:12:55,342 --> 00:13:00,024
С другой стороны, если частота дискретизации 96 кГц или 192 кГц,

181
00:13:00,024 --> 00:13:07,223
низкочастотный фильтр имеет дополнительно октаву или две в диапазоне модуляции. Такой фильтр намного легче построить.

182
00:13:07,223 --> 00:13:14,348
Частоты дискретизации ниже 48 кГц являются на самом деле одним из неприятных компромиссов на аналоговом этапе.

183
00:13:15,014 --> 00:13:20,844
Второй фундаментальный параметр ИКМ - это формат выборки, то есть форма каждого цифрового числа.

184
00:13:20,844 --> 00:13:26,285
Число - это число, но оно может быть представлено несколькими разными путями.

185
00:13:26,942 --> 00:13:30,902
Ранняя ИКМ была линейной 8 битной, кодировалась беззнаковым байтом.

186
00:13:30,902 --> 00:13:37,028
Динамический диапазон ограничен примерно 50 дБ и шум квантования, как вы можете слышать, достаточно резок.

187
00:13:37,028 --> 00:13:39,970
Восьмибитное аудио сегодня исчезающе  встречается.

188
00:13:41,007 --> 00:13:47,484
В цифровой телефонии обычно используется одна из двух связанных нелинейных восьмибитных кодировок,называемых А-закон и мю-закон.

189
00:13:47,484 --> 00:13:51,287
Эти форматы кодируют примерно 14 битный динамический диапазон в восьми битах,

190
00:13:51,287 --> 00:13:54,674
раздвигая более высокие значения амплитуды дальше друг от друга.

191
00:13:54,674 --> 00:13:59,226
А-закон и мю-закон, очевидно, улучшают шум квантования в сравнении с линейным 8-битным,

192
00:13:59,226 --> 00:14:03,557
а голосовые гармоники хорошо скрывают оставшийся шум квантования.

193
00:14:03,557 --> 00:14:08,248
Все три восьмибитные кодировки - линейная, А-закон и мю-закон, обычно используются

194
00:14:08,248 --> 00:14:13,328
вместо с частотой дискретизации 8 кГц, хотя я демонстрирую их на 48 кГц.

195
00:14:13,328 --> 00:14:18,491
Большинство современных ИКМ использует знаковые целые 16 или 24 бит с дополнением до двух для кодирования

196
00:14:18,491 --> 00:14:23,858
диапазона от минус бесконечности до нуля децибел с точностью 16 или 24 бита.

197
00:14:23,858 --> 00:14:27,800
Максимальное абсолютное значение соответствует нулю децибел.

198
00:14:27,800 --> 00:14:31,584
Как и во всех современных форматах дискретизации, сигналы выше нуля децибел

199
00:14:31,584 --> 00:14:35,619
и, таким образом, за пределами представимого диапазона, обрезаются.

200
00:14:35,619 --> 00:14:41,199
В микшировании и сведении не является редкостью использование чисел с плавающей точкой для ИКМ вместо целых чисел.

201
00:14:41,199 --> 00:14:47,222
32-битное число с плавающей точкой, обыкновенная разновидность плавающей точки на современных компьютерах,

202
00:14:47,222 --> 00:14:52,793
представляет 24 бит для разрешения, а семь бит плавающей экспоненты увеличивает передаваемый диапазон.

203
00:14:52,793 --> 00:14:57,040
В числах с плавающей точкой, ноль децибел обычно представляется как +/-1.0,

204
00:14:57,040 --> 00:15:00,547
и, поскольку они могут, очевидно, представлять диапазон значительно выше этого,

205
00:15:00,547 --> 00:15:05,220
временно превышение нуля децибел в процессе смешивания не приводит к обрезанию.

206
00:15:05,220 --> 00:15:11,077 
ИКМ с плавающей точкой занимает больше объема, поэтому она, как правило, используется только в качестве промежуточного производственного формата.

207
00:15:11,077 --> 00:15:15,796
Наконец, большинство компьютеров общего назначения по-прежнему читают и пишут данные восьмиразрядными байтами,

208
00:15:15,796 --> 00:15:18,489
потому важно помнить, что семплы больше восьми бит

209
00:15:18,489 --> 00:15:22,838
могут быть в порядке big или little endian, и оба порядка распространены.

210
00:15:22,838 --> 00:15:28,751
Например, файлы Microsoft WAV - в little endian, а Apple AIFC - как правило в big-endian.

211
00:15:28,751 --> 00:15:30,139
Имейте это в виду.

212
00:15:30,870 --> 00:15:34,071
Третий параметр ИКМ - это число каналов.

213
00:15:34,071 --> 00:15:38,485
Соглашением в сыром ИКМ является кодирование множества каналов, чередуя семплы каждого

214
00:15:38,485 --> 00:15:43,398
канала вместе в едином потоке. Просто и расширяемо.

215
00:15:43,398 --> 00:15:47,701
Вот и все. Это описывает все возможные представления ИКМ.

216
00:15:47,701 --> 00:15:51,578
Готово. Цифровое аудио _настолько просто_!

217
00:15:51,578 --> 00:15:56,436
Конечно, есть ещё много чего, но на данный момент у нас есть хороший полезный кусок аудиоданных,

218
00:15:56,436 --> 00:15:58,092
давайте добудем также немного видео.

219
00:16:02,571 --> 00:16:08,798
Можно рассматривать видео как аудио, только с двумя пространственными измерениями, X и Y,

220
00:16:08,798 --> 00:16:12,787
в дополнение к измерению времени. Математически, это звук.

221
00:16:12,787 --> 00:16:19,097
Теорема отсчетов применима ко всем трем измерениям видео точно также, как и к одному измерению времени в аудио.

222
00:16:19,097 --> 00:16:25,815
Очевидно, на практике аудио и видео немного различны. С одной стороны, в сравнении с аудио, видео огромно.

223
00:16:25,815 --> 00:16:29,294
Несжатое CD-аудио - это примерно 1,4 мегабита в секунду.

224
00:16:29,294 --> 00:16:33,958
Несжатое видео 1080i HD - более 700 мегабит в секунду.

225
00:16:33,958 --> 00:16:40,056
Приходится захватывать, обрабатывать и сохранять более, чем в 500 раз больше данных в одну секунду.

226
00:16:40,056 --> 00:16:43,711
По закону Мура... выходит... давайте посмотрим... примерно восемь удвоений раз в два года,

227
00:16:43,711 --> 00:16:47,838
так что да, компьютеры требуют около пятнадцати дополнительных лет для овладения несжатым видео

228
00:16:47,838 --> 00:16:51,252
после укрощения несжатого аудио.

229
00:16:51,252 --> 00:16:55,425
Основы сырого видео также несколько сложнее, чем основы сырого аудио.

230
00:16:55,425 --> 00:16:58,599
Большой объем данных в настоящее время требуется представления

231
00:16:58,599 --> 00:17:02,106 
более эффективного, чем линейная ИКМ, используемая в аудио.

232
00:17:02,106 --> 00:17:06,705
К тому же, электронное видео происходит практически полностью из одного телевизионного вещания,

233
00:17:06,705 --> 00:17:13,423
а комитеты по стандартам, которые регулируют телевещание всегда были очень озабочены обратной совместимостью.

234
00:17:13,423 --> 00:17:17,559  
До самых последних лет в США старый, шестидесятилетний черно-белый телевизор

235
00:17:17,559 --> 00:17:21,038
мог по-прежнему показывать обычные аналоговые телевизионные передачи.

236
00:17:21,038 --> 00:17:23,879
На самом деле это действительно искусный трюк.

237
00:17:23,879 --> 00:17:28,718
Недостатком обратной совместимости является то, что если когда-то что-то попадает в стандарт,

238
00:17:28,718 -->  00:17:30,985
вы не можете на самом деле больше никогда выкинуть его.

239
00:17:30,985 --> 00:17:37,305
Электронное видео никогда не переделывалось с нуля, как это было неоднократно с аудио.

240
00:17:37,305 --> 00:17:43,958
Шестьдесят лет стоят умных но устаревших хаков, необходимых в связи с уходом технологии данной эпохи,

241
00:17:43,958 --> 00:17:50,102
образующих на самом деле нагромождение, а поскольку цифровые стандарты также пришли с телевидения,

242
00:17:50,102 --> 00:17:54,664
все эти жуткие хаки были перенесены также и в цифровые стандарты.

243
00:17:54,664 --> 00:18:00,022
Вкратце, в цифровом видео замешано намного больше деталей, чем в аудио.

244
00:18:00,022 --> 00:18:05,592
Нет надежды охватить здесь их все полностью, поэтому мы широко охватим основы.

245
00:18:06,036 --> 00:18:10,857
Наиболее очевидными параметрами сырого видео являются ширина и высота изображения в пикселях.

246
00:18:10,857 --> 00:18:15,882
Так же просто, как это может показаться, разрешение в пикселях само по себе на самом деле не определяет абсолютные

247
00:18:15,882 --> 00:18:22,016
ширину и высоту изображения, поскольку большинство видео, происходящего из телевещания не использует квадратные пиксели.

248
00:18:22,016 --> 00:18:25,005
Число растровых строк в трансляционном изображении было фиксированным,

249
00:18:25,005 --> 00:18:29,021
но действительное количество горизонтальных пикселей зависело от ширины канала.

250
00:18:29,021 --> 00:18:31,945
Действительное горизонтальное разрешение могло приводить к тому, что пиксели

251
00:18:31,945 --> 00:18:35,489
были либо уже, либо шире, чем интервал между строками.

252
00:18:35,489 --> 00:18:38,395
Стандарты в основном указывают, что оцифрованное видео

253
00:18:38,395 --> 00:18:41,902
должно отражать реальное разрешение оригинального аналогового источника,

254
00:18:41,902 --> 00:18:45,566
поэтому большое количество цифрового видео также использует не квадратные пиксели.

255
00:18:45,566 --> 00:18:49,924
Например, обычное NTSC DVD с соотношением 4:3 обычно кодируется

256
00:18:49,924 --> 00:18:55,374
с разрешением экрана 704 на 408, соотношение, более широкое, чем 4:3.

257
00:18:55,374 --> 00:18:59,640
В данном случае сами пиксели получают соотношение 10:11,

258
00:18:59,640 --> 00:19:04,553
что делает их выше собственной ширины и сужает изображение горизонтально до правильного соотношения.

259
00:19:04,553 --> 00:19:09,800
Такое изображение должно проходить ресемплинг для корректного отображения на дисплеях с квадратными пикселями.

260
00:19:10,253 -->  00:19:15,287
Второй очевидный параметр видео - это частота смены кадров, количество полных кадров в секунду.

261
00:19:15,287 --> 00:19:19,655
Активно используются несколько стандартных частот кадров. Цифровое видео, в той или иной форме,

262
00:19:19,655 --> 00:19:23,689
может использовать их все. Или, другую частоту кадров. Или даже переменные частоты,

263
00:19:23,689 --> 00:19:27,113
когда частота кадров адаптивно меняется по ходу видео.

264
00:19:27,113 --> 00:19:32,998
Чем выше частота кадров, тем более плавны движения, и это приводит нас, к сожалению, к интерлейсингу.

265
00:19:32,998 --> 00:19:37,967
В самые ранние дни трансляции видео, инженеры искали наивысшую практическую частоту кадров

266
00:19:37,967 --> 00:19:42,075
для гладкого движения и с минимальным мерцанием на фосфорных ЭЛТ.

267
00:19:42,075 --> 00:19:45,277
Им было необходимо использовать минимальную ширину полосы

268
00:19:45,277 --> 00:19:48,182
для достижения максимального разрешения и наивысшей частоты кадров.

269
00:19:48,182 --> 00:19:51,208
Их решением было "сплетать" видео, когда четные линии отправляются

270
00:19:51,208 --> 00:19:54,826
в один проход и нечетные - в следующий.

271
00:19:54,826 --> 00:19:59,961
Каждый проход называется полем, а два поля как бы образуют законченный кадр.

272
00:19:59,961 --> 00:20:05,319
"Как бы" - потому что четные и нечетные поля на самом деле не принадлежат одному исходному кадру.

273
00:20:05,319 --> 00:20:10,797
В изображении с 60 полями в секунду исходная частота кадров соответствует 60 полным кадрам в секунду,

274
00:20:10,797 --> 00:20:15,386
а половина каждого кадра, каждая лишняя линия, просто отбрасывается.

275
00:20:15,386 --> 00:20:20,272
Вот почему мы не можем применить деинтерлейсинг к видео простым комбинированием двух полей в один кадр;

276
00:20:20,272 --> 00:20:23,039
на самом деле они не из одного и того же кадра.

277
00:20:24,047 --> 00:20:29,683
Электронно-лучевая трубка была единственной доступной технологией отображения на протяжении большей части истории электронного видео.

278
00:20:29,683 --> 00:20:32,949
Выходная яркость ЭЛТ нелинейна, приблизительно равняется

279
00:20:32,949 --> 00:20:36,585
входному управляющему напряжению, возведённому в степень 2,5.

280
00:20:36,585 --> 00:20:43,821
Эта степень, 2,5 - избранная гамма, и поэтому она часто обозначается как гамма дисплея.

281
00:20:43,821 --> 00:20:50,493
Камеры, напротив, являются линейными, и если вы передадите ЭЛТ линейный входной сигнал, это будет выглядеть следующим образом.

282
00:20:51,270 --> 00:20:56,637
Поскольку первоначально было очень мало камер, которые были фантастически дорогими,

283
00:20:56,637 --> 00:21:01,634
и предполагалось много, много телевизоров, которые должны быть как можно менее дорогими,

284
00:21:01,634 --> 00:21:08,222
инженеры решили добавить необходимую схему гамма-коррекции в камеры, а не телевизоры.

285
00:21:08,222 --> 00:21:13,062
Видео, переданное по радиоволнам, таким образом, должно иметь нелинейную интенсивность, используя 

286
00:21:13,062 --> 00:21:18,271
обратную степень гаммы телевизора, поэтому, как только сигнал с камеры, наконец, отображен на ЭЛТ,

287
00:21:18,271 --> 00:21:23,305
общий ответ системы камера-телевизор вновь становится линейным.

288
00:21:23,777 --> 00:21:25,118
Почти.

289
00:21:30,393 --> 00:21:33,113
Также есть ещё две настройки.

290
00:21:33,113 --> 00:21:40,442
Телекамера на самом деле использует экспоненту гаммы, обратную 2,2, а не 2,5.

291
00:21:40,442 --> 00:21:43,754
Это просто коррекция для просмотра в темном окружении.

292
00:21:43,754 --> 00:21:48,279
Кроме того, экспоненциальная кривая переходит в линейных закон вблизи черного цвета.

293
00:21:48,279 --> 00:21:52,360
Это просто старый хак для подавления шума датчика в камере.

294
00:21:54,941 --> 00:21:57,347
Гамма-коррекция также имела удачную выгоду.

295
00:21:57,347 --> 00:22:02,214
По воле случая, человеческий глаз имеет гамму восприятия около 3.

296
00:22:02,214 --> 00:22:05,962
Это относительно близко к гамме ЭЛТ, 2,5.

297
00:22:05,962 --> 00:22:10,607
Изображение, использующее гамма-коррекцию уделяет больше разрешения низким интенсивностям,

298
00:22:10,607 --> 00:22:14,336
где, как оказалось, у глаза наилучшая различимость,

299
00:22:14,336 --> 00:22:18,222
а следовательно, использует имеющееся разрешение более эффективно.

300
00:22:18,222 --> 00:22:22,784
Хотя в  настоящее время ЭЛТ исчезают, стандартный дисплей компьютера sRGB

301
00:22:22,784 --> 00:22:28,419
по-прежнему использует нелинейную кривую интенсивности, схожую с телевизионной, с линейным законом в области черного,

302
00:22:28,419 --> 00:22:32,491
с экспоненциальной кривой со значением гаммы 2,4.

303
00:22:32,491 --> 00:22:36,636
Это кодирует шестнадцатибитный линейный диапазон в восьми битах.

304 
00:22:37,580 --> 00:22:41,790
В человеческом глазу есть три раздельных цветовых канала - красный, зеленый и синий,

305
00:22:41,790 --> 00:22:47,407
и большинство дисплеев использует эти три цвета как компоненты смешивания, чтобы получить полный спектр цветов.

306
00:22:49,258 --> 00:22:54,190
В печати, по той же причине, основными пигментами являются голубой (Cyan), пурпурный (Magenta) и Желтый (Yellow);

307
00:22:54,190 --> 00:22:59,381
пигменты являются вычитаемыми, и каждый из этих пигментов вычитает один чистый цвет из отраженного света.

308
00:22:59,381 --> 00:23:05,682
Голубой вычитает красный, пурпурный вычитает зеленый, а желтый вычитает синий.

309
00:23:05,682 --> 00:23:10,919
Видео может, и иногда бывает, представлено красным, зеленым и синим каналами,

310
00:23:10,919 --> 00:23:17,211
но RGB-видео нетипично. Человеческий глаз намного более чувствителен к яркости, нежели к её цвету,

311
00:23:17,211 --> 00:23:21,329
а RGB стремится распределять энергию на изображение равномерно по всем трем каналам.

312
00:23:21,329 --> 00:23:25,326
Посмотрите, красная плоскость выглядит как красная версия оригинально изображения,

313
00:23:25,326 --> 00:23:28,769
зеленая плоскость выглядит как зеленая версия оригинального изображения,

314
00:23:28,769 --> 00:23:32,063
а синяя плоскость выглядит как синяя версия оригинально изображения.

315
00:23:32,063 --> 00:23:35,705
Черно-белый в тройном объеме. Неэффективно.

316
00:23:35,706 --> 00:23:39,438
По этой причине и потому, что телевидение изначально все равно было черно-белым,

317
00:23:39,438 --> 00:23:45,017
видео обычно представляется как канал яркости высокого разрешения,

318
00:23:45,017 --> 00:23:51,041
черно-белый, вместе с дополнительными, зачастую с меньшим разрешением, каналами цвета.

319
00:23:51,041 --> 00:23:57,074
Канал яркости, Y, получают взвешиванием, а затем сложением отдельных, красного, зеленого и синего сигналов.

320
00:23:57,074 --> 00:24:01,867
Каналы насыщенности (цвета) U и V потом получают вычитанием сигнала яркости из синего,

321
00:24:01,867 --> 00:24:04,070
и вычитанием сигнала яркости из красного.

322
00:24:04,070 --> 00:24:11,750
Когда YUV масштабируется, смещается и дискретизируется для цифрового видео, его на самом деле правильнее называть Y'CbCr,

323
00:24:11,750 --> 00:24:15,238
но более общий термин YUV широко распространен для описания

324
00:24:15,238 --> 00:24:18,301
всех аналоговых и цифровых вариантов данной цветовой модели.

325
00:24:18,912 --> 00:24:22,983
Цветовые каналы U и V могут быть того же разрешения, что и канал Y,

326
00:24:22,983 --> 00:24:28,674
но, поскольку человеческий глаз имеет куда худшее пространственное разрешение насыщенности цвета, нежели разрешение яркости,

327
00:24:28,674 --> 00:24:34,346
разрешение насыщенности обычно берется половиной или даже четвертью в горизонтальном направлении, вертикальном,

328
00:24:34,346 --> 00:24:39,528
или обоих, обычно без какого-либо существенного влияния на качество видимого изображения.

329
00:24:39,528 --> 00:24:43,942
Практически любой возможный вариант субдискретизации был использован в то или иное время,

330
00:24:43,942 --> 00:24:46,875
но сегодня распространенными являются

331
00:24:46,875 --> 00:24:51,187
4:4:4, который, в действительности вообще не субдискретизируется,

332
00:24:51,187 --> 00:24:56,711
4:2:2, в котором горизонтальное разрешение каналов U и V делится пополам,

333
00:24:56,711 --> 00:25:02,587
и наиболее общепринятый из всех, 4:2:0, при котором и горизонтальное и вертикальное разрешения

334
00:25:02,587 --> 00:25:08,897
каналов насыщенности делятся пополам, что приводит к тому, что каждая из плоскостей U и V в четыре раза меньше Y.

335
00:25:08,897 --> 00:25:17,096
Термины 4:2:2, 4:2:0, 4:1:1 и т.д., и т.п. не являются полными описаниями субдискретизации насыщенности.

336
00:25:17,096 --> 00:25:21,186
Существует несколько возможных способов позиционирования пикселей насыщенности относительно пикселей яркости,

337
00:25:21,096 --> 00:25:24,776 
и опять, есть несколько активно используемых для каждой субдискретизации.

338
00:25:24,776 --> 00:25:32,502
Например, motion JPEG, MPEG-1 video, MPEG-2 video, DV, Theora и WebM, все используют

339
00:25:32,502 --> 00:25:38,137
или могут использовать субдискретизацию 4:2:0, но они располагают цветовые пиксели  тремя разными способами.

340
00:25:38,498 --> 00:25:43,023
Motion JPEG, MPEG1 video, Theora и WebM располагают пиксели насыщенности

341
00:25:43,023 --> 00:25:46,345
горизонтально и вертикально между пикселями яркости.

342
00:25:46,345 --> 00:25:51,989
MPEG2 располагает пиксели насыщенности между линий, но горизонтально выравнивает их с каждым пикселем яркости.

343
00:25:51,989 --> 00:25:57,106
Режимы с интерлейсингом несколько все усложняют, размещая их немного странно.

344
00:25:57,106 --> 00:26:00,909
И наконец, PAL-DV, который всегда использует интерлейсинг, размещает пиксели насыщенности

345
00:26:00,909 --> 00:26:04,398
в горизонтальном направлении в том же положении, что и пиксели яркости,

346
00:26:04,398 --> 00:26:07,303
а вертикально чередует канал насыщенности в каждой линии.

347
00:26:07,683 --> 00:26:12,282
И это все - только видео 4:2:0. Я оставлю остальные варианты субдискретизации как домашнее задание зрителю.

348
00:26:12,282 --> 00:26:14,882
У вас есть основная идея, двигайтесь дальше.

349
00:26:15,511 --> 00:26:21,128
В аудио мы обычно представляем несколько каналов в потоке ИКМ, чередуя по порядку

350
00:26:21,128 --> 00:26:26,383
семплы каждого канала. Видео использует как запакованные форматы, которые переплетают цветовые каналы,

351
00:26:26,383 --> 00:26:30,584
так и плоские форматы, которые хранят пиксели из каждого канала вместе в отдельных плоскостях,

352
00:26:30,584 --> 00:26:35,415
составленных по порядку в кадре. Существуют как минимум 50 различных форматов в этих двух больших категориях,

353
00:26:35,415 --> 00:26:41,549
возможно десять или пятнадцать из которых широко используются. Каждая субдискретизация насыщенности и

354
00:26:41,549 --> 00:26:46,574
разная битность требуют разного порядка упаковки, а потому и разного формата пикселей. Для каждой уникальной субдискретизации

355
00:26:46,574 --> 00:26:50,858 
обычно также существует несколько эквивалентных форматов, состоящих из тривиальных перестановок или перепаковок

356
00:26:50,858 --> 00:26:55,966
порядка каналов, связанных либо с удобством на определённом железе в определенном случае

357
00:26:55,966 --> 00:27:00,352
либо, иногда, со старой доброй завистью.

358
00:27:00,352 --> 00:27:04,692
Пиксельные форматы описываются уникальным названием четырехсимвольного кода (FourCC).

359
00:27:04,692 --> 00:27:08,115
Их существует довольно много, и нет смысла сейчас приводить их все.

360
00:27:08,115 --> 00:27:13,704
Google ваш друг. Имейте в виду, что коды FourCC для сырого видео определяют порядок пикселей

361
00:27:13,704 --> 00:27:20,339
и субдискретизации насыщенности, но в общем случае не говорят ничего конкретного о размещении пикселей насыщенности или пространстве цветов.

362
00:27:20,339 --> 00:27:25,807
Для примера, YV12 video может использовать размещение JPEG, MPEG-2 или DV,

363
00:27:25,807 --> 00:27:28,991
а также любой из нескольких определений пространств цвета YUV.

364
00:27:29,472 --> 00:27:33,913
Это завершает наше не столь быстрое и ещё не совсем законченное путешествие в сырое видео.

365
00:27:33,913 --> 00:27:38,651
Хорошие новости в том, что мы уже можем выполнить достаточно много настоящей работы, опираясь на данный обзор.

366
00:27:38,651 --> 00:27:42,528
Во множестве ситуаций, кадр видеоданных является кадром видеоданных.

367
00:27:42,528 --> 00:27:46,451
Детали приобретают значение, когда приходит время писать программы,

368
00:27:46,452 --> 00:27:52,086
а сейчас я удовлетворен тем, что уважаемый зритель широко осведомлен в соответствующих вопросах.

369
00:27:55,640 --> 00:27:59,230
Итак. У нас есть аудиоданные. У нас есть видеоданные.

370
00:27:59,230 --> 00:28:03,246
Что осталось - так более знакомые не-сигнальные данные и непосредственное проектирование

371
00:28:03,246 --> 00:28:07,410
программного обеспечения, используемого разработчиками. И многое из всего этого!

372
00:28:07,928 --> 00:28:11,768 
Цепочки данных сырого аудио или видео не имеют внешней видимой структуры,

373
00:28:11,768 -->  00:28:15,173
но они часто имеют одинаковый размер. Мы можем просто выстроить их вместе

374
00:28:15,173 --> 00:28:18,097
в жестком предопределенном порядке для стримминга или хранения,

375
00:28:18,097 --> 00:28:21,040
и многие простые системы делают примерно то же самое.

376
00:28:21,040 --> 00:28:24,195
С другой стороны, сжатые кадры не обязательно имеют предсказуемый размер,

377
00:28:24,195 --> 00:28:29,405
и нам часто может требоваться некоторая гибкость в использовании данных ряда различных типов в потоках.

378
00:28:29,405 --> 00:28:34,281
Если мы расположим произвольные бесформенные данные вместе, мы потеряем границы, разделяющие кадры

379
00:28:34,281 --> 00:28:37,871
и не сможем при необходимости узнать, какие данные к какому потоку относятся.

380
00:28:37,871 --> 00:28:42,192
Потоку необходима некоторая обобщенная структура, чтобы он был полезен.

381
00:28:42,192 --> 00:28:46,606
В дополнение к нашим сигнальным данным, у нас также есть наши параметры ИКМ и видео.

382
00:28:46,606 --> 00:28:49,752
Также существует множество других метаданных, с которыми мы также хотим работать,

383
00:28:49,752 --> 00:28:55,415
таких как аудио теги и главы видео, субтитры - все естественные компоненты rich media.

384
00:28:55,415 --> 00:29:01,633
Имеет смысл располагать эти метаданные, другими словами данные о данных, внутри самого носителя.

385
00:29:01,633 --> 00:29:06,445
Хранение и структурирование бесформенных данных и разнородных метаданных - это работа контейнера.

386
00:29:06,445 --> 00:29:09,221
Контейнеры предоставляют структурирование blob'ов (бинарных блоков) данных,

387
00:29:09,221 --> 00:29:12,015
чередование и идентификацию множества потоков данных,

388
00:29:12,015 --> 00:29:15,337
предоставляют информацию синхронизации и хранят метаданные, необходимые

389
00:29:15,337 --> 00:29:19,140
для разбора, навигации, управления и представления данных

390
00:29:19,140 --> 00:29:22,222
В общем, любой контейнер может содержать любой вид данных.

391
00:29:22,222 --> 00:29:24,970
И данные могут размещаться в любом контейнере.

392
00:29:28,801 --> 00:29:32,391 
За последние тридцать минут мы охватили цифровое аудио и видео,

393
00:29:32,391 --> 00:29:35,435
немного истории и математики и немного проектирования.

394
00:29:35,435 --> 00:29:39,377
Мы только начали, но пришло время для заслуженного перерыва.

395
00:29:41,107 --> 00:29:45,373
Есть ещё так много, о чем стоит поговорить, поэтому я надеюсь, что вы присоединитесь ко мне снова в нашем следующем эпизоде.

396
00:29:45,373 --> 00:29:47,159
До тех пор--- Пока!