1
00:00:08,124 --> 00:00:10,742
Computadores profesionales y sistemas de muy alta calidad

2
00:00:10,742 --> 00:00:14,749
han podido manipular audio digital con facilidad desde hace casi quince años.

3
00:00:14,749 --> 00:00:17,470
Sólo hace cinco años que un computador decente ha podido

4
00:00:17,470 --> 00:00:21,643
trabajar con formatos de vídeo sin necesitar equipo adicional.

5
00:00:21,643 --> 00:00:25,400
Pero hoy, aún los computadores más baratos tienen el poder de procesamiento

6
00:00:25,400 --> 00:00:28,092
y la capacidad de almacenamiento necesaria para editar formatos de video

7
00:00:28,092 --> 00:00:30,479
sin mucho esfuerzo.

8
00:00:30,479 --> 00:00:33,579
Ahora que todo el mundo tiene estos equipos modernos

9
00:00:33,579 --> 00:00:36,651
hay mas personas que, sin duda, desean hacer proyectos

10
00:00:36,651 --> 00:00:39,908
más interesantes en áreas de multimedia digital, especialmente vídeo.

11
00:00:39,908 --> 00:00:44,017
YouTube fue el primer gran éxito, y ahora todo el mundo quiere entrar.

12
00:00:44,017 --> 00:00:47,413
Y, pues, ¡que bueno!  ¡Este campo es de lo mejor!

13
00:00:48,250 --> 00:00:51,179
No es difícil encontrar consumidores de media digital.

14
00:00:51,179 --> 00:00:54,649
Pero aquí me interesa hablarle a los ingenieros, a los matemáticos,

15
00:00:54,649 --> 00:00:57,869
a los “hackers” y la gente a quien le interesa descubrir

16
00:00:57,869 --> 00:01:01,302
y crear cosas y construir tecnologías.

17
00:01:01,302 --> 00:01:03,282
Son las personas que van tras de mi propio corazón.

18
00:01:04,250 --> 00:01:08,723
La media digital, especialmente la compresión, se percibe como elitista,

19
00:01:08,723 --> 00:01:12,822
y mucho más difícil que cualquier otra cosa en las ciencias de computación.

20
00:01:12,822 --> 00:01:15,700
A los grandes de la industria no les molesta esta percepción;

21
00:01:15,700 --> 00:01:19,734
les ayuda a justificar la gran cantidad de patentes que mantienen.

22
00:01:19,734 --> 00:01:23,870
A ellos les gusta la imagen de que sus investigadores son de lo mejor,

23
00:01:23,870 --> 00:01:27,738
tan más inteligentes que el resto del mundo, que sus ideas

24
00:01:27,738 --> 00:01:29,903
no las podemos entender nosotros, los meros mortales.

25
00:01:30,625 --> 00:01:33,716
Esto son  patrañas.

26
00:01:35,205 --> 00:01:38,900
La compresión y streaming de audio y video digital

27
00:01:38,900 --> 00:01:42,738
ofrecen retos mentales profundos y muy estimulantes

28
00:01:42,738 --> 00:01:44,662
como cualquier otra disciplina.

29
00:01:44,662 --> 00:01:47,929
Parece elitista porque tan poca gente se ha envuelto.

30
00:01:47,929 --> 00:01:51,223
Muy poca gente se ha envuelto tal vez porque muy pocos

31
00:01:51,223 --> 00:01:54,665
podían pagar por el equipo tan costoso que solía ser necesario.

32
00:01:54,665 --> 00:01:58,792
Pero ahora, casi cualquier persona viendo este video tiene un computador

33
00:01:58,792 --> 00:02:03,317
barato y de uso básico capaz de compararse con los chicos grandes.

34
00:02:05,926 --> 00:02:11,108
Hay batallas librándose hoy mismo sobre HTML-5 y navegadores web

35
00:02:11,108 --> 00:02:13,671
y video y codigo libre o no-libre.

36
00:02:13,671 --> 00:02:17,048
Es un momento ideal para envolverse en todo esto.

37
00:02:17,048 --> 00:02:20,000
La forma más facil para empezar es entendiendo

38
00:02:20,000 --> 00:02:22,619
la tecnología que tenemos al momento.

39
00:02:23,500 --> 00:02:25,071
Esta es una introducción.

40
00:02:25,071 --> 00:02:28,180
Como es una introducción, hay muchos detalles que no se incluyen

41
00:02:28,180 --> 00:02:30,882
sino que es un resumen más general sobre el tema.

42
00:02:30,882 --> 00:02:33,908
Muchos de ustedes ya conocerán mucho

43
00:02:33,908 --> 00:02:36,378
de lo que estaré hablando, al menos por ahora.

44
00:02:36,378 --> 00:02:40,293
Por otro lado, es posible que para otros voy a ir muy rápido,;

45
00:02:40,293 --> 00:02:44,558
si eres totalmente nuevo a este tema: relájate.

46
00:02:44,558 --> 00:02:48,629
Lo importante es escuchar las ideas que capturen tu imaginación.

47
00:02:48,629 --> 00:02:52,497
Pon atención al vocabulario que se use sobre esas ideas

48
00:02:52,479 --> 00:02:56,078
porque luego puedes buscar en Google y Wikipedia,

49
00:02:56,078 --> 00:02:57,753
y así investigar tanto como te interese.

50
00:02:57,753 --> 00:03:00,094
Así que, sin más preámbulos,

51
00:03:00,094 --> 00:03:03,351
bienvenido a la nueva afición de tu vida.

52
00:03:10,291 --> 00:03:13,030
Un sonido es una propagación de ondas de presión de aire,

53
00:03:13,030 --> 00:03:16,981
expandiéndose desde un orígen, como cuando lanzas una piedra a un lago.

54
00:03:16,981 --> 00:03:19,489
Un micrófono, y también el oído humano,

55
00:03:19,489 --> 00:03:22,876
convierten estas ondas de presión en señales eléctricas.

56
00:03:22,876 --> 00:03:25,800
Esto es ciencia básica y puede que ya lo sepas.

57
00:03:25,800 --> 00:03:26,771
Continuemos.

58
00:03:27,465 --> 00:03:32,527
Esa señal de audio es una uni-dimensional – un valor único que varía con el tiempo.

59
00:03:32,527 --> 00:03:34,248
Si reducimos la velocidad un poco...

60
00:03:36,450 --> 00:03:38,190
puedes ver la función más claramente.

61
00:03:38,190 --> 00:03:40,688
Ciertos otros aspectos de la señal son importantes.

62
00:03:40,688 --> 00:03:43,418
La señal es continua tanto en valor como en tiempo;

63
00:03:43,418 --> 00:03:46,813
o sea, en todo momento va a tener cualquier valor real,

64
00:03:46,813 --> 00:03:50,228
y ese valor varía sólo levemente de momento a momento.

65
00:03:50,228 --> 00:03:52,439
No importa cuánto nos acerquemos,

66
00:03:54,068 --> 00:03:58,510
no hay descontinuidades, ni singularidades, ni saltos instantáneos

67
00:03:58,510 --> 00:04:01,285
o puntos en los que la señal deja de existir.

68
00:04:03,247 --> 00:04:08,475
Está bien definida en todo lugar.  Estas señales se definen en términos básicos de la matemática continua.

69
00:04:11,001 --> 00:04:15,378
Una señal digital, por otra parte, es discreta tanto en valor como en tiempo.

70
00:04:15,378 --> 00:04:19,107
En el sistema más simple y más común, llamado modulación de códigos de impulso (PCM en inglés),

71
00:04:19,107 --> 00:04:24,058
uno de entre varios posibles valores representa la amplitud de señal

72
00:04:24,058 --> 00:04:30,165
en puntos de tiempo separados a distancias fijas.  El resultado es una serie de dígitos.

73
00:04:30,674 --> 00:04:35,309
Esto se ve muy parecido a lo que ves aquí.

74
00:04:35,309 --> 00:04:39,964
Parecería que deberíamos poder convertir de una señal a otra con precisón,

75
00:04:39,964 --> 00:04:44,683
y, de hecho, el Teorema de Sampling confirma y explica cómo hacer esto.

76
00:04:44,683 --> 00:04:48,477
Publicado por Claude Shannon en 1949

77
00:04:48,477 --> 00:04:52,409
y compuesto en la obra de Nyquist y Hartley, entre otros,

78
00:04:52,409 --> 00:04:56,138
el teorema de sampling ice que podemos alternar entre señales análogas y

79
00:04:56,138 --> 00:05:00,913
señales digitales, y también muestra condiciones con las cuales la conversión

80
00:05:00,913 --> 00:05:06,779
ocurrirá sin pérdida y las dos representaciones serán equivalentes e intercambiables.

81
00:05:06,779 --> 00:05:10,601
Cuando las condiciones sin pérdida no se cumplen, el teorema nos dice

82
00:05:10,601 --> 00:05:14,247
cómo y cuál información se pierde o se corrompe.

83
00:05:14,900 --> 00:05:21,270
Hasta muy recientemente, la tecnología análoga era la base para prácticamente todo audio,

84
00:05:21,270 --> 00:05:25,267
y eso no era porque la mayoría del audio proviene de una fuente análoga.

85
00:05:25,267 --> 00:05:28,450
Tal vez piensas que como los computadores son relativamente recientes,

86
00:05:28,450 --> 00:05:31,643
la tecnología se señales análogas debió haber llegado primero.

87
00:05:31,643 --> 00:05:34,428
Nop.  La digital es más antigua.

88
00:05:34,428 --> 00:05:37,611
El telégrafo es más antiguo que el teléfono por medio siglo,

89
00:05:37,611 --> 00:05:41,951
y ya estaba completamente automatizado para los 1860s, enviando señales

90
00:05:41,951 --> 00:05:46,476
codificadas y multifacéticas a través de largas distancias.

91
00:05:46,476 --> 00:05:50,427
Harry Nyquist de los Laboratorios Bell investigaba transmisiónes de telegráfo

92
00:05:50,427 --> 00:05:53,027
cuando publicó su descripción de lo que se vino a conocer como

93
00:05:53,027 --> 00:05:57,219
la frequencia Nyquist, el concepto clave del teorema de sampling.

94
00:05:57,219 --> 00:06:01,642
Ahora, es cierto que el telégrafo transmitía información simbólica (texto)

95
00:06:01,642 --> 00:06:06,883
y no una señal de audio digitalizada, pero con la llegada del teléfono y la radio

96
00:06:06,883 --> 00:06:12,000
las tecnologías análogas y digitales progresaron rápidamente y a la par una con otra.

97
00:06:12,699 --> 00:06:18,732
El audio siempre se ha manipulado como una señal análoga ya que, pues, era la forma más fácil..

98
00:06:18,732 --> 00:06:23,257
Un filtro sencillo de pasabajo, por ejemplo, requiere dos componentes pasivos.

99
00:06:23,257 --> 00:06:26,505
Un transformador análogo Fourier requiere varios cientos de componentes.

100
00:06:26,505 --> 00:06:30,752
O tal vez varios miles si quieres construir algo de calidad.

101
00:06:31,844 --> 00:06:35,989
Procesar señales digitalmente require millones o billones de transistores

102
00:06:35,989 --> 00:06:40,366
operando a frequencias de microondas, mas equipo de apoyo al menos para digitalizar

103
00:06:40,366 --> 00:06:43,836
y reconstruir las señales análogas, un ecosistema de software

104
00:06:43,836 --> 00:06:47,362
para programar y controlar ese monstruo de billones de transistores

105
00:06:47,362 --> 00:06:51,091
y almacenamiento digital en caso de que quieras guardar esos bits para otro día...

106
00:06:51,091 --> 00:06:56,171
Podemos concluir entonces que análogo es la manera más practica de trabajar con audio...

107
00:06:56,171 --> 00:07:07,019
a menos que tengas un billón de transistores y todo lo demás a tu disposición.

108
00:07:07,850 --> 00:07:12,660
Y como nosotros sí lo tenemos, el procesamiento digital sí resulta más atractivo.

109
00:07:13,363 --> 00:07:18,906
Por un lado, los equipos análogos no tienen la flexibilidad que tiene un computador.

110
00:07:18,906 --> 00:07:21,182
Añadir una nueva función a esta bestia...

111
00:07:22,191 --> 00:07:24,578
mmm, no.  No vamos a poder.

112
00:07:24,578 --> 00:07:26,567
Pero en un procesador digital...

113
00:07:28,668 --> 00:07:34,127
...sólo hace falta escribir un programa nuevo.  No es súper fácil, pero es mucho más fácil.

114
00:07:34,127 --> 00:07:39,550
Lo que es tal vez más importante es que todo componente análogo es una aproximación.

115
00:07:39,550 --> 00:07:44,352
No hay tal cosa como un transistor perfecto, o un inductor perfecto, o un capacitador perfecto...

116
00:07:44,352 --> 00:07:51,569
En análogo, todo componente añade sonido y distorsión – no mucho en general, pero se acumula.

117
00:07:51,569 --> 00:07:55,669
Sólo transmitir una señal análoga, especialmente a través de distancias largas,

118
00:07:55,669 --> 00:08:00,434
corrompe la señal progresivamente e irreparablemente.

119
00:08:00,434 --> 00:08:06,513
Además, todos esos componentes análogos ocupan mucho espacio.

120
00:08:06,513 --> 00:08:09,946
Dos líneas de código en los billones de transistores aquí atrás

121
00:08:09,946 --> 00:08:14,702
pueden implementar un filtro que requeriría un inductor del tamaño de un refrigerador.

122
00:08:14,702 --> 00:08:17,941
Los sistemas digitales no tienen estas desventajas.

123
00:08:17,941 --> 00:08:24,335
Las señales digitales se pueden almacenar, copiar, manipular y transmitir sin añadir ruido o distorsión.

124
00:08:24,335 --> 00:08:26,889
Sí usamos algoritmos con pérdida de tiempo en tiempo,

125
00:08:26,889 --> 00:08:31,284
pero los únicos pasos no-ideales e inevadibles son la digitalización y la reconstrucción,

126
00:08:31,284 --> 00:08:35,929
en la cual lo digital debe interactuar con toda esa complicación análoga.

127
00:08:35,929 --> 00:08:40,750
Complicado o no, los métodos modernos de conversión son muy, muy buenos.

128
00:08:40,750 --> 00:08:45,849
Para los estándares de nuestros oídos, los podemos considerar prácticamente sin pérdidas.

129
00:08:45,849 --> 00:08:50,429
Con un poco de equipo adicional, pues, mucho del cual es ahora pequeño y bajo en costo,

130
00:08:50,429 --> 00:08:55,379
dada nuestra tecnología moderna, el audio digital triunfa fácilmente sobre el audio análogo.

131
00:08:55,379 --> 00:09:00,857
Así que aprendamos ahora cómo almacenarlo, copiarlo, manipularlo, y transmitirlo.

132
00:09:04,956 --> 00:09:08,639
La modulación de códigos de impulsos (PCM) es la representación más común de audio puro.

133
00:09:08,639 --> 00:09:13,867
Existen otras representaciones prácticas, por ejemplo el codigo Sigma-Delta usado por el SACD,

134
00:09:13,867 --> 00:09:16,625
que es una forma de modulación por densidad de impulsos.

135
00:09:16,625 --> 00:09:19,687
Dicho esto, el PCM es el método dominante

136
00:09:19,687 --> 00:09:22,158
mayormente porque es conveniente matemáticamente.

137
00:09:22,158 --> 00:09:26,350
Un ingeniero de audio puede dedicar una carrera entera trabajando sólo con esta modulación.

138
00:09:26,350 --> 00:09:29,135
La codificación PCM se puede caracterizar en tres parámetros;

139
00:09:29,135 --> 00:09:34,187
esto hace fácil distinguir entre toda variante posible de PCM sin mucha dificultad.

140
00:09:34,187 --> 00:09:36,426
El primer parámetro es la tasa de sampling (sampling rate).

141
00:09:36,426 --> 00:09:40,886
La frecuencia más alta que puede representar un código se llama la Frecuencia Nyquist.

142
00:09:40,886 --> 00:09:45,124
La frecuencia Nyquist de un PCM es exactamente la mitad de su sampling rate.

143
00:09:45,124 --> 00:09:51,389
Por eso, el sampling rate determina la frecuencia más alta posible de la señal digital.

144
00:09:51,389 --> 00:09:56,515
Los sistemas de teléfonos análogos limitaban los canales de voz a sólo 4kHz,

145
00:09:56,515 --> 00:10:02,224
así que la telefonía digital y muchas de las aplicaciones de voz clásicas usan un sampling rate de 8kHz,

146
00:10:02,224 --> 00:10:07,277
que es el sampling rate mínimo necesario para capturar el ancho de banda de un canal de 4kHz.

147
00:10:07,227 --> 00:10:14,263
Así es como suena un sampling rate de 8kHz – un poco fogoso pero perfectamente entendible para voz.

148
00:10:17,263 --> 00:10:18,149
Este es el sampling rate más bajo que se ha usado ampliamente.

149
00:10:18,149 --> 00:10:23,322
A partir de ahí, mientras la capacidad, memoria y almacenamiento aumentaron, los computadores

150
00:10:23,322 --> 00:10:29,642
ofrecieron samplings de 11, luego 16, luego 22, y luego 32kHz.

151
00:10:29,642 --> 00:10:33,491
Con cada aumenteo en el sampling rate y la frecuencia Nyquist,

152
00:10:33,491 --> 00:10:38,302
es obvio que el sonido se vuelve más claro y más natural.

153
00:10:38,301 --> 00:10:44,576
Un Disco Compacto (CD) usa un sampling rate de 44.1kHz, el cual es un poco mejor que 32kHz,

154
00:10:44,576 --> 00:10:46,788
pero las ventajas se notan menos a estos niveles.

155
00:10:46,788 --> 00:10:52,053
44.1kHz es un valor inusual, especialmente porque no se había usado nunca anteriormente

156
00:10:52,053 --> 00:10:56,559
antes del disco compacto, pero el éxito rotundo del CD lo ha hecho un sampling rate común.

157
00:10:56,559 --> 00:11:01,195
El otro sampling rate común de alta fidelidad es 48kHz.

158
00:11:05,710 --> 00:11:08,597
No hay casi ninguna diferencia notable al oído humano entre estos dos niveles.

159
00:11:08,597 --> 00:11:13,640
Este video, o al menos la versión original, se filmó y produjo con audio a 48kHz,

160
00:11:13,640 --> 00:11:18,545
que es el estándar original para audio con vídeo de alta fidelidad.

161
00:11:18,545 --> 00:11:25,100
También existen sampling rates de super alta fidelidad de 88, 96, y 192kHz.

162
00:11:25,100 --> 00:11:30,888
La razón para niveles por encima de 48kHz no es extender las frequencias aún más.

163
00:11:30,888 --> 00:11:32,489
La razón es otra.

164
00:11:32,896 --> 00:11:37,319
Veamos: El matemático francés Jean Baptiste Joseph Fourier mostró que

165
00:11:37,319 --> 00:11:42,353
podemos pensar en señales de audio como un conjunto de frequencias de componentes.

166
00:11:42,353 --> 00:11:45,841
Esta representación de dominios de frequencia es equivalente a una representación de tiempo;

167
00:11:45,841 --> 00:11:49,719
la señal es exactamente la misma, sólo que la estamos viendo de un punto de vista diferente.

168
00:11:49,719 --> 00:11:56,131
Aquí vemos la representación de dominios de frequencia de una señal análoga que queremos convertir a digital.

169
00:11:56,131 --> 00:11:59,888
El teorema de sampling nos dice dos cosas esenciales sobre el proceso de muestreo.

170
00:11:59,888 --> 00:12:04,727
Primero, que una señal digital no puede representar ninguna frecuencia sobre la frequencia Nyquist.

171
00:12:04,727 --> 00:12:10,640
Segundo – y esto es lo nuevo – si no removemos esas frecuencias con un filtro de pasabajo antes de muestrear,

172
00:12:10,640 --> 00:12:16,414
el proceso de muestreo las va a tratar de representar bajo una frecuencia aceptable, como distorsión dentada.

173
00:12:16,414 --> 00:12:20,069
Esta distorsión, en resumen, suena muy, muy mal,

174
00:12:20,069 --> 00:12:25,242
así que es esencial remover frecuencias sobre la frecuencia Nyquist antes de convertir una señal.

175
00:12:25,871 --> 00:12:31,265
La percepción humana de frequencias se extiende hasta más o menos 20kHz.

176
00:12:31,265 --> 00:12:37,548
En samplings de 44.1 o 48kHz, el pasabajo antes de la etapa de sampling tiene que ser muy preciso

177
00:12:37,548 --> 00:12:42,101
para que no corte ninguna frecuencia audible por debajo de 20kHz

178
00:12:42,101 --> 00:12:49,439
y a la vez evite que frecuencias por encima de la Nyquist se infiltren en el proceso de sampling.

179
00:12:49,439 --> 00:12:55,342
Este es un filtro difícil de construir y ningún filtro en particular lo logra totalmente.

180
00:12:55,342 --> 00:13:00,024
Si el sampling rate es de 96kHz o de 192kHz, por otro lado,

181
00:13:00,024 --> 00:13:07,223
el pasabajo tiene una o dos octavas adicionales para su banda de transición.  Este es un filtro más fácil de construir.

182
00:13:07,223 --> 00:13:14,348
Sampling rates mayores de 48kHz son más que nada un compromiso inexacto entre análogo y digital.

183
00:13:15,014 --> 00:13:20,844
El segundo parámetro importante del PCM es el formato del sample, es decir, el formato de cada número digital.

184
00:13:20,844 --> 00:13:26,285
Un número es un número, pero se puede representar en bits en varias formas.

185
00:13:26,942 --> 00:13:30,902
Los PCM antiguos eran de ocho bits lineares, codificados usando un byte no-firmado.

186
00:13:30,902 --> 00:13:37,028
El alcance dinámico está limitado a 50dB y el sonido de cuantificación, como puedes oir, es severo.

187
00:13:37,028 --> 00:13:39,970
El audio de ocho bits está desapareciendo actualmente.

188
00:13:41,007 --> 00:13:47,484
La telefonía digital usa una de dos codificaciones no lineares de ocho bits, llamadas A-law y mu-law.

189
00:13:47,484 --> 00:13:51,287
Estos formatos codifican un registro de 14 bits a uno de ocho bits

190
00:13:51,287 --> 00:13:54,674
expandiendo los valores de mayor amplitud a mayor distancia.

191
00:13:54,674 --> 00:13:59,226
A-law y mu-law aumentan el sonido de cuantificación comparado con el 8-bit linear

192
00:13:59,226 --> 00:14:03,557
y armonías de voces esconden bien el resto del sonido de cuantificación.

193
00:14:03,557 --> 00:14:08,248
Todos estas codificaciones de 8-bits: linear, A-law y mu-law típicamente se parean

194
00:14:08,248 --> 00:14:13,328
con un sampling rate de 8kHz, aunque aquí lo estoy demostrando a 48kHz.

195
00:14:13,328 --> 00:14:18,491
La mayoría de los PCM modernos usan íntegros de 16 ó 24-bits para codificar

196
00:14:18,491 --> 00:14:23,858
el registro desde infinidad negativa hasta cero decibeles a 16 ó 24 bits de precisión.

197
00:14:23,858 --> 00:14:27,800
El valor absoluto máximo corresponde a zero decibeles.

198
00:14:27,800 --> 00:14:31,584
Como con todos los formatos de sample hasta ahora, las señales por encima de cero decibeles

199
00:14:31,584 --> 00:14:35,619
y por tanto fuera del registro máximo se eliminan.

200
00:14:35,619 --> 00:14:41,199
Al mezclar y masterizar, no es inusual usar puntos flotantes para PCM en vez de números íntegros.

201
00:14:41,199 --> 00:14:47,222
Un punto flotante IEEE754 de 32 bits, que es el punto típico que encuentras en computadores modernos

202
00:14:47,222 --> 00:14:52,793
tiene 24 bits de resolución, pero un punto flotante exponente de 7 bits aumenta el registro representable.

203
00:14:52,793 --> 00:14:57,040
Un punto flotante por lo general representa cero decibeles como +/-1.0,

204
00:14:57,040 --> 00:15:00,547
y ya que flota, se puede representar considerablemente por encima o por debajo de ese número;

205
00:15:00,547 --> 00:15:05,220
así, excedir cero decibeles temporeramente durante el proceso de mezcla no causa recortes de audio (clipping).

206
00:15:05,220 --> 00:15:11,077
PCM con puntos flotantes toma más espacio para almacenar, por lo que sólo se debe usar durante la producción.

207
00:15:11,077 --> 00:15:15,796
Por último, la mayoría de los computadores todavía leen y escriben data en bytes octetos,

208
00:15:15,796 --> 00:15:18,489
así que es importante recordar que samples mayores de 8-bits

209
00:15:18,489 --> 00:15:22,838
pueden estar en un extremo (endianidad) grande o pequeño, y ambos son comunes.

210
00:15:22,838 --> 00:15:28,751
Por ejemplo, archivos Microsoft WAV son de menor endianidad y archivos Apple AIFC son de mayor endianidad.

211
00:15:28,751 --> 00:15:30,139
Ten esto en cuenta.

212
00:15:30,870 --> 00:15:34,071
El tercer parámetro de PCM es el número de canales.

213
00:15:34,071 --> 00:15:38,485
Lo común en PCM puros es codificar muchos canales entrelazando los samples

214
00:15:38,485 --> 00:15:43,398
de cada canal y volviéndolos uno.  Simple y repetible.

215
00:15:43,398 --> 00:15:47,701
Y eso es todo!  Esto describe toda representacion de PCM que existe.

216
00:15:47,701 --> 00:15:51,578
Y así terminamos.  El audio digital es _muy facil_!

217
00:15:51,578 --> 00:15:56,436
Hay mucho más que hacer, por supuesto, pero en este punto tenemos suficiente data de audio,

218
00:15:56,436 --> 00:15:58,092
así que veamos algo de vídeo también.

219
00:16:02,571 --> 00:16:08,798
Se podría ver a un video como si fuera audio pero con dos dimensiones: X y Y,

220
00:16:08,798 --> 00:16:12,787
además de la dimensión de tiempo.  Esto tiene sentido matemáticamente.

221
00:16:12,787 --> 00:16:19,097
El Teorema de Sampling aplica a las tres dimensiones de un video así como a la única dimensión del audio.

222
00:16:19,097 --> 00:16:25,815
El audio y el video son obviamente diferentes en práctica.  Para empezar, comparado con el audio, un video es enorme.

223
00:16:25,815 --> 00:16:29,294
Audio puro de CD usa cerca de 1.4 megabits por segundo.

224
00:16:29,294 --> 00:16:33,958
Video puro de alta definición 1080i usa sobre 700 megabits por segundo.

225
00:16:33,958 --> 00:16:40,056
Es más de 500 veces más data para capturar, procesar, y almacenar cada segunto.

226
00:16:40,056 --> 00:16:43,711
Según la ley de Moore, eso es... veamos... cerca de ocho duplicaciones, por dos años,

227
00:16:43,711 --> 00:16:47,838
sí, un computador requeriría unos quince años extra para procesar video puro

228
00:16:47,838 --> 00:16:51,252
luego de terminar de procesar audio puro.

229
00:16:51,252 --> 00:16:55,425
Un video puro básico es también más complejo que un audio puro básico.

230
00:16:55,425 --> 00:16:58,599
La gran cantidad de data necesita una representación

231
00:16:58,599 --> 00:17:02,106
más eficiente que el PCM linear que usamos para el audio.

232
00:17:02,106 --> 00:17:06,705
Además, el video electrónico viene casi enteramente de transmisiones por televisión,

233
00:17:06,705 --> 00:17:13,423
y los comités de estándares para la televisión siempre se han preocupados por mantener compatibilidad.

234
00:17:13,423 --> 00:17:17,559
Hasta hace sólo casi un año en los EEUU, un televisor blanco y negro de sesenta años

235
00:17:17,559 --> 00:17:21,038
todavía podía mostrar una transmisión normal análoga de televisión.

236
00:17:21,038 --> 00:17:23,879
Eso era sin duda algo muy útil para la industria.

237
00:17:23,879 --> 00:17:28,718
Lo malo de la compatibilidad retroactiva es que una ves un detalle se convierte en estándar,

238
00:17:28,718 -->  00:17:30,985
no se puede eliminar fácilmente.

239
00:17:30,985 --> 00:17:37,305
El vídeo electrónico nunca se ha recomenzado desde cero en la forma en que el audio sí se ha reconstruido.

240
00:17:37,305 --> 00:17:43,958
Sesenta años de cambios necesitados por una tecnología obsoleta de una era antigua

241
00:17:43,958 --> 00:17:50,102
se han acumulado en grande, y ya que los estándares digitales también provienen de la industria de televisión,

242
00:17:50,102 --> 00:17:54,664
todos estos cambios se han transferido a los estándares digitales también.

243
00:17:54,664 --> 00:18:00,022
Para resumir, hay muchos más detalles envueltos en un video digital que los que hay con audio.

244
00:18:00,022 --> 00:18:05,592
No hay manera de cubrirlos todos aquí, así que hablaremos de los fundamentos principales.

245
00:18:06,036 --> 00:18:10,857
El parámetro más obvio del video puro es el ancho y la altura de la imagen en pixeles.

246
00:18:10,857 --> 00:18:15,882
Por tan simple como suene, las dimenciones solas en realidad no especifican

247
00:18:15,882 --> 00:18:22,016
el ancho y alto absoluto de una imagen, ya que la mayoría de los videos no usan pixeles cuadrados.

248
00:18:22,016 --> 00:18:25,005
El número de trazos por linea en una imagen de video para transmisión se hizo fija,

249
00:18:25,005 --> 00:18:29,021
pero el número de pixeles horizontales dependía de la banda de ancho del canal de TV.

250
00:18:29,021 --> 00:18:31,945
La resolución horizontal podía resultar en pixeles que eran más estrechos

251
00:18:31,945 --> 00:18:35,489
o más anchos que el espacio entre las líneas de trazo en el televisor.

252
00:18:35,489 --> 00:18:38,395
Varios estándares han especificado que los videos convertidos digitalmente

253
00:18:38,395 --> 00:18:41,902
deben reflejar la resolución de la fuente análoga original,

254
00:18:41,902 --> 00:18:45,566
por lo que una gran cantidad de video digital también usa pixeles que no son cuadrados.

255
00:18:45,566 --> 00:18:49,924
Por ejemplo, un DVD normal NTSC con aspecto 4:3 está codificado típicamente

256
00:18:49,924 --> 00:18:55,374
con una resolució de 704 por 480, que es un aspecto mayor que 4:3.

257
00:18:55,374 --> 00:18:59,640
En este caso, a los pixeles se les asigna un aspecto de 10:11,

258
00:18:59,640 --> 00:19:04,553
haciéndolos más altos que anchos y reduciento la imagen horizontalmente hasta el aspecto correcto.

259
00:19:04,553 --> 00:19:09,800
Esa imagen debe ser re-muestreada (re-sampled) para adaptarse a una proyección digital con pixeles cuadrados.

260
00:19:10,253 -->  00:19:15,287
El segundo parámetro obvio de video es el frame rate: la cantidad de imágenes por segundo.

261
00:19:15,287 --> 00:19:19,655
Varios frame rates estándares se usan comúnmente.  El video digital, por lo general,

262
00:19:19,655 --> 00:19:23,689
los puede usar todos.  O cualquier frame rate.  O hasta frecuencias variables,

263
00:19:23,689 --> 00:19:27,113
en las que el frame rate cambia durante el video.

264
00:19:27,113 --> 00:19:32,998
Mientras mayor es el frame rate, mejor es el flujo del video; con esto llegamos al entrelazamiento (interlacing).

265
00:19:32,998 --> 00:19:37,967
En los primeros días de transmisión de video, muchos ingenieros buscaban el frame rate más rapido posible

266
00:19:37,967 --> 00:19:42,075
para mejorar el flujo de video y minimizar el “parpadeo” en televisores de tubo (CRTs).

267
00:19:42,075 --> 00:19:45,277
Estaban bajo presión para usar el menor ancho de banda posible

268
00:19:45,277 --> 00:19:48,182
para la mayor resolución y el frame rate más veloz.

269
00:19:48,182 --> 00:19:51,208
Su solución fue el entrelazar el video para que las líneas pares se enviaran en un paso

270
00:19:51,208 --> 00:19:54,826
y las línes impares se enviaran en el próximo paso.

271
00:19:54,826 --> 00:19:59,961
Cada paso se llama un campo y dos campos más o menos producen una imagen completa.

272
00:19:59,961 --> 00:20:05,319
“Más o menos” porque los campos no son en realidad parte de la misma imagen original.

273
00:20:05,319 --> 00:20:10,797
En una imagen de 60 campos/segundo, el frame rate de la imagen original es 60 imágenes por segundo,

274
00:20:10,797 --> 00:20:15,386
y la mitad de cada imagen – una de cada dos líneas – simplemente se descarta.

275
00:20:15,386 --> 00:20:20,272
Por esta razón no se puede desenlazar un video combinando dos campos en uno;

276
00:20:20,272 --> 00:20:23,039
ya que no provienen de la misma imagen de por sí.

277
00:20:24,047 --> 00:20:29,683
El tubo de rayos catódicos (CRT) era la única tecnología disponible durante la mayoría de la historia del video.

278
00:20:29,683 --> 00:20:32,949
La salida de un CRT es no-linear, aproximadamente igual al

279
00:20:32,949 --> 00:20:36,585
voltaje de entrada elevado a la 2.5va potencia.

280
00:20:36,585 --> 00:20:43,821
Este exponente, 2.5, es un gamma designado, y se le llama comúnmente el gamma de exposición.

281
00:20:43,821 --> 00:20:50,493
Las cámaras, sin embargo, son lineares, y si alimentas a un CRT con una señal linear de entrada, se verá algo así.

282
00:20:51,270 --> 00:20:56,637
Ya que originalmente habían muy pocas cámaras, y muy costosas,

283
00:20:56,637 --> 00:21:01,634
y se esperaba con suerte que surgieran muchos equipos de televisión bajos en costo,

284
00:21:01,634 --> 00:21:08,222
los ingenieros decidieron añadir correción de gamma a las cámaras y no a los televisores.

285
00:21:08,222 --> 00:21:13,062
Así, un video transmitido por ondas de aire tendría una intensidad no-linear igual al inverso

286
00:21:13,062 --> 00:21:18,271
del exponente de gamma del televisor, y una vez que la señal de una cámara se expusiera en el TV,

287
00:21:18,271 --> 00:21:23,305
la comunicación del sistema desde la cámara hacia el televisor volvería a ser linear.

288
00:21:23,777 --> 00:21:25,118
Casi.

289
00:21:30,393 --> 00:21:33,113
También hubo otras alteraciones.

290
00:21:33,113 --> 00:21:40,442
Una cámara de televisión usa un exponente de gamma que es en realidad 2.2 en vez de 2.5.

291
00:21:40,442 --> 00:21:43,754
Esto es una correción para ver televisión en un ambiente opaco.

292
00:21:43,754 --> 00:21:48,279
Además, la curva exponencial se transiciona a una rampa linear cerca del color negro.

293
00:21:48,279 --> 00:21:52,360
Esto es una alteración antigua para suprimir el sonido del sensor de la cámara.

294
00:21:54,941 --> 00:21:57,347
La corrección de gamma tambien tuvo un beneficio afortunado.

295
00:21:57,347 --> 00:22:02,214
Sucede que el ojo humano tiene una percepción de gamma de alrededor de 3.0.

296
00:22:02,214 --> 00:22:05,962
Esto es relativamente cerca de la gamma de un CRT, 2.5.

297
00:22:05,962 --> 00:22:10,607
Una imagen con corrección de gamma dedica una mayor resolución a las intensidades más bajas

298
00:22:10,607 --> 00:22:14,336
para las cuales el ojo tiene una más fina discriminación de intensidad

299
00:22:14,336 --> 00:22:18,222
y puede usar la resolución disponible más eficientemente.

300
00:22:18,222 --> 00:22:22,784
Aunque los CRTs están desapareciendo actualmente, el monitor de una computadora RGB estándar

301
00:22:22,784 --> 00:22:28,419
todavía usa una curva de intensidad no-linear como la de un televisor, con una rampa linear cerca del color negro,

302
00:22:28,419 --> 00:22:32,491
seguida por una curva exponencial con un exponente de gamma de 2.4.

303
00:22:32,491 --> 00:22:36,636
Esto convierte un registro linear de 16-bits a uno de 8-bits.

304
00:22:37,580 --> 00:22:41,790
El ojo humano tiene tres canales aparentes de color: rojo, verde, y azul,

305
00:22:41,790 --> 00:22:47,407
y la mayoría de los monitores usan estos tres colores como aditivos primarios para producir un registro completo de color.

306
00:22:49,258 --> 00:22:54,190
Los pigmentos primarios de impresión son cyan, magenta, y amarillo por la misma razón;

307
00:22:54,190 --> 00:22:59,381
los pigmentos son substractivos, y cada pigmento substrae (remueve) un color puro al reflejarse en la luz.

308
00:22:59,381 --> 00:23:05,682
El cyan remueve rojo, el magente remueve verde, y el amarillo remueve azul.

309
00:23:05,682 --> 00:23:10,919
El video se puede y se suele representar con canales rojo, verde, y azul,

310
00:23:10,919 --> 00:23:17,211
pero el video RGB (red, green, blue) no es típico.  El ojo humano es más sensitivo a la luminosidad que a un color,

311
00:23:17,211 --> 00:23:21,329
y el RGB tiende a distribuir la energia de una imagen a través de los tres canales de color.

312
00:23:21,329 --> 00:23:25,326
En otras palabras, el plano rojo se ve como una versión roja de la imagen original,

313
00:23:25,326 --> 00:23:28,769
y el plano verde se ve como una versió verde de la imagen original,

314
00:23:28,769 --> 00:23:32,063
y el plano azul se ve como una versión azul de la imagen original.

315
00:23:32,063 --> 00:23:35,705
Blanco y negro multiplicado por tres.  No es eficiente.

316
00:23:35,706 --> 00:23:39,438
Por esas razones y por que, bueno, la televisión comenzó en blanco y negro después de todo,

317
00:23:39,438 --> 00:23:45,017
el video se representa usualmente como un canal luma de alta resolución,

318
00:23:45,017 --> 00:23:51,041
uno de blanco y negro, y otros canales croma adicionales de baja resolución.

319
00:23:51,041 --> 00:23:57,074
El canal luma, “Y”, se produce al medir y luego añadir las señales rojas, verdes y azules.

320
00:23:57,074 --> 00:24:01,867
Los canales croma “U” y “V” se producen al restar la señal luma de la señal azul

321
00:24:01,867 --> 00:24:04,070
y la señal luma de la señal roja.

322
00:24:04,070 --> 00:24:11,750
Cuando se escala el YUV, adaptado para video digital, es usualmente más correcto llamarlo Y'CbCr,

323
00:24:11,750 --> 00:24:15,238
ya que el término generico YUV se usa para describir

324
00:24:15,238 --> 00:24:18,301
todas las variantes análogas y digitales de este modelo de color.

325
00:24:18,912 --> 00:24:22,983
Los canales croma “U” y “V” pueden tener la misma resolución que el canal Y,

326
00:24:22,983 --> 00:24:28,674
pero ya que el ojo humano tiene menos resolución espacial de color que resolución espacial de luminosidad,

327
00:24:28,674 --> 00:24:34,346
la resolución baja por lo general se reduce a la mitad o a un cuarto en la dirección horizontal, vertical,

328
00:24:34,346 --> 00:24:39,528
o en ambas, usualmente sin impactar la calidad visual de la imagen significativamente.

329
00:24:39,528 --> 00:24:43,942
Prácticamente toda variante posible de subsampling se ha usado en algún momento u otro,

330
00:24:43,942 --> 00:24:46,875
pero las opciones comunes actualmente son

331
00:24:46,875 --> 00:24:51,187
el video 4:4:4, que en realidad no es sub-muestreado (sub-sampled),

332
00:24:51,187 --> 00:24:56,711
el video 4:2:2 en el que las resoluciones croma “U” y “V” se reducen a la mitad,

333
00:24:56,711 --> 00:25:02,587
y el más comun, el video 4:2:0, en el que las resoluciones horizontales y verticales

334
00:25:02,587 --> 00:25:08,897
de los canales bajos se reducen a la mitad, resultando en planos U y V que son un cuarto del tamaño de Y.

335
00:25:08,897 --> 00:25:17,096
Los términos 4:2:2, 4:2:0 y 4:1:1, no son descripciones completas de un subsampling croma.

336
00:25:17,096 --> 00:25:21,186
Hay muchas maneras de posicionar los pixeles croma relativos al luma.

337
00:25:21,096 --> 00:25:24,776
y de nuevo, muchas variantes se usan activamente para cada subsampling.

338
00:25:24,776 --> 00:25:32,502
Por ejemplo, los formatos de video Motion JPEG, MPEG-1, MPEG-2, DV, Theora, y WebM usan

339
00:25:32,502 --> 00:25:38,137
o pueden usar subsampling de 4:2:0, pero posicionan los pixeles en maneras distintas.

340
00:25:38,498 --> 00:25:43,023
Los formatos Motion JPEG, MPEG1, Theora y el WebM posicionan los pixeles croma

341
00:25:43,023 --> 00:25:46,345
entre los pixeles luma tanto horizontal como verticalmente.

342
00:25:46,345 --> 00:25:51,989
El MPEG2 los posiciona entre lineas, pero alineados horizontalmente con cada dos pixeles luma.

343
00:25:51,989 --> 00:25:57,106
Formatos entrelazados complican las cosas un poco, resultando en un posicionamiento que es un poco extraño.

344
00:25:57,106 --> 00:26:00,909
Y finalmente, el video PAL-DV, que siempre es entrelazado, posiciona los pixeles croma

345
00:26:00,909 --> 00:26:04,398
en la misma posición que cada segundo pixel luma en la dirección horizontal,

346
00:26:04,398 --> 00:26:07,303
y verticalmente alterna el canal croma en cada línea.

347
00:26:07,683 --> 00:26:12,282
Y esto es solamente video 4:2:0.  Dejaré los otros subsamplings como tarea para tí.

348
00:26:12,282 --> 00:26:14,882
Ya tienes la idea básica; continuemos con algo nuevo.

349
00:26:15,511 --> 00:26:21,128
En el audio, siempre representamos múltiples canales en un stream PCM entrelazando los samples

350
00:26:21,128 --> 00:26:26,383
de cada canal en orden.  El video usa ambos formatos que entrelazan los canales de color

351
00:26:26,383 --> 00:26:30,584
así como formatos planares que mantienen los pixeles de cada canal juntos en líneas separadas,

352
00:26:30,584 --> 00:26:35,415
acumuladas en orden dentro de la imagen.  Hay al menos 50 formatos en estas dos categorías

353
00:26:35,415 --> 00:26:41,549
con al menos diez o quince en uso común.  Cada subsampling croma y profundidad de bit requieren

354
00:26:41,549 --> 00:26:46,574
un arreglo de formato diferente, y por tanto un formato de pixel direrente.  Para cada subsampling,

355
00:26:46,574 --> 00:26:50,858
hay por lo general varios formatos equivalentes que consisten de ordenes triviales

356
00:26:50,858 --> 00:26:55,966
de arreglos de canales debidos a costumbres antiguas o a algún tipo de equipo en particular

357
00:26:55,966 --> 00:27:00,352
o algunas veces simplemente a un buen antojo.

358
00:27:00,352 --> 00:27:04,692
Los formatos de pixeles se describen con un nombre único en código “fourcc”.

359
00:27:04,692 --> 00:27:08,115
Hay muchos de estos nombres y no tiene sentido ir por cada uno de ellos ahora mismo.

360
00:27:08,115 --> 00:27:13,704
Google es tu amigo.  Ten en mente que los códigos “fourcc” para video puro especifican el arreglo de pixeles

361
00:27:13,704 --> 00:27:20,339
y el subsampling croma, pero en general no especifican nada en específico sobre posicionamiento de colores.

362
00:27:20,339 --> 00:27:25,807
El formato de video YV12, por ejemplo, puede usar posicionamientos de JPEG, MPEG-2 o DV,

363
00:27:25,807 --> 00:27:28,991
y una de muchas posibles definiciones de espacio de color YUV.

364
00:27:29,472 --> 00:27:33,913
Esto concluye nuestro recorrido no muy corto y aún así muy incompleto sobre video.

365
00:27:33,913 --> 00:27:38,651
Las buenas noticias es que ya podemos hacer un poco de trabajo con lo que hemos aprendido.

366
00:27:38,651 --> 00:27:42,528
En muchas situaciones, una imagen de data de video es simplemente eso, una imagen de data de video.

367
00:27:42,528 --> 00:27:46,451
Los detalles importan, de gran manera, cuando toca escribir programas de software,

368
00:27:46,452 --> 00:27:52,086
pero por ahora estoy satisfecho de que tú ya estás informado sobre los asuntos relevantes.

369
00:27:55,640 --> 00:27:59,230
Entonces.  Tenemos data de audio.  Tenemos data de video.

370
00:27:59,230 --> 00:28:03,246
Lo que falta es incluir data tradicional y algo de ingeniería simple

371
00:28:03,246 --> 00:28:07,410
a la que los desarrolladores de software se han acosumbrado.

372
00:28:07,928 --> 00:28:11,768
Trozos de data de audio y de video no tienen una estructura visible externa,

373
00:28:11,768 -->  00:28:15,173
pero su tamaño es uniforme.  Podemos simplemente “amarrarlos”

374
00:28:15,173 --> 00:28:18,097
en un orden rígido y predeterminado para uso en streaming y almacenamiento,

375
00:28:18,097 --> 00:28:21,040
y algunos programas simples hacen precisamente esto.

376
00:28:21,040 --> 00:28:24,195
Las imágenes comprimidas, sin embargo, no tienen necesariamente un tamaño predecible,

377
00:28:24,195 --> 00:28:29,405
y usualmente queremos algo de flexibilidad para usar una variedad de formatos de data en nuestros proyectos.

378
00:28:29,405 --> 00:28:34,281
Si amarramos data al azar, podemos perder los límites que separan a las imágenes

379
00:28:34,281 --> 00:28:37,871
y no poder saber cuál data pertenece a cuál proyecto.

380
00:28:37,871 --> 00:28:42,192
Un proyecto necesita una estructura generalizada para ser útíl generalmente.

381
00:28:42,192 --> 00:28:46,606
Además de nuestra data de señal, también tenemos parámetros de PCM y de video.

382
00:28:46,606 --> 00:28:49,752
También probablemente hay mucha metadata con la que trabajar,

383
00:28:49,752 --> 00:28:55,415
como etiquetas de capítulos y subtítulos de audio y video, componentes esenciales de multimedia.

384
00:28:55,415 --> 00:29:01,633
Tiene sentido colocar esta metadata – o sea, data sobre la data – en el proyecto mismo de multimedia.

385
00:29:01,633 --> 00:29:06,445
El trabajo de un contenedor es almacenar y estructurar data que no tiene forma específica.

386
00:29:06,445 --> 00:29:09,221
Los contenedores proveen la estructura para los cuerpos de data,

387
00:29:09,221 --> 00:29:12,015
entrelazan e identifican mútiples fuentes de data,

388
00:29:12,015 --> 00:29:15,337
proveen imformación sobre tiempo, y almacenan la metadata necesaria

389
00:29:15,337 --> 00:29:19,140
para evaluar, navegar, manipular, y presentar la data.

390
00:29:19,140 --> 00:29:22,222
En general, cualquier contenedor puede contener cualquier tipo de data.

391
00:29:22,222 --> 00:29:24,970
Y la data se puede poner en cualquier contenedor.

392
00:29:28,801 --> 00:29:32,391
En los pasados treinta minutos, hemos aprendido sobre audio digital, video,

393
00:29:32,391 --> 00:29:35,435
algo de historia, algo de matemática, y un poco de ingeniería.

394
00:29:35,435 --> 00:29:39,377
Solamente hemos tocado la superficie de estos temas, pero es tiempo de un buen merecido descanso.

395
00:29:41,107 --> 00:29:45,373
Hay mucho más de qué hablar, así que espero que me acompañes de nuevo en nuestro próximo episodio.

396
00:29:45,373 --> 00:29:47,159
Hasta entonces, ¡buena suerte!