1 00:00:08,124 --> 00:00:10,742 Computadores profesionales y sistemas de muy alta calidad 2 00:00:10,742 --> 00:00:14,749 han podido manipular audio digital con facilidad desde hace casi quince años. 3 00:00:14,749 --> 00:00:17,470 Sólo hace cinco años que un computador decente ha podido 4 00:00:17,470 --> 00:00:21,643 trabajar con formatos de vídeo sin necesitar equipo adicional. 5 00:00:21,643 --> 00:00:25,400 Pero hoy, aún los computadores más baratos tienen el poder de procesamiento 6 00:00:25,400 --> 00:00:28,092 y la capacidad de almacenamiento necesaria para editar formatos de video 7 00:00:28,092 --> 00:00:30,479 sin mucho esfuerzo. 8 00:00:30,479 --> 00:00:33,579 Ahora que todo el mundo tiene estos equipos modernos 9 00:00:33,579 --> 00:00:36,651 hay mas personas que, sin duda, desean hacer proyectos 10 00:00:36,651 --> 00:00:39,908 más interesantes en áreas de multimedia digital, especialmente vídeo. 11 00:00:39,908 --> 00:00:44,017 YouTube fue el primer gran éxito, y ahora todo el mundo quiere entrar. 12 00:00:44,017 --> 00:00:47,413 Y, pues, ¡que bueno! ¡Este campo es de lo mejor! 13 00:00:48,250 --> 00:00:51,179 No es difícil encontrar consumidores de media digital. 14 00:00:51,179 --> 00:00:54,649 Pero aquí me interesa hablarle a los ingenieros, a los matemáticos, 15 00:00:54,649 --> 00:00:57,869 a los “hackers” y la gente a quien le interesa descubrir 16 00:00:57,869 --> 00:01:01,302 y crear cosas y construir tecnologías. 17 00:01:01,302 --> 00:01:03,282 Son las personas que van tras de mi propio corazón. 18 00:01:04,250 --> 00:01:08,723 La media digital, especialmente la compresión, se percibe como elitista, 19 00:01:08,723 --> 00:01:12,822 y mucho más difícil que cualquier otra cosa en las ciencias de computación. 20 00:01:12,822 --> 00:01:15,700 A los grandes de la industria no les molesta esta percepción; 21 00:01:15,700 --> 00:01:19,734 les ayuda a justificar la gran cantidad de patentes que mantienen. 22 00:01:19,734 --> 00:01:23,870 A ellos les gusta la imagen de que sus investigadores son de lo mejor, 23 00:01:23,870 --> 00:01:27,738 tan más inteligentes que el resto del mundo, que sus ideas 24 00:01:27,738 --> 00:01:29,903 no las podemos entender nosotros, los meros mortales. 25 00:01:30,625 --> 00:01:33,716 Esto son patrañas. 26 00:01:35,205 --> 00:01:38,900 La compresión y streaming de audio y video digital 27 00:01:38,900 --> 00:01:42,738 ofrecen retos mentales profundos y muy estimulantes 28 00:01:42,738 --> 00:01:44,662 como cualquier otra disciplina. 29 00:01:44,662 --> 00:01:47,929 Parece elitista porque tan poca gente se ha envuelto. 30 00:01:47,929 --> 00:01:51,223 Muy poca gente se ha envuelto tal vez porque muy pocos 31 00:01:51,223 --> 00:01:54,665 podían pagar por el equipo tan costoso que solía ser necesario. 32 00:01:54,665 --> 00:01:58,792 Pero ahora, casi cualquier persona viendo este video tiene un computador 33 00:01:58,792 --> 00:02:03,317 barato y de uso básico capaz de compararse con los chicos grandes. 34 00:02:05,926 --> 00:02:11,108 Hay batallas librándose hoy mismo sobre HTML-5 y navegadores web 35 00:02:11,108 --> 00:02:13,671 y video y codigo libre o no-libre. 36 00:02:13,671 --> 00:02:17,048 Es un momento ideal para envolverse en todo esto. 37 00:02:17,048 --> 00:02:20,000 La forma más facil para empezar es entendiendo 38 00:02:20,000 --> 00:02:22,619 la tecnología que tenemos al momento. 39 00:02:23,500 --> 00:02:25,071 Esta es una introducción. 40 00:02:25,071 --> 00:02:28,180 Como es una introducción, hay muchos detalles que no se incluyen 41 00:02:28,180 --> 00:02:30,882 sino que es un resumen más general sobre el tema. 42 00:02:30,882 --> 00:02:33,908 Muchos de ustedes ya conocerán mucho 43 00:02:33,908 --> 00:02:36,378 de lo que estaré hablando, al menos por ahora. 44 00:02:36,378 --> 00:02:40,293 Por otro lado, es posible que para otros voy a ir muy rápido,; 45 00:02:40,293 --> 00:02:44,558 si eres totalmente nuevo a este tema: relájate. 46 00:02:44,558 --> 00:02:48,629 Lo importante es escuchar las ideas que capturen tu imaginación. 47 00:02:48,629 --> 00:02:52,497 Pon atención al vocabulario que se use sobre esas ideas 48 00:02:52,479 --> 00:02:56,078 porque luego puedes buscar en Google y Wikipedia, 49 00:02:56,078 --> 00:02:57,753 y así investigar tanto como te interese. 50 00:02:57,753 --> 00:03:00,094 Así que, sin más preámbulos, 51 00:03:00,094 --> 00:03:03,351 bienvenido a la nueva afición de tu vida. 52 00:03:10,291 --> 00:03:13,030 Un sonido es una propagación de ondas de presión de aire, 53 00:03:13,030 --> 00:03:16,981 expandiéndose desde un orígen, como cuando lanzas una piedra a un lago. 54 00:03:16,981 --> 00:03:19,489 Un micrófono, y también el oído humano, 55 00:03:19,489 --> 00:03:22,876 convierten estas ondas de presión en señales eléctricas. 56 00:03:22,876 --> 00:03:25,800 Esto es ciencia básica y puede que ya lo sepas. 57 00:03:25,800 --> 00:03:26,771 Continuemos. 58 00:03:27,465 --> 00:03:32,527 Esa señal de audio es una uni-dimensional – un valor único que varía con el tiempo. 59 00:03:32,527 --> 00:03:34,248 Si reducimos la velocidad un poco... 60 00:03:36,450 --> 00:03:38,190 puedes ver la función más claramente. 61 00:03:38,190 --> 00:03:40,688 Ciertos otros aspectos de la señal son importantes. 62 00:03:40,688 --> 00:03:43,418 La señal es continua tanto en valor como en tiempo; 63 00:03:43,418 --> 00:03:46,813 o sea, en todo momento va a tener cualquier valor real, 64 00:03:46,813 --> 00:03:50,228 y ese valor varía sólo levemente de momento a momento. 65 00:03:50,228 --> 00:03:52,439 No importa cuánto nos acerquemos, 66 00:03:54,068 --> 00:03:58,510 no hay descontinuidades, ni singularidades, ni saltos instantáneos 67 00:03:58,510 --> 00:04:01,285 o puntos en los que la señal deja de existir. 68 00:04:03,247 --> 00:04:08,475 Está bien definida en todo lugar. Estas señales se definen en términos básicos de la matemática continua. 69 00:04:11,001 --> 00:04:15,378 Una señal digital, por otra parte, es discreta tanto en valor como en tiempo. 70 00:04:15,378 --> 00:04:19,107 En el sistema más simple y más común, llamado modulación de códigos de impulso (PCM en inglés), 71 00:04:19,107 --> 00:04:24,058 uno de entre varios posibles valores representa la amplitud de señal 72 00:04:24,058 --> 00:04:30,165 en puntos de tiempo separados a distancias fijas. El resultado es una serie de dígitos. 73 00:04:30,674 --> 00:04:35,309 Esto se ve muy parecido a lo que ves aquí. 74 00:04:35,309 --> 00:04:39,964 Parecería que deberíamos poder convertir de una señal a otra con precisón, 75 00:04:39,964 --> 00:04:44,683 y, de hecho, el Teorema de Sampling confirma y explica cómo hacer esto. 76 00:04:44,683 --> 00:04:48,477 Publicado por Claude Shannon en 1949 77 00:04:48,477 --> 00:04:52,409 y compuesto en la obra de Nyquist y Hartley, entre otros, 78 00:04:52,409 --> 00:04:56,138 el teorema de sampling ice que podemos alternar entre señales análogas y 79 00:04:56,138 --> 00:05:00,913 señales digitales, y también muestra condiciones con las cuales la conversión 80 00:05:00,913 --> 00:05:06,779 ocurrirá sin pérdida y las dos representaciones serán equivalentes e intercambiables. 81 00:05:06,779 --> 00:05:10,601 Cuando las condiciones sin pérdida no se cumplen, el teorema nos dice 82 00:05:10,601 --> 00:05:14,247 cómo y cuál información se pierde o se corrompe. 83 00:05:14,900 --> 00:05:21,270 Hasta muy recientemente, la tecnología análoga era la base para prácticamente todo audio, 84 00:05:21,270 --> 00:05:25,267 y eso no era porque la mayoría del audio proviene de una fuente análoga. 85 00:05:25,267 --> 00:05:28,450 Tal vez piensas que como los computadores son relativamente recientes, 86 00:05:28,450 --> 00:05:31,643 la tecnología se señales análogas debió haber llegado primero. 87 00:05:31,643 --> 00:05:34,428 Nop. La digital es más antigua. 88 00:05:34,428 --> 00:05:37,611 El telégrafo es más antiguo que el teléfono por medio siglo, 89 00:05:37,611 --> 00:05:41,951 y ya estaba completamente automatizado para los 1860s, enviando señales 90 00:05:41,951 --> 00:05:46,476 codificadas y multifacéticas a través de largas distancias. 91 00:05:46,476 --> 00:05:50,427 Harry Nyquist de los Laboratorios Bell investigaba transmisiónes de telegráfo 92 00:05:50,427 --> 00:05:53,027 cuando publicó su descripción de lo que se vino a conocer como 93 00:05:53,027 --> 00:05:57,219 la frequencia Nyquist, el concepto clave del teorema de sampling. 94 00:05:57,219 --> 00:06:01,642 Ahora, es cierto que el telégrafo transmitía información simbólica (texto) 95 00:06:01,642 --> 00:06:06,883 y no una señal de audio digitalizada, pero con la llegada del teléfono y la radio 96 00:06:06,883 --> 00:06:12,000 las tecnologías análogas y digitales progresaron rápidamente y a la par una con otra. 97 00:06:12,699 --> 00:06:18,732 El audio siempre se ha manipulado como una señal análoga ya que, pues, era la forma más fácil.. 98 00:06:18,732 --> 00:06:23,257 Un filtro sencillo de pasabajo, por ejemplo, requiere dos componentes pasivos. 99 00:06:23,257 --> 00:06:26,505 Un transformador análogo Fourier requiere varios cientos de componentes. 100 00:06:26,505 --> 00:06:30,752 O tal vez varios miles si quieres construir algo de calidad. 101 00:06:31,844 --> 00:06:35,989 Procesar señales digitalmente require millones o billones de transistores 102 00:06:35,989 --> 00:06:40,366 operando a frequencias de microondas, mas equipo de apoyo al menos para digitalizar 103 00:06:40,366 --> 00:06:43,836 y reconstruir las señales análogas, un ecosistema de software 104 00:06:43,836 --> 00:06:47,362 para programar y controlar ese monstruo de billones de transistores 105 00:06:47,362 --> 00:06:51,091 y almacenamiento digital en caso de que quieras guardar esos bits para otro día... 106 00:06:51,091 --> 00:06:56,171 Podemos concluir entonces que análogo es la manera más practica de trabajar con audio... 107 00:06:56,171 --> 00:07:07,019 a menos que tengas un billón de transistores y todo lo demás a tu disposición. 108 00:07:07,850 --> 00:07:12,660 Y como nosotros sí lo tenemos, el procesamiento digital sí resulta más atractivo. 109 00:07:13,363 --> 00:07:18,906 Por un lado, los equipos análogos no tienen la flexibilidad que tiene un computador. 110 00:07:18,906 --> 00:07:21,182 Añadir una nueva función a esta bestia... 111 00:07:22,191 --> 00:07:24,578 mmm, no. No vamos a poder. 112 00:07:24,578 --> 00:07:26,567 Pero en un procesador digital... 113 00:07:28,668 --> 00:07:34,127 ...sólo hace falta escribir un programa nuevo. No es súper fácil, pero es mucho más fácil. 114 00:07:34,127 --> 00:07:39,550 Lo que es tal vez más importante es que todo componente análogo es una aproximación. 115 00:07:39,550 --> 00:07:44,352 No hay tal cosa como un transistor perfecto, o un inductor perfecto, o un capacitador perfecto... 116 00:07:44,352 --> 00:07:51,569 En análogo, todo componente añade sonido y distorsión – no mucho en general, pero se acumula. 117 00:07:51,569 --> 00:07:55,669 Sólo transmitir una señal análoga, especialmente a través de distancias largas, 118 00:07:55,669 --> 00:08:00,434 corrompe la señal progresivamente e irreparablemente. 119 00:08:00,434 --> 00:08:06,513 Además, todos esos componentes análogos ocupan mucho espacio. 120 00:08:06,513 --> 00:08:09,946 Dos líneas de código en los billones de transistores aquí atrás 121 00:08:09,946 --> 00:08:14,702 pueden implementar un filtro que requeriría un inductor del tamaño de un refrigerador. 122 00:08:14,702 --> 00:08:17,941 Los sistemas digitales no tienen estas desventajas. 123 00:08:17,941 --> 00:08:24,335 Las señales digitales se pueden almacenar, copiar, manipular y transmitir sin añadir ruido o distorsión. 124 00:08:24,335 --> 00:08:26,889 Sí usamos algoritmos con pérdida de tiempo en tiempo, 125 00:08:26,889 --> 00:08:31,284 pero los únicos pasos no-ideales e inevadibles son la digitalización y la reconstrucción, 126 00:08:31,284 --> 00:08:35,929 en la cual lo digital debe interactuar con toda esa complicación análoga. 127 00:08:35,929 --> 00:08:40,750 Complicado o no, los métodos modernos de conversión son muy, muy buenos. 128 00:08:40,750 --> 00:08:45,849 Para los estándares de nuestros oídos, los podemos considerar prácticamente sin pérdidas. 129 00:08:45,849 --> 00:08:50,429 Con un poco de equipo adicional, pues, mucho del cual es ahora pequeño y bajo en costo, 130 00:08:50,429 --> 00:08:55,379 dada nuestra tecnología moderna, el audio digital triunfa fácilmente sobre el audio análogo. 131 00:08:55,379 --> 00:09:00,857 Así que aprendamos ahora cómo almacenarlo, copiarlo, manipularlo, y transmitirlo. 132 00:09:04,956 --> 00:09:08,639 La modulación de códigos de impulsos (PCM) es la representación más común de audio puro. 133 00:09:08,639 --> 00:09:13,867 Existen otras representaciones prácticas, por ejemplo el codigo Sigma-Delta usado por el SACD, 134 00:09:13,867 --> 00:09:16,625 que es una forma de modulación por densidad de impulsos. 135 00:09:16,625 --> 00:09:19,687 Dicho esto, el PCM es el método dominante 136 00:09:19,687 --> 00:09:22,158 mayormente porque es conveniente matemáticamente. 137 00:09:22,158 --> 00:09:26,350 Un ingeniero de audio puede dedicar una carrera entera trabajando sólo con esta modulación. 138 00:09:26,350 --> 00:09:29,135 La codificación PCM se puede caracterizar en tres parámetros; 139 00:09:29,135 --> 00:09:34,187 esto hace fácil distinguir entre toda variante posible de PCM sin mucha dificultad. 140 00:09:34,187 --> 00:09:36,426 El primer parámetro es la tasa de sampling (sampling rate). 141 00:09:36,426 --> 00:09:40,886 La frecuencia más alta que puede representar un código se llama la Frecuencia Nyquist. 142 00:09:40,886 --> 00:09:45,124 La frecuencia Nyquist de un PCM es exactamente la mitad de su sampling rate. 143 00:09:45,124 --> 00:09:51,389 Por eso, el sampling rate determina la frecuencia más alta posible de la señal digital. 144 00:09:51,389 --> 00:09:56,515 Los sistemas de teléfonos análogos limitaban los canales de voz a sólo 4kHz, 145 00:09:56,515 --> 00:10:02,224 así que la telefonía digital y muchas de las aplicaciones de voz clásicas usan un sampling rate de 8kHz, 146 00:10:02,224 --> 00:10:07,277 que es el sampling rate mínimo necesario para capturar el ancho de banda de un canal de 4kHz. 147 00:10:07,227 --> 00:10:14,263 Así es como suena un sampling rate de 8kHz – un poco fogoso pero perfectamente entendible para voz. 148 00:10:17,263 --> 00:10:18,149 Este es el sampling rate más bajo que se ha usado ampliamente. 149 00:10:18,149 --> 00:10:23,322 A partir de ahí, mientras la capacidad, memoria y almacenamiento aumentaron, los computadores 150 00:10:23,322 --> 00:10:29,642 ofrecieron samplings de 11, luego 16, luego 22, y luego 32kHz. 151 00:10:29,642 --> 00:10:33,491 Con cada aumenteo en el sampling rate y la frecuencia Nyquist, 152 00:10:33,491 --> 00:10:38,302 es obvio que el sonido se vuelve más claro y más natural. 153 00:10:38,301 --> 00:10:44,576 Un Disco Compacto (CD) usa un sampling rate de 44.1kHz, el cual es un poco mejor que 32kHz, 154 00:10:44,576 --> 00:10:46,788 pero las ventajas se notan menos a estos niveles. 155 00:10:46,788 --> 00:10:52,053 44.1kHz es un valor inusual, especialmente porque no se había usado nunca anteriormente 156 00:10:52,053 --> 00:10:56,559 antes del disco compacto, pero el éxito rotundo del CD lo ha hecho un sampling rate común. 157 00:10:56,559 --> 00:11:01,195 El otro sampling rate común de alta fidelidad es 48kHz. 158 00:11:05,710 --> 00:11:08,597 No hay casi ninguna diferencia notable al oído humano entre estos dos niveles. 159 00:11:08,597 --> 00:11:13,640 Este video, o al menos la versión original, se filmó y produjo con audio a 48kHz, 160 00:11:13,640 --> 00:11:18,545 que es el estándar original para audio con vídeo de alta fidelidad. 161 00:11:18,545 --> 00:11:25,100 También existen sampling rates de super alta fidelidad de 88, 96, y 192kHz. 162 00:11:25,100 --> 00:11:30,888 La razón para niveles por encima de 48kHz no es extender las frequencias aún más. 163 00:11:30,888 --> 00:11:32,489 La razón es otra. 164 00:11:32,896 --> 00:11:37,319 Veamos: El matemático francés Jean Baptiste Joseph Fourier mostró que 165 00:11:37,319 --> 00:11:42,353 podemos pensar en señales de audio como un conjunto de frequencias de componentes. 166 00:11:42,353 --> 00:11:45,841 Esta representación de dominios de frequencia es equivalente a una representación de tiempo; 167 00:11:45,841 --> 00:11:49,719 la señal es exactamente la misma, sólo que la estamos viendo de un punto de vista diferente. 168 00:11:49,719 --> 00:11:56,131 Aquí vemos la representación de dominios de frequencia de una señal análoga que queremos convertir a digital. 169 00:11:56,131 --> 00:11:59,888 El teorema de sampling nos dice dos cosas esenciales sobre el proceso de muestreo. 170 00:11:59,888 --> 00:12:04,727 Primero, que una señal digital no puede representar ninguna frecuencia sobre la frequencia Nyquist. 171 00:12:04,727 --> 00:12:10,640 Segundo – y esto es lo nuevo – si no removemos esas frecuencias con un filtro de pasabajo antes de muestrear, 172 00:12:10,640 --> 00:12:16,414 el proceso de muestreo las va a tratar de representar bajo una frecuencia aceptable, como distorsión dentada. 173 00:12:16,414 --> 00:12:20,069 Esta distorsión, en resumen, suena muy, muy mal, 174 00:12:20,069 --> 00:12:25,242 así que es esencial remover frecuencias sobre la frecuencia Nyquist antes de convertir una señal. 175 00:12:25,871 --> 00:12:31,265 La percepción humana de frequencias se extiende hasta más o menos 20kHz. 176 00:12:31,265 --> 00:12:37,548 En samplings de 44.1 o 48kHz, el pasabajo antes de la etapa de sampling tiene que ser muy preciso 177 00:12:37,548 --> 00:12:42,101 para que no corte ninguna frecuencia audible por debajo de 20kHz 178 00:12:42,101 --> 00:12:49,439 y a la vez evite que frecuencias por encima de la Nyquist se infiltren en el proceso de sampling. 179 00:12:49,439 --> 00:12:55,342 Este es un filtro difícil de construir y ningún filtro en particular lo logra totalmente. 180 00:12:55,342 --> 00:13:00,024 Si el sampling rate es de 96kHz o de 192kHz, por otro lado, 181 00:13:00,024 --> 00:13:07,223 el pasabajo tiene una o dos octavas adicionales para su banda de transición. Este es un filtro más fácil de construir. 182 00:13:07,223 --> 00:13:14,348 Sampling rates mayores de 48kHz son más que nada un compromiso inexacto entre análogo y digital. 183 00:13:15,014 --> 00:13:20,844 El segundo parámetro importante del PCM es el formato del sample, es decir, el formato de cada número digital. 184 00:13:20,844 --> 00:13:26,285 Un número es un número, pero se puede representar en bits en varias formas. 185 00:13:26,942 --> 00:13:30,902 Los PCM antiguos eran de ocho bits lineares, codificados usando un byte no-firmado. 186 00:13:30,902 --> 00:13:37,028 El alcance dinámico está limitado a 50dB y el sonido de cuantificación, como puedes oir, es severo. 187 00:13:37,028 --> 00:13:39,970 El audio de ocho bits está desapareciendo actualmente. 188 00:13:41,007 --> 00:13:47,484 La telefonía digital usa una de dos codificaciones no lineares de ocho bits, llamadas A-law y mu-law. 189 00:13:47,484 --> 00:13:51,287 Estos formatos codifican un registro de 14 bits a uno de ocho bits 190 00:13:51,287 --> 00:13:54,674 expandiendo los valores de mayor amplitud a mayor distancia. 191 00:13:54,674 --> 00:13:59,226 A-law y mu-law aumentan el sonido de cuantificación comparado con el 8-bit linear 192 00:13:59,226 --> 00:14:03,557 y armonías de voces esconden bien el resto del sonido de cuantificación. 193 00:14:03,557 --> 00:14:08,248 Todos estas codificaciones de 8-bits: linear, A-law y mu-law típicamente se parean 194 00:14:08,248 --> 00:14:13,328 con un sampling rate de 8kHz, aunque aquí lo estoy demostrando a 48kHz. 195 00:14:13,328 --> 00:14:18,491 La mayoría de los PCM modernos usan íntegros de 16 ó 24-bits para codificar 196 00:14:18,491 --> 00:14:23,858 el registro desde infinidad negativa hasta cero decibeles a 16 ó 24 bits de precisión. 197 00:14:23,858 --> 00:14:27,800 El valor absoluto máximo corresponde a zero decibeles. 198 00:14:27,800 --> 00:14:31,584 Como con todos los formatos de sample hasta ahora, las señales por encima de cero decibeles 199 00:14:31,584 --> 00:14:35,619 y por tanto fuera del registro máximo se eliminan. 200 00:14:35,619 --> 00:14:41,199 Al mezclar y masterizar, no es inusual usar puntos flotantes para PCM en vez de números íntegros. 201 00:14:41,199 --> 00:14:47,222 Un punto flotante IEEE754 de 32 bits, que es el punto típico que encuentras en computadores modernos 202 00:14:47,222 --> 00:14:52,793 tiene 24 bits de resolución, pero un punto flotante exponente de 7 bits aumenta el registro representable. 203 00:14:52,793 --> 00:14:57,040 Un punto flotante por lo general representa cero decibeles como +/-1.0, 204 00:14:57,040 --> 00:15:00,547 y ya que flota, se puede representar considerablemente por encima o por debajo de ese número; 205 00:15:00,547 --> 00:15:05,220 así, excedir cero decibeles temporeramente durante el proceso de mezcla no causa recortes de audio (clipping). 206 00:15:05,220 --> 00:15:11,077 PCM con puntos flotantes toma más espacio para almacenar, por lo que sólo se debe usar durante la producción. 207 00:15:11,077 --> 00:15:15,796 Por último, la mayoría de los computadores todavía leen y escriben data en bytes octetos, 208 00:15:15,796 --> 00:15:18,489 así que es importante recordar que samples mayores de 8-bits 209 00:15:18,489 --> 00:15:22,838 pueden estar en un extremo (endianidad) grande o pequeño, y ambos son comunes. 210 00:15:22,838 --> 00:15:28,751 Por ejemplo, archivos Microsoft WAV son de menor endianidad y archivos Apple AIFC son de mayor endianidad. 211 00:15:28,751 --> 00:15:30,139 Ten esto en cuenta. 212 00:15:30,870 --> 00:15:34,071 El tercer parámetro de PCM es el número de canales. 213 00:15:34,071 --> 00:15:38,485 Lo común en PCM puros es codificar muchos canales entrelazando los samples 214 00:15:38,485 --> 00:15:43,398 de cada canal y volviéndolos uno. Simple y repetible. 215 00:15:43,398 --> 00:15:47,701 Y eso es todo! Esto describe toda representacion de PCM que existe. 216 00:15:47,701 --> 00:15:51,578 Y así terminamos. El audio digital es _muy facil_! 217 00:15:51,578 --> 00:15:56,436 Hay mucho más que hacer, por supuesto, pero en este punto tenemos suficiente data de audio, 218 00:15:56,436 --> 00:15:58,092 así que veamos algo de vídeo también. 219 00:16:02,571 --> 00:16:08,798 Se podría ver a un video como si fuera audio pero con dos dimensiones: X y Y, 220 00:16:08,798 --> 00:16:12,787 además de la dimensión de tiempo. Esto tiene sentido matemáticamente. 221 00:16:12,787 --> 00:16:19,097 El Teorema de Sampling aplica a las tres dimensiones de un video así como a la única dimensión del audio. 222 00:16:19,097 --> 00:16:25,815 El audio y el video son obviamente diferentes en práctica. Para empezar, comparado con el audio, un video es enorme. 223 00:16:25,815 --> 00:16:29,294 Audio puro de CD usa cerca de 1.4 megabits por segundo. 224 00:16:29,294 --> 00:16:33,958 Video puro de alta definición 1080i usa sobre 700 megabits por segundo. 225 00:16:33,958 --> 00:16:40,056 Es más de 500 veces más data para capturar, procesar, y almacenar cada segunto. 226 00:16:40,056 --> 00:16:43,711 Según la ley de Moore, eso es... veamos... cerca de ocho duplicaciones, por dos años, 227 00:16:43,711 --> 00:16:47,838 sí, un computador requeriría unos quince años extra para procesar video puro 228 00:16:47,838 --> 00:16:51,252 luego de terminar de procesar audio puro. 229 00:16:51,252 --> 00:16:55,425 Un video puro básico es también más complejo que un audio puro básico. 230 00:16:55,425 --> 00:16:58,599 La gran cantidad de data necesita una representación 231 00:16:58,599 --> 00:17:02,106 más eficiente que el PCM linear que usamos para el audio. 232 00:17:02,106 --> 00:17:06,705 Además, el video electrónico viene casi enteramente de transmisiones por televisión, 233 00:17:06,705 --> 00:17:13,423 y los comités de estándares para la televisión siempre se han preocupados por mantener compatibilidad. 234 00:17:13,423 --> 00:17:17,559 Hasta hace sólo casi un año en los EEUU, un televisor blanco y negro de sesenta años 235 00:17:17,559 --> 00:17:21,038 todavía podía mostrar una transmisión normal análoga de televisión. 236 00:17:21,038 --> 00:17:23,879 Eso era sin duda algo muy útil para la industria. 237 00:17:23,879 --> 00:17:28,718 Lo malo de la compatibilidad retroactiva es que una ves un detalle se convierte en estándar, 238 00:17:28,718 --> 00:17:30,985 no se puede eliminar fácilmente. 239 00:17:30,985 --> 00:17:37,305 El vídeo electrónico nunca se ha recomenzado desde cero en la forma en que el audio sí se ha reconstruido. 240 00:17:37,305 --> 00:17:43,958 Sesenta años de cambios necesitados por una tecnología obsoleta de una era antigua 241 00:17:43,958 --> 00:17:50,102 se han acumulado en grande, y ya que los estándares digitales también provienen de la industria de televisión, 242 00:17:50,102 --> 00:17:54,664 todos estos cambios se han transferido a los estándares digitales también. 243 00:17:54,664 --> 00:18:00,022 Para resumir, hay muchos más detalles envueltos en un video digital que los que hay con audio. 244 00:18:00,022 --> 00:18:05,592 No hay manera de cubrirlos todos aquí, así que hablaremos de los fundamentos principales. 245 00:18:06,036 --> 00:18:10,857 El parámetro más obvio del video puro es el ancho y la altura de la imagen en pixeles. 246 00:18:10,857 --> 00:18:15,882 Por tan simple como suene, las dimenciones solas en realidad no especifican 247 00:18:15,882 --> 00:18:22,016 el ancho y alto absoluto de una imagen, ya que la mayoría de los videos no usan pixeles cuadrados. 248 00:18:22,016 --> 00:18:25,005 El número de trazos por linea en una imagen de video para transmisión se hizo fija, 249 00:18:25,005 --> 00:18:29,021 pero el número de pixeles horizontales dependía de la banda de ancho del canal de TV. 250 00:18:29,021 --> 00:18:31,945 La resolución horizontal podía resultar en pixeles que eran más estrechos 251 00:18:31,945 --> 00:18:35,489 o más anchos que el espacio entre las líneas de trazo en el televisor. 252 00:18:35,489 --> 00:18:38,395 Varios estándares han especificado que los videos convertidos digitalmente 253 00:18:38,395 --> 00:18:41,902 deben reflejar la resolución de la fuente análoga original, 254 00:18:41,902 --> 00:18:45,566 por lo que una gran cantidad de video digital también usa pixeles que no son cuadrados. 255 00:18:45,566 --> 00:18:49,924 Por ejemplo, un DVD normal NTSC con aspecto 4:3 está codificado típicamente 256 00:18:49,924 --> 00:18:55,374 con una resolució de 704 por 480, que es un aspecto mayor que 4:3. 257 00:18:55,374 --> 00:18:59,640 En este caso, a los pixeles se les asigna un aspecto de 10:11, 258 00:18:59,640 --> 00:19:04,553 haciéndolos más altos que anchos y reduciento la imagen horizontalmente hasta el aspecto correcto. 259 00:19:04,553 --> 00:19:09,800 Esa imagen debe ser re-muestreada (re-sampled) para adaptarse a una proyección digital con pixeles cuadrados. 260 00:19:10,253 --> 00:19:15,287 El segundo parámetro obvio de video es el frame rate: la cantidad de imágenes por segundo. 261 00:19:15,287 --> 00:19:19,655 Varios frame rates estándares se usan comúnmente. El video digital, por lo general, 262 00:19:19,655 --> 00:19:23,689 los puede usar todos. O cualquier frame rate. O hasta frecuencias variables, 263 00:19:23,689 --> 00:19:27,113 en las que el frame rate cambia durante el video. 264 00:19:27,113 --> 00:19:32,998 Mientras mayor es el frame rate, mejor es el flujo del video; con esto llegamos al entrelazamiento (interlacing). 265 00:19:32,998 --> 00:19:37,967 En los primeros días de transmisión de video, muchos ingenieros buscaban el frame rate más rapido posible 266 00:19:37,967 --> 00:19:42,075 para mejorar el flujo de video y minimizar el “parpadeo” en televisores de tubo (CRTs). 267 00:19:42,075 --> 00:19:45,277 Estaban bajo presión para usar el menor ancho de banda posible 268 00:19:45,277 --> 00:19:48,182 para la mayor resolución y el frame rate más veloz. 269 00:19:48,182 --> 00:19:51,208 Su solución fue el entrelazar el video para que las líneas pares se enviaran en un paso 270 00:19:51,208 --> 00:19:54,826 y las línes impares se enviaran en el próximo paso. 271 00:19:54,826 --> 00:19:59,961 Cada paso se llama un campo y dos campos más o menos producen una imagen completa. 272 00:19:59,961 --> 00:20:05,319 “Más o menos” porque los campos no son en realidad parte de la misma imagen original. 273 00:20:05,319 --> 00:20:10,797 En una imagen de 60 campos/segundo, el frame rate de la imagen original es 60 imágenes por segundo, 274 00:20:10,797 --> 00:20:15,386 y la mitad de cada imagen – una de cada dos líneas – simplemente se descarta. 275 00:20:15,386 --> 00:20:20,272 Por esta razón no se puede desenlazar un video combinando dos campos en uno; 276 00:20:20,272 --> 00:20:23,039 ya que no provienen de la misma imagen de por sí. 277 00:20:24,047 --> 00:20:29,683 El tubo de rayos catódicos (CRT) era la única tecnología disponible durante la mayoría de la historia del video. 278 00:20:29,683 --> 00:20:32,949 La salida de un CRT es no-linear, aproximadamente igual al 279 00:20:32,949 --> 00:20:36,585 voltaje de entrada elevado a la 2.5va potencia. 280 00:20:36,585 --> 00:20:43,821 Este exponente, 2.5, es un gamma designado, y se le llama comúnmente el gamma de exposición. 281 00:20:43,821 --> 00:20:50,493 Las cámaras, sin embargo, son lineares, y si alimentas a un CRT con una señal linear de entrada, se verá algo así. 282 00:20:51,270 --> 00:20:56,637 Ya que originalmente habían muy pocas cámaras, y muy costosas, 283 00:20:56,637 --> 00:21:01,634 y se esperaba con suerte que surgieran muchos equipos de televisión bajos en costo, 284 00:21:01,634 --> 00:21:08,222 los ingenieros decidieron añadir correción de gamma a las cámaras y no a los televisores. 285 00:21:08,222 --> 00:21:13,062 Así, un video transmitido por ondas de aire tendría una intensidad no-linear igual al inverso 286 00:21:13,062 --> 00:21:18,271 del exponente de gamma del televisor, y una vez que la señal de una cámara se expusiera en el TV, 287 00:21:18,271 --> 00:21:23,305 la comunicación del sistema desde la cámara hacia el televisor volvería a ser linear. 288 00:21:23,777 --> 00:21:25,118 Casi. 289 00:21:30,393 --> 00:21:33,113 También hubo otras alteraciones. 290 00:21:33,113 --> 00:21:40,442 Una cámara de televisión usa un exponente de gamma que es en realidad 2.2 en vez de 2.5. 291 00:21:40,442 --> 00:21:43,754 Esto es una correción para ver televisión en un ambiente opaco. 292 00:21:43,754 --> 00:21:48,279 Además, la curva exponencial se transiciona a una rampa linear cerca del color negro. 293 00:21:48,279 --> 00:21:52,360 Esto es una alteración antigua para suprimir el sonido del sensor de la cámara. 294 00:21:54,941 --> 00:21:57,347 La corrección de gamma tambien tuvo un beneficio afortunado. 295 00:21:57,347 --> 00:22:02,214 Sucede que el ojo humano tiene una percepción de gamma de alrededor de 3.0. 296 00:22:02,214 --> 00:22:05,962 Esto es relativamente cerca de la gamma de un CRT, 2.5. 297 00:22:05,962 --> 00:22:10,607 Una imagen con corrección de gamma dedica una mayor resolución a las intensidades más bajas 298 00:22:10,607 --> 00:22:14,336 para las cuales el ojo tiene una más fina discriminación de intensidad 299 00:22:14,336 --> 00:22:18,222 y puede usar la resolución disponible más eficientemente. 300 00:22:18,222 --> 00:22:22,784 Aunque los CRTs están desapareciendo actualmente, el monitor de una computadora RGB estándar 301 00:22:22,784 --> 00:22:28,419 todavía usa una curva de intensidad no-linear como la de un televisor, con una rampa linear cerca del color negro, 302 00:22:28,419 --> 00:22:32,491 seguida por una curva exponencial con un exponente de gamma de 2.4. 303 00:22:32,491 --> 00:22:36,636 Esto convierte un registro linear de 16-bits a uno de 8-bits. 304 00:22:37,580 --> 00:22:41,790 El ojo humano tiene tres canales aparentes de color: rojo, verde, y azul, 305 00:22:41,790 --> 00:22:47,407 y la mayoría de los monitores usan estos tres colores como aditivos primarios para producir un registro completo de color. 306 00:22:49,258 --> 00:22:54,190 Los pigmentos primarios de impresión son cyan, magenta, y amarillo por la misma razón; 307 00:22:54,190 --> 00:22:59,381 los pigmentos son substractivos, y cada pigmento substrae (remueve) un color puro al reflejarse en la luz. 308 00:22:59,381 --> 00:23:05,682 El cyan remueve rojo, el magente remueve verde, y el amarillo remueve azul. 309 00:23:05,682 --> 00:23:10,919 El video se puede y se suele representar con canales rojo, verde, y azul, 310 00:23:10,919 --> 00:23:17,211 pero el video RGB (red, green, blue) no es típico. El ojo humano es más sensitivo a la luminosidad que a un color, 311 00:23:17,211 --> 00:23:21,329 y el RGB tiende a distribuir la energia de una imagen a través de los tres canales de color. 312 00:23:21,329 --> 00:23:25,326 En otras palabras, el plano rojo se ve como una versión roja de la imagen original, 313 00:23:25,326 --> 00:23:28,769 y el plano verde se ve como una versió verde de la imagen original, 314 00:23:28,769 --> 00:23:32,063 y el plano azul se ve como una versión azul de la imagen original. 315 00:23:32,063 --> 00:23:35,705 Blanco y negro multiplicado por tres. No es eficiente. 316 00:23:35,706 --> 00:23:39,438 Por esas razones y por que, bueno, la televisión comenzó en blanco y negro después de todo, 317 00:23:39,438 --> 00:23:45,017 el video se representa usualmente como un canal luma de alta resolución, 318 00:23:45,017 --> 00:23:51,041 uno de blanco y negro, y otros canales croma adicionales de baja resolución. 319 00:23:51,041 --> 00:23:57,074 El canal luma, “Y”, se produce al medir y luego añadir las señales rojas, verdes y azules. 320 00:23:57,074 --> 00:24:01,867 Los canales croma “U” y “V” se producen al restar la señal luma de la señal azul 321 00:24:01,867 --> 00:24:04,070 y la señal luma de la señal roja. 322 00:24:04,070 --> 00:24:11,750 Cuando se escala el YUV, adaptado para video digital, es usualmente más correcto llamarlo Y'CbCr, 323 00:24:11,750 --> 00:24:15,238 ya que el término generico YUV se usa para describir 324 00:24:15,238 --> 00:24:18,301 todas las variantes análogas y digitales de este modelo de color. 325 00:24:18,912 --> 00:24:22,983 Los canales croma “U” y “V” pueden tener la misma resolución que el canal Y, 326 00:24:22,983 --> 00:24:28,674 pero ya que el ojo humano tiene menos resolución espacial de color que resolución espacial de luminosidad, 327 00:24:28,674 --> 00:24:34,346 la resolución baja por lo general se reduce a la mitad o a un cuarto en la dirección horizontal, vertical, 328 00:24:34,346 --> 00:24:39,528 o en ambas, usualmente sin impactar la calidad visual de la imagen significativamente. 329 00:24:39,528 --> 00:24:43,942 Prácticamente toda variante posible de subsampling se ha usado en algún momento u otro, 330 00:24:43,942 --> 00:24:46,875 pero las opciones comunes actualmente son 331 00:24:46,875 --> 00:24:51,187 el video 4:4:4, que en realidad no es sub-muestreado (sub-sampled), 332 00:24:51,187 --> 00:24:56,711 el video 4:2:2 en el que las resoluciones croma “U” y “V” se reducen a la mitad, 333 00:24:56,711 --> 00:25:02,587 y el más comun, el video 4:2:0, en el que las resoluciones horizontales y verticales 334 00:25:02,587 --> 00:25:08,897 de los canales bajos se reducen a la mitad, resultando en planos U y V que son un cuarto del tamaño de Y. 335 00:25:08,897 --> 00:25:17,096 Los términos 4:2:2, 4:2:0 y 4:1:1, no son descripciones completas de un subsampling croma. 336 00:25:17,096 --> 00:25:21,186 Hay muchas maneras de posicionar los pixeles croma relativos al luma. 337 00:25:21,096 --> 00:25:24,776 y de nuevo, muchas variantes se usan activamente para cada subsampling. 338 00:25:24,776 --> 00:25:32,502 Por ejemplo, los formatos de video Motion JPEG, MPEG-1, MPEG-2, DV, Theora, y WebM usan 339 00:25:32,502 --> 00:25:38,137 o pueden usar subsampling de 4:2:0, pero posicionan los pixeles en maneras distintas. 340 00:25:38,498 --> 00:25:43,023 Los formatos Motion JPEG, MPEG1, Theora y el WebM posicionan los pixeles croma 341 00:25:43,023 --> 00:25:46,345 entre los pixeles luma tanto horizontal como verticalmente. 342 00:25:46,345 --> 00:25:51,989 El MPEG2 los posiciona entre lineas, pero alineados horizontalmente con cada dos pixeles luma. 343 00:25:51,989 --> 00:25:57,106 Formatos entrelazados complican las cosas un poco, resultando en un posicionamiento que es un poco extraño. 344 00:25:57,106 --> 00:26:00,909 Y finalmente, el video PAL-DV, que siempre es entrelazado, posiciona los pixeles croma 345 00:26:00,909 --> 00:26:04,398 en la misma posición que cada segundo pixel luma en la dirección horizontal, 346 00:26:04,398 --> 00:26:07,303 y verticalmente alterna el canal croma en cada línea. 347 00:26:07,683 --> 00:26:12,282 Y esto es solamente video 4:2:0. Dejaré los otros subsamplings como tarea para tí. 348 00:26:12,282 --> 00:26:14,882 Ya tienes la idea básica; continuemos con algo nuevo. 349 00:26:15,511 --> 00:26:21,128 En el audio, siempre representamos múltiples canales en un stream PCM entrelazando los samples 350 00:26:21,128 --> 00:26:26,383 de cada canal en orden. El video usa ambos formatos que entrelazan los canales de color 351 00:26:26,383 --> 00:26:30,584 así como formatos planares que mantienen los pixeles de cada canal juntos en líneas separadas, 352 00:26:30,584 --> 00:26:35,415 acumuladas en orden dentro de la imagen. Hay al menos 50 formatos en estas dos categorías 353 00:26:35,415 --> 00:26:41,549 con al menos diez o quince en uso común. Cada subsampling croma y profundidad de bit requieren 354 00:26:41,549 --> 00:26:46,574 un arreglo de formato diferente, y por tanto un formato de pixel direrente. Para cada subsampling, 355 00:26:46,574 --> 00:26:50,858 hay por lo general varios formatos equivalentes que consisten de ordenes triviales 356 00:26:50,858 --> 00:26:55,966 de arreglos de canales debidos a costumbres antiguas o a algún tipo de equipo en particular 357 00:26:55,966 --> 00:27:00,352 o algunas veces simplemente a un buen antojo. 358 00:27:00,352 --> 00:27:04,692 Los formatos de pixeles se describen con un nombre único en código “fourcc”. 359 00:27:04,692 --> 00:27:08,115 Hay muchos de estos nombres y no tiene sentido ir por cada uno de ellos ahora mismo. 360 00:27:08,115 --> 00:27:13,704 Google es tu amigo. Ten en mente que los códigos “fourcc” para video puro especifican el arreglo de pixeles 361 00:27:13,704 --> 00:27:20,339 y el subsampling croma, pero en general no especifican nada en específico sobre posicionamiento de colores. 362 00:27:20,339 --> 00:27:25,807 El formato de video YV12, por ejemplo, puede usar posicionamientos de JPEG, MPEG-2 o DV, 363 00:27:25,807 --> 00:27:28,991 y una de muchas posibles definiciones de espacio de color YUV. 364 00:27:29,472 --> 00:27:33,913 Esto concluye nuestro recorrido no muy corto y aún así muy incompleto sobre video. 365 00:27:33,913 --> 00:27:38,651 Las buenas noticias es que ya podemos hacer un poco de trabajo con lo que hemos aprendido. 366 00:27:38,651 --> 00:27:42,528 En muchas situaciones, una imagen de data de video es simplemente eso, una imagen de data de video. 367 00:27:42,528 --> 00:27:46,451 Los detalles importan, de gran manera, cuando toca escribir programas de software, 368 00:27:46,452 --> 00:27:52,086 pero por ahora estoy satisfecho de que tú ya estás informado sobre los asuntos relevantes. 369 00:27:55,640 --> 00:27:59,230 Entonces. Tenemos data de audio. Tenemos data de video. 370 00:27:59,230 --> 00:28:03,246 Lo que falta es incluir data tradicional y algo de ingeniería simple 371 00:28:03,246 --> 00:28:07,410 a la que los desarrolladores de software se han acosumbrado. 372 00:28:07,928 --> 00:28:11,768 Trozos de data de audio y de video no tienen una estructura visible externa, 373 00:28:11,768 --> 00:28:15,173 pero su tamaño es uniforme. Podemos simplemente “amarrarlos” 374 00:28:15,173 --> 00:28:18,097 en un orden rígido y predeterminado para uso en streaming y almacenamiento, 375 00:28:18,097 --> 00:28:21,040 y algunos programas simples hacen precisamente esto. 376 00:28:21,040 --> 00:28:24,195 Las imágenes comprimidas, sin embargo, no tienen necesariamente un tamaño predecible, 377 00:28:24,195 --> 00:28:29,405 y usualmente queremos algo de flexibilidad para usar una variedad de formatos de data en nuestros proyectos. 378 00:28:29,405 --> 00:28:34,281 Si amarramos data al azar, podemos perder los límites que separan a las imágenes 379 00:28:34,281 --> 00:28:37,871 y no poder saber cuál data pertenece a cuál proyecto. 380 00:28:37,871 --> 00:28:42,192 Un proyecto necesita una estructura generalizada para ser útíl generalmente. 381 00:28:42,192 --> 00:28:46,606 Además de nuestra data de señal, también tenemos parámetros de PCM y de video. 382 00:28:46,606 --> 00:28:49,752 También probablemente hay mucha metadata con la que trabajar, 383 00:28:49,752 --> 00:28:55,415 como etiquetas de capítulos y subtítulos de audio y video, componentes esenciales de multimedia. 384 00:28:55,415 --> 00:29:01,633 Tiene sentido colocar esta metadata – o sea, data sobre la data – en el proyecto mismo de multimedia. 385 00:29:01,633 --> 00:29:06,445 El trabajo de un contenedor es almacenar y estructurar data que no tiene forma específica. 386 00:29:06,445 --> 00:29:09,221 Los contenedores proveen la estructura para los cuerpos de data, 387 00:29:09,221 --> 00:29:12,015 entrelazan e identifican mútiples fuentes de data, 388 00:29:12,015 --> 00:29:15,337 proveen imformación sobre tiempo, y almacenan la metadata necesaria 389 00:29:15,337 --> 00:29:19,140 para evaluar, navegar, manipular, y presentar la data. 390 00:29:19,140 --> 00:29:22,222 En general, cualquier contenedor puede contener cualquier tipo de data. 391 00:29:22,222 --> 00:29:24,970 Y la data se puede poner en cualquier contenedor. 392 00:29:28,801 --> 00:29:32,391 En los pasados treinta minutos, hemos aprendido sobre audio digital, video, 393 00:29:32,391 --> 00:29:35,435 algo de historia, algo de matemática, y un poco de ingeniería. 394 00:29:35,435 --> 00:29:39,377 Solamente hemos tocado la superficie de estos temas, pero es tiempo de un buen merecido descanso. 395 00:29:41,107 --> 00:29:45,373 Hay mucho más de qué hablar, así que espero que me acompañes de nuevo en nuestro próximo episodio. 396 00:29:45,373 --> 00:29:47,159 Hasta entonces, ¡buena suerte!