MP3 (formalmente MPEG-1 Audio Layer III o MPEG-2 Audio Layer III ) [4] es un formato de codificación para audio digital desarrollado en gran parte por la Sociedad Fraunhofer en Alemania bajo la dirección de Karlheinz Brandenburg . [11] [12] Fue diseñado para reducir en gran medida la cantidad de datos necesarios para representar audio, pero aún así sonar como una reproducción fiel del audio original sin comprimir para la mayoría de los oyentes; por ejemplo, en comparación con el audio digital con calidad de CD , la compresión MP3 puede lograr comúnmente una reducción del tamaño del 75-95%, dependiendo de la tasa de bits . [13] En el uso popular, MP3 a menudo se refiere a archivos de sonido o grabaciones de música almacenados en el formato de archivo MP3 (.mp3) en dispositivos electrónicos de consumo.
Originalmente definido en 1991 como el tercer formato de audio del estándar MPEG-1 , fue conservado y ampliado (definiendo velocidades de bits adicionales y soporte para más canales de audio ) como el tercer formato de audio del estándar MPEG-2 posterior . MP3 como formato de archivo designa comúnmente archivos que contienen un flujo elemental de datos codificados en audio MPEG-1 o MPEG-2, sin otras complejidades del estándar MP3. Con respecto a la compresión de audio , que es su elemento más evidente para los usuarios finales, MP3 utiliza compresión con pérdida para codificar datos utilizando aproximaciones inexactas y el descarte parcial de datos, lo que permite una gran reducción en los tamaños de archivo en comparación con el audio sin comprimir. La combinación de tamaño pequeño y fidelidad aceptable condujo a un auge en la distribución de música a través de Internet a fines de la década de 1990, y MP3 sirvió como una tecnología facilitadora en un momento en el que el ancho de banda y el almacenamiento aún eran escasos. El formato MP3 pronto se asoció con controversias en torno a la violación de derechos de autor , la piratería musical y los servicios de copia y compartición de archivos MP3.com y Napster , entre otros. Con la llegada de los reproductores multimedia portátiles (incluidos los "reproductores MP3"), una categoría de productos que también incluye los teléfonos inteligentes , la compatibilidad con MP3 sigue siendo casi universal y un estándar de facto para el audio digital.
El Moving Picture Experts Group (MPEG) diseñó MP3 como parte de sus estándares MPEG-1 y, posteriormente, MPEG-2 . MPEG-1 Audio (MPEG-1 Parte 3), que incluía MPEG-1 Audio Layer I, II y III, fue aprobado como borrador de comité para un estándar ISO / IEC en 1991, [14] [15] finalizado en 1992, [16] y publicado en 1993 como ISO/IEC 11172-3:1993. [7] Una extensión MPEG-2 Audio (MPEG-2 Parte 3) con tasas de muestreo y de bits más bajas se publicó en 1995 como ISO/IEC 13818-3:1995. [8] [17] Requiere solo modificaciones mínimas a los decodificadores MPEG-1 existentes (reconocimiento del bit MPEG-2 en el encabezado y adición de las nuevas tasas de muestreo y de bits más bajas).
El algoritmo de compresión MP3 con pérdida aprovecha una limitación perceptiva de la audición humana llamada enmascaramiento auditivo . En 1894, el físico estadounidense Alfred M. Mayer informó que un tono podía volverse inaudible por otro tono de frecuencia más baja. [18] En 1959, Richard Ehmer describió un conjunto completo de curvas auditivas relacionadas con este fenómeno. [19] Entre 1967 y 1974, Eberhard Zwicker trabajó en las áreas de sintonización y enmascaramiento de bandas de frecuencia críticas, [20] [21] que a su vez se basó en la investigación fundamental en el área de Harvey Fletcher y sus colaboradores en Bell Labs . [22]
La codificación perceptiva se utilizó por primera vez para la compresión de codificación de voz con codificación predictiva lineal (LPC), [23] que tiene orígenes en el trabajo de Fumitada Itakura ( Universidad de Nagoya ) y Shuzo Saito ( Nippon Telegraph and Telephone ) en 1966. [24] En 1978, Bishnu S. Atal y Manfred R. Schroeder en Bell Labs propusieron un códec de voz LPC , llamado codificación predictiva adaptativa , que utilizaba un algoritmo de codificación psicoacústica que explotaba las propiedades de enmascaramiento del oído humano. [23] [25] Una mayor optimización por parte de Schroeder y Atal con JL Hall se informó más tarde en un artículo de 1979. [26] Ese mismo año, MA Krasner [27] también propuso un códec de enmascaramiento psicoacústico, quien publicó y produjo hardware para voz (no utilizable como compresión de bits de música), pero la publicación de sus resultados en un Informe Técnico del Laboratorio Lincoln relativamente oscuro [28] no influyó inmediatamente en la corriente principal del desarrollo de códecs psicoacústicos.
La transformada discreta del coseno (DCT), un tipo de codificación de transformada para compresión con pérdida, propuesta por Nasir Ahmed en 1972, fue desarrollada por Ahmed con T. Natarajan y KR Rao en 1973; publicaron sus resultados en 1974. [29] [30] [31] Esto condujo al desarrollo de la transformada discreta del coseno modificada (MDCT), propuesta por JP Princen, AW Johnson y AB Bradley en 1987, [32] siguiendo el trabajo anterior de Princen y Bradley en 1986. [33] La MDCT más tarde se convirtió en una parte central del algoritmo MP3. [34]
En 1982, Ernst Terhardt y otros colaboradores construyeron un algoritmo que describe el enmascaramiento auditivo con gran precisión. [35] Este trabajo se sumó a una variedad de informes de autores que se remontan a Fletcher, y al trabajo que inicialmente determinó proporciones críticas y anchos de banda críticos.
En 1985, Atal y Schroeder presentaron la predicción lineal excitada por código (CELP), un algoritmo de codificación de voz perceptual basado en LPC con enmascaramiento auditivo que logró una relación de compresión de datos significativa para su época. [23] La revista arbitrada del IEEE Journal on Selected Areas in Communications informó sobre una amplia variedad de algoritmos de compresión de audio (en su mayoría perceptuales) en 1988. [36] La edición "Voice Coding for Communications" publicada en febrero de 1988 informó sobre una amplia gama de tecnologías de compresión de bits de audio establecidas y en funcionamiento, [36] algunas de ellas utilizando enmascaramiento auditivo como parte de su diseño fundamental, y varias mostrando implementaciones de hardware en tiempo real.
La génesis de la tecnología MP3 se describe en detalle en un artículo del profesor Hans Musmann, [37] que presidió el grupo de audio MPEG de la ISO durante varios años. En diciembre de 1988, MPEG pidió un estándar de codificación de audio. En junio de 1989, se presentaron 14 algoritmos de codificación de audio. Debido a ciertas similitudes entre estas propuestas de codificación, se agruparon en cuatro grupos de desarrollo. El primer grupo fue ASPEC, de Fraunhofer Gesellschaft , AT&T , France Telecom , Deutsche y Thomson-Brandt . El segundo grupo fue MUSICAM , de Matsushita , CCETT , ITT y Philips . El tercer grupo fue ATAC (codificación ATRAC), de Fujitsu , JVC , NEC y Sony . Y el cuarto grupo fue SB-ADPCM , de NTT y BTRL. [37]
Los predecesores inmediatos del MP3 fueron el "Optimum Coding in the Frequency Domain" (OCF), [38] y el Perceptual Transform Coding (PXFM). [39] Estos dos códecs, junto con las contribuciones de Thomson-Brandt sobre la conmutación de bloques, se fusionaron en un códec llamado ASPEC, que se presentó a MPEG y que ganó el concurso de calidad, pero que fue rechazado por error por ser demasiado complejo de implementar. La primera implementación práctica de un codificador perceptual de audio (OCF) en hardware (el hardware de Krasner era demasiado engorroso y lento para su uso práctico) fue una implementación de un codificador de transformada psicoacústica basado en chips DSP Motorola 56000 .
Otro antecesor del formato y la tecnología MP3 se encuentra en el códec perceptual MUSICAM, basado en un banco de filtros de 32 subbandas de aritmética entera, controlado por un modelo psicoacústico. Fue diseñado principalmente para la radiodifusión de audio digital (radio digital) y la televisión digital, y sus principios básicos fueron divulgados a la comunidad científica por CCETT (Francia) e IRT (Alemania) en Atlanta durante una conferencia IEEE- ICASSP en 1991, [40] después de haber trabajado en MUSICAM con Matsushita y Philips desde 1989. [37]
Este códec incorporado en un sistema de transmisión que utiliza modulación COFDM se demostró en el aire y en el campo [41] con Radio Canadá y CRC Canadá durante el show NAB (Las Vegas) en 1991. La implementación de la parte de audio de este sistema de transmisión se basó en un codificador de dos chips (uno para la transformada de subbanda, uno para el modelo psicoacústico diseñado por el equipo de G. Stoll (IRT Alemania), más tarde conocido como modelo psicoacústico I) y un decodificador en tiempo real que utiliza un chip DSP Motorola 56001 que ejecuta un software de aritmética de números enteros diseñado por el equipo de YF Dehery (CCETT, Francia). La simplicidad del decodificador correspondiente junto con la alta calidad de audio de este codec utilizando por primera vez una frecuencia de muestreo de 48 kHz , un formato de entrada de 20 bits/muestra (el estándar de muestreo más alto disponible en 1991, compatible con el estándar de estudio de entrada digital profesional AES/EBU) fueron las principales razones para adoptar posteriormente las características de MUSICAM como las características básicas para un codec avanzado de compresión de música digital.
Durante el desarrollo del software de codificación MUSICAM, el equipo de Stoll y Dehery hizo un uso exhaustivo de un conjunto de material de evaluación de audio de alta calidad [42] seleccionado por un grupo de profesionales del audio de la Unión Europea de Radiodifusión, y posteriormente utilizado como referencia para la evaluación de códecs de compresión musical. Se descubrió que la técnica de codificación de subbanda era eficiente, no solo para la codificación perceptual de materiales de sonido de alta calidad, sino especialmente para la codificación de materiales de sonido de percusión críticos (batería, triángulos , ...), debido al efecto de enmascaramiento temporal específico del banco de filtros de subbanda MUSICAM (siendo esta ventaja una característica específica de las técnicas de codificación de transformada corta).
Como estudiante de doctorado en la Universidad de Erlangen-Nuremberg de Alemania , Karlheinz Brandenburg comenzó a trabajar en la compresión de música digital a principios de la década de 1980, centrándose en cómo las personas perciben la música. Completó su trabajo de doctorado en 1989. [43] MP3 desciende directamente de OCF y PXFM, lo que representa el resultado de la colaboración de Brandenburg, trabajando como investigador postdoctoral en AT&T-Bell Labs con James D. Johnston ("JJ") de AT&T-Bell Labs, con el Instituto Fraunhofer de Circuitos Integrados , Erlangen (donde trabajó con Bernhard Grill y otros cuatro investigadores: "Los seis originales" [44] ), con contribuciones relativamente menores de la rama MP2 de codificadores de subbandas psicoacústicas. En 1990, Brandenburg se convirtió en profesor asistente en Erlangen-Nuremberg. Mientras estaba allí, continuó trabajando en la compresión de música con científicos del Instituto Heinrich Herz de la Sociedad Fraunhofer . En 1993, se unió al personal de Fraunhofer HHI. [43] Una versión a capela de la canción " Tom's Diner " de Suzanne Vega fue la primera canción utilizada por Brandenburg para desarrollar el formato MP3. Se utilizó como punto de referencia para ver qué tan bien el algoritmo de compresión de MP3 manejaba la voz humana. Brandenburg adoptó la canción con fines de prueba, escuchándola una y otra vez cada vez que refinaba el algoritmo de compresión, asegurándose de que no afectara negativamente la reproducción de la voz de Vega. [45] En consecuencia, apodó a Vega la "Madre del MP3". [46] La música instrumental había sido más fácil de comprimir, pero la voz de Vega sonaba poco natural en las primeras versiones del formato. Brandenburg finalmente conoció a Vega y escuchó a Tom's Diner interpretado en vivo.
En 1991 se evaluaron dos propuestas disponibles para un estándar de audio MPEG: MUSICAM ( M asking pattern adapted Universal Subband Integrated Coding And Multiplexing ) y ASPEC (Adaptive Spectral Perceptual Entropy Coding ) . La técnica MUSICAM, propuesta por Philips ( Países Bajos), CCETT (Francia), el Institute for Broadcast Technology (Alemania) y Matsushita (Japón), [ 47 ] fue elegida debido a su simplicidad y robustez de error, así como por su alto nivel de eficiencia computacional. [48] El formato MUSICAM, basado en codificación de subbanda , se convirtió en la base para el formato de compresión de audio MPEG, incorporando, por ejemplo, su estructura de trama, formato de encabezado, frecuencias de muestreo, etc.
Aunque gran parte de la tecnología y las ideas de MUSICAM se incorporaron a la definición de MPEG Audio Layer I y Layer II, el banco de filtros por sí solo y la estructura de datos basada en el encuadre de 1152 muestras (formato de archivo y flujo orientado a bytes) de MUSICAM permanecieron en el formato Layer III (MP3), como parte del banco de filtros híbrido computacionalmente ineficiente. Bajo la presidencia del profesor Musmann de la Universidad Leibniz de Hannover , la edición del estándar fue delegada a Leon van de Kerkhof (Países Bajos), Gerhard Stoll (Alemania) e Yves-François Dehery (Francia), quienes trabajaron en Layer I y Layer II. ASPEC fue la propuesta conjunta de AT&T Bell Laboratories, Thomson Consumer Electronics, Fraunhofer Society y CNET . [49] Proporcionó la mayor eficiencia de codificación.
Un grupo de trabajo formado por van de Kerkhof, Stoll, Leonardo Chiariglione ( vicepresidente de medios de CSELT ), Yves-François Dehery, Karlheinz Brandenburg (Alemania) y James D. Johnston (Estados Unidos) tomó ideas de ASPEC, integró el banco de filtros de Layer II, agregó algunas de sus ideas como la codificación estéreo conjunta de MUSICAM y creó el formato MP3, que fue diseñado para lograr la misma calidad a 128 kbit/s que MP2 a 192 kbit/s.
Los algoritmos para MPEG-1 Audio Layer I, II y III fueron aprobados en 1991 [14] [15] y finalizados en 1992 [16] como parte de MPEG-1 , el primer conjunto de estándares de MPEG , que resultó en el estándar internacional ISO/IEC 11172-3 (también conocido como MPEG-1 Audio o MPEG-1 Parte 3 ), publicado en 1993. [7] Los archivos o flujos de datos que cumplen con este estándar deben manejar frecuencias de muestreo de 48k, 44100 y 32k y continuar siendo compatibles con los reproductores y decodificadores de MP3 actuales. Por lo tanto, la primera generación de MP3 definió 14 × 3 = 42 interpretaciones de estructuras de datos de cuadros de MP3 y diseños de tamaño.
La eficiencia de compresión de los codificadores se define típicamente por la velocidad de bits, ya que la relación de compresión depende de la profundidad de bits y la frecuencia de muestreo de la señal de entrada. Sin embargo, las relaciones de compresión se publican a menudo. Pueden usar los parámetros del disco compacto (CD) como referencia (44,1 kHz , 2 canales a 16 bits por canal o 2×16 bits), o a veces los parámetros SP de la cinta de audio digital (DAT) (48 kHz, 2×16 bits). Las relaciones de compresión con esta última referencia son más altas, lo que demuestra el problema con el uso del término relación de compresión para codificadores con pérdida.
Karlheinz Brandenburg utilizó una grabación en CD de la canción " Tom's Diner " de Suzanne Vega para evaluar y refinar el algoritmo de compresión MP3 . [50] Esta canción fue elegida debido a su naturaleza casi monofónica y su amplio contenido espectral, lo que hace que sea más fácil escuchar imperfecciones en el formato de compresión durante las reproducciones. Esta pista en particular tiene una propiedad interesante en el sentido de que los dos canales son casi, pero no completamente, iguales, lo que lleva a un caso en el que la depresión del nivel de enmascaramiento binaural provoca un desenmascaramiento espacial de los artefactos de ruido a menos que el codificador reconozca correctamente la situación y aplique correcciones similares a las detalladas en el modelo psicoacústico MPEG-2 AAC. Algunos extractos de audio más críticos ( glockenspiel , triángulo, acordeón , etc.) se tomaron del disco compacto de referencia EBU V3/SQAM y los ingenieros de sonido profesionales los han utilizado para evaluar la calidad subjetiva de los formatos de audio MPEG. [ cita requerida ]
Los miembros del comité ISO MPEG Audio desarrollaron (entre 1991 y 1996) un software de simulación de referencia, escrito en lenguaje C y conocido posteriormente como ISO 11172-5 , para producir archivos de audio MPEG compatibles con bits (capa 1, capa 2, capa 3). Fue aprobado como borrador del comité del informe técnico ISO/IEC en marzo de 1994 e impreso como documento CD 11172-5 en abril de 1994. [51] Fue aprobado como borrador de informe técnico (DTR/DIS) en noviembre de 1994, [52] finalizado en 1996 y publicado como estándar internacional ISO/IEC TR 11172-5:1998 en 1998. [53] El software de referencia en lenguaje C fue publicado posteriormente como estándar ISO de libre acceso. [54] Trabajando en tiempo no real en varios sistemas operativos, fue capaz de demostrar la primera decodificación de hardware en tiempo real (basada en DSP) de audio comprimido. Otras implementaciones en tiempo real de codificadores y decodificadores de audio MPEG [55] estaban disponibles para transmisión digital (radio DAB , televisión DVB ) hacia receptores de consumo y decodificadores.
El 7 de julio de 1994, la Sociedad Fraunhofer lanzó el primer codificador de MP3 de software, llamado l3enc . [56] La extensión de nombre de archivo .mp3 fue elegida por el equipo Fraunhofer el 14 de julio de 1995 (anteriormente, los archivos se habían llamado .bit ). [1] Con el primer reproductor de MP3 de software en tiempo real WinPlay3 (lanzado el 9 de septiembre de 1995) muchas personas pudieron codificar y reproducir archivos MP3 en sus PC. Debido a los discos duros relativamente pequeños de la época (≈500–1000 MB ), la compresión con pérdida era esencial para almacenar la música de varios álbumes en una computadora doméstica como grabaciones completas (a diferencia de la notación MIDI o los archivos de seguimiento que combinaban la notación con grabaciones cortas de instrumentos tocando notas individuales).
Un hacker llamado SoloH descubrió el código fuente de la implementación de referencia MPEG "dist10" poco después de su lanzamiento en los servidores de la Universidad de Erlangen . Desarrolló una versión de mayor calidad y la difundió por Internet. Este código inició la copia masiva de CD y la distribución de música digital en formato MP3 a través de Internet. [57] [58] [59] [60]
El trabajo posterior sobre audio MPEG [61] se finalizó en 1994 como parte del segundo conjunto de estándares MPEG, MPEG-2 , más formalmente conocido como estándar internacional ISO/IEC 13818-3 (también conocido como MPEG-2 Parte 3 o MPEG-2 Audio compatible con versiones anteriores o MPEG-2 Audio BC [17] ), publicado originalmente en 1995. [8] [62] MPEG-2 Parte 3 (ISO/IEC 13818-3) definió 42 tasas de bits y tasas de muestreo adicionales para MPEG-1 Audio Layer I, II y III. Las nuevas tasas de muestreo son exactamente la mitad de las definidas originalmente en MPEG-1 Audio. Esta reducción en las tasas de muestreo sirve para reducir la fidelidad de frecuencia disponible a la mitad, al mismo tiempo que reduce la tasa de bits en un 50%. MPEG-2 Parte 3 también mejoró el audio de MPEG-1 al permitir la codificación de programas de audio con más de dos canales, hasta 5.1 multicanal. [61] Un MP3 codificado con MPEG-2 da como resultado una reproducción con la mitad del ancho de banda de MPEG-1, apropiado para piano y canto.
Una tercera generación de flujos de datos (archivos) de estilo "MP3" amplió las ideas y la implementación de MPEG-2, pero se denominó audio MPEG-2.5, ya que MPEG-3 ya tenía un significado diferente. Esta extensión se desarrolló en Fraunhofer IIS, el titular de la patente registrada de MP3, reduciendo el campo de sincronización de cuadros en el encabezado de MP3 de 12 a 11 bits. Al igual que en la transición de MPEG-1 a MPEG-2, MPEG-2.5 agrega frecuencias de muestreo adicionales exactamente la mitad de las disponibles con MPEG-2. De este modo, amplía el alcance de MP3 para incluir el habla humana y otras aplicaciones, pero requiere solo el 25% del ancho de banda (reproducción de frecuencia) posible con las frecuencias de muestreo de MPEG-1. Aunque no es un estándar reconocido por la ISO, MPEG-2.5 es ampliamente compatible tanto con reproductores de audio digitales chinos económicos como de marca, así como con codificadores de MP3 basados en software de computadora ( LAME ), decodificadores (FFmpeg) y reproductores (MPC) que agregan 3 × 8 = 24 tipos de cuadros MP3 adicionales. Por lo tanto, cada generación de MP3 admite 3 frecuencias de muestreo exactamente la mitad de la de la generación anterior para un total de 9 variedades de archivos de formato MP3. La tabla de comparación de frecuencias de muestreo entre MPEG-1, 2 y 2.5 se proporciona más adelante en el artículo. [63] [64] MPEG-2.5 es compatible con LAME (desde 2000), Media Player Classic (MPC), iTunes y FFmpeg.
El formato MPEG-2.5 no fue desarrollado por MPEG (ver arriba) y nunca fue aprobado como estándar internacional. Por lo tanto, es una extensión no oficial o propietaria del formato MP3. No obstante, es omnipresente y especialmente ventajoso para aplicaciones de voz humana con baja tasa de bits.
* La norma ISO/IEC 11172-3 (también conocida como MPEG-1 Audio) definió tres formatos: MPEG-1 Audio Layer I, Layer II y Layer III. La norma ISO/IEC 13818-3 (también conocida como MPEG-2 Audio) definió una versión extendida de MPEG-1 Audio: MPEG-2 Audio Layer I, Layer II y Layer III. MPEG-2 Audio (MPEG-2 Parte 3) no debe confundirse con MPEG-2 AAC (MPEG-2 Parte 7 – ISO/IEC 13818-7). [17]
LAME es el codificador de MP3 más avanzado. [ cita requerida ] LAME incluye una codificación de tasa de bits variable (VBR) que utiliza un parámetro de calidad en lugar de un objetivo de tasa de bits. Las versiones posteriores (2008+) admiten un objetivo de calidad n.nnn que selecciona automáticamente las tasas de muestreo MPEG-2 o MPEG-2.5 según corresponda para grabaciones de voz humana que solo necesitan una resolución de ancho de banda de 5512 Hz.
En la segunda mitad de los años 1990, los archivos MP3 comenzaron a difundirse en Internet , a menudo a través de redes clandestinas de canciones pirateadas. El primer experimento conocido en distribución por Internet fue organizado a principios de los años 1990 por el Internet Underground Music Archive , más conocido por el acrónimo IUMA. Después de algunos experimentos [66] utilizando archivos de audio sin comprimir, este archivo comenzó a entregar en la Internet nativa mundial de baja velocidad algunos archivos de audio MPEG comprimidos utilizando el formato MP2 (Layer II) y más tarde utilizó archivos MP3 cuando el estándar estuvo completamente completado. La popularidad de los MP3 comenzó a aumentar rápidamente con la llegada del reproductor de audio Winamp de Nullsoft , lanzado en 1997, que todavía tenía en 2023 una comunidad de 80 millones de usuarios activos. [67] En 1998, se lanzó el primer reproductor de audio digital portátil de estado sólido MPMan , desarrollado por SaeHan Information Systems, con sede en Seúl , Corea del Sur , y el Rio PMP300 se vendió posteriormente en 1998, a pesar de los esfuerzos de supresión legal por parte de la RIAA . [68]
En noviembre de 1997, el sitio web mp3.com ofrecía miles de MP3 creados por artistas independientes de forma gratuita. [68] El pequeño tamaño de los archivos MP3 permitió un intercambio generalizado de archivos peer to peer de música extraída de CD, lo que antes habría sido casi imposible. La primera gran red de intercambio de archivos peer to peer , Napster , se lanzó en 1999. La facilidad de crear y compartir MP3 resultó en una infracción generalizada de los derechos de autor . Las principales compañías discográficas argumentaron que este intercambio gratuito de música reducía las ventas y lo llamaron " piratería musical ". Reaccionaron presentando demandas contra Napster , que finalmente se cerró y luego se vendió, y contra los usuarios individuales que participaron en el intercambio de archivos. [69]
El intercambio no autorizado de archivos MP3 continúa en las redes peer to peer de próxima generación . Algunos servicios autorizados, como Beatport , Bleep , Juno Records , eMusic , Zune Marketplace , Walmart.com , Rhapsody , la reencarnación de Napster aprobada por la industria discográfica y Amazon.com venden música sin restricciones en formato MP3.
Un archivo MP3 se compone de fotogramas MP3, que consisten en un encabezado y un bloque de datos. Esta secuencia de fotogramas se denomina flujo elemental . Debido al "reservorio de bits", los fotogramas no son elementos independientes y, por lo general, no se pueden extraer en límites de fotogramas arbitrarios. Los bloques de datos MP3 contienen la información de audio (comprimida) en términos de frecuencias y amplitudes. El diagrama muestra que el encabezado MP3 consta de una palabra de sincronización , que se utiliza para identificar el comienzo de un fotograma válido. A esto le sigue un bit que indica que se trata del estándar MPEG y dos bits que indican que se utiliza la capa 3; de ahí MPEG-1 Audio Layer 3 o MP3. Después de esto, los valores diferirán, dependiendo del archivo MP3. ISO/IEC 11172-3 define el rango de valores para cada sección del encabezado junto con la especificación del encabezado. La mayoría de los archivos MP3 actuales contienen metadatos ID3 , que preceden o siguen a los fotogramas MP3, como se indica en el diagrama. El flujo de datos puede contener una suma de comprobación opcional .
La estéreo conjunta se realiza únicamente cuadro por cuadro. [70]
En resumen, la compresión de MP3 funciona reduciendo la precisión de ciertos componentes del sonido que se consideran (según el análisis psicoacústico) fuera de las capacidades auditivas de la mayoría de los seres humanos. Este método se conoce comúnmente como codificación perceptual o modelado psicoacústico . [71] La información de audio restante se graba luego de manera que ahorre espacio utilizando algoritmos MDCT y FFT .
El algoritmo de codificación de MP3 se divide generalmente en cuatro partes. La parte 1 divide la señal de audio en fragmentos más pequeños, llamados cuadros, y luego se realiza un filtro MDCT en la salida. La parte 2 pasa la muestra a una transformada rápida de Fourier (FFT) de 1024 puntos, luego se aplica el modelo psicoacústico y se realiza otro filtro MDCT en la salida. La parte 3 cuantifica y codifica cada muestra, conocida como asignación de ruido, que se ajusta para cumplir con los requisitos de velocidad de bits y enmascaramiento de sonido . La parte 4 formatea el flujo de bits , llamado cuadro de audio, que se compone de 4 partes, el encabezado , la verificación de errores , los datos de audio y los datos auxiliares. [34]
El estándar MPEG-1 no incluye una especificación precisa para un codificador de MP3, pero sí proporciona ejemplos de modelos psicoacústicos, bucles de frecuencia y similares en la parte no normativa del estándar original. [72] MPEG-2 duplica el número de frecuencias de muestreo que se admiten y MPEG-2.5 agrega 3 más. Cuando se escribió esto, las implementaciones sugeridas estaban bastante anticuadas. Se suponía que los implementadores del estándar idearían algoritmos adecuados para eliminar partes de la información de la entrada de audio. Como resultado, estuvieron disponibles muchos codificadores de MP3 diferentes, cada uno de los cuales producía archivos de diferente calidad. Las comparaciones estaban ampliamente disponibles, por lo que era fácil para un posible usuario de un codificador investigar la mejor opción. Algunos codificadores que eran competentes en la codificación a velocidades de bits más altas (como LAME ) no necesariamente eran tan buenos a velocidades de bits más bajas. Con el tiempo, LAME evolucionó en el sitio web de SourceForge hasta convertirse en el codificador de MP3 CBR de facto. Más tarde se agregó un modo ABR. Se avanzó en el trabajo sobre una tasa de bits verdaderamente variable utilizando un objetivo de calidad entre 0 y 10. Con el tiempo, números (como -V 9.600) podían generar una codificación de voz de baja tasa de bits de excelente calidad a sólo 41 kbit/s utilizando las extensiones MPEG-2.5.
MP3 utiliza una estructura MDCT superpuesta. Cada cuadro MPEG-1 MP3 consta de 1152 muestras, divididas en dos gránulos de 576 muestras. Estas muestras, inicialmente en el dominio del tiempo, se transforman en un bloque en 576 muestras en el dominio de la frecuencia mediante MDCT. [73] MP3 también permite el uso de bloques más cortos en un gránulo, hasta un tamaño de 192 muestras; esta característica se utiliza cuando se detecta un transitorio . Al hacerlo, se limita la propagación temporal del ruido de cuantificación que acompaña al transitorio (consulte psicoacústica ). La resolución de frecuencia está limitada por el pequeño tamaño de la ventana de bloque largo, lo que disminuye la eficiencia de codificación. [70] La resolución temporal puede ser demasiado baja para señales altamente transitorias y puede causar manchas en los sonidos de percusión. [70]
Debido a la estructura de árbol del banco de filtros, los problemas de pre-eco se agravan, ya que la respuesta al impulso combinada de los dos bancos de filtros no proporciona, y no puede proporcionar, una solución óptima en resolución de tiempo/frecuencia. [70] Además, la combinación de las salidas de los dos bancos de filtros crea problemas de aliasing que deben ser manejados parcialmente por la etapa de "compensación de aliasing"; sin embargo, eso crea un exceso de energía para ser codificada en el dominio de frecuencia, disminuyendo así la eficiencia de codificación. [74]
La descodificación, por otro lado, está cuidadosamente definida en el estándar. La mayoría de los descodificadores son " compatibles con el flujo de bits ", lo que significa que la salida descomprimida que producen a partir de un archivo MP3 determinado será la misma, dentro de un grado específico de tolerancia de redondeo , que la salida especificada matemáticamente en el documento de alto estándar ISO/IEC (ISO/IEC 11172-3). Por lo tanto, la comparación de descodificadores generalmente se basa en su eficiencia computacional (es decir, cuánta memoria o tiempo de CPU utilizan en el proceso de descodificación). Con el tiempo, esta preocupación se ha convertido en un problema menor a medida que las velocidades de reloj de la CPU pasaron de MHz a GHz. El retraso general del codificador/decodificador no está definido, lo que significa que no hay una disposición oficial para la reproducción sin interrupciones . Sin embargo, algunos codificadores como LAME pueden adjuntar metadatos adicionales que permitirán a los reproductores que pueden manejarlo ofrecer una reproducción sin interrupciones.
Al realizar una codificación de audio con pérdida, como la creación de un flujo de datos MP3, existe un equilibrio entre la cantidad de datos generados y la calidad de sonido de los resultados. La persona que genera un MP3 selecciona una tasa de bits, que especifica cuántos kilobits por segundo de audio se desean. Cuanto mayor sea la tasa de bits, mayor será el flujo de datos MP3 y, en general, más parecido sonará a la grabación original. Con una tasa de bits demasiado baja, es posible que se escuchen artefactos de compresión (es decir, sonidos que no estaban presentes en la grabación original) en la reproducción. Algunos audios son difíciles de comprimir debido a su aleatoriedad y a sus ataques bruscos. Cuando se comprime este tipo de audio, suelen escucharse artefactos como el repiqueteo o el preeco . Una muestra de aplausos o de un instrumento triangular con una tasa de bits relativamente baja proporciona buenos ejemplos de artefactos de compresión. La mayoría de las pruebas subjetivas de los códecs perceptuales tienden a evitar el uso de este tipo de materiales de sonido, sin embargo, los artefactos generados por los sonidos de percusión son apenas perceptibles debido a la característica de enmascaramiento temporal específica del banco de filtros de 32 subbandas de Layer II en el que se basa el formato.
Además de la velocidad de bits de una pieza de audio codificada, la calidad del sonido codificado en MP3 también depende de la calidad del algoritmo de codificación, así como de la complejidad de la señal que se está codificando. Como el estándar MP3 permite bastante libertad con los algoritmos de codificación, los distintos codificadores presentan una calidad bastante diferente, incluso con velocidades de bits idénticas. A modo de ejemplo, en una prueba de escucha pública con dos codificadores de MP3 antiguos configurados a unos 128 kbit/s, [75] uno obtuvo una puntuación de 3,66 en una escala de 1 a 5, mientras que el otro obtuvo solo 2,22. La calidad depende de la elección del codificador y de los parámetros de codificación. [76]
Esta observación provocó una revolución en la codificación de audio. Al principio, la tasa de bits era la consideración principal y única. En ese momento, los archivos MP3 eran del tipo más simple: usaban la misma tasa de bits para todo el archivo: este proceso se conoce como codificación de tasa de bits constante (CBR). El uso de una tasa de bits constante hace que la codificación sea más sencilla y requiera menos uso de la CPU. Sin embargo, también es posible optimizar el tamaño del archivo creando archivos en los que la tasa de bits cambia a lo largo del archivo. Esto se conoce como tasa de bits variable. La reserva de bits y la codificación VBR formaban parte del estándar MPEG-1 original. El concepto detrás de ellas es que, en cualquier pieza de audio, algunas secciones son más fáciles de comprimir, como el silencio o la música que contiene solo unos pocos tonos, mientras que otras serán más difíciles de comprimir. Por lo tanto, la calidad general del archivo se puede aumentar utilizando una tasa de bits más baja para los pasajes menos complejos y una más alta para las partes más complejas. Con algunos codificadores de MP3 avanzados, es posible especificar una calidad determinada y el codificador ajustará la tasa de bits en consecuencia. Los usuarios que desean una "configuración de calidad" particular que sea transparente para sus oídos pueden usar este valor al codificar toda su música y, en general, no necesitan preocuparse por realizar pruebas de escucha personales en cada pieza musical para determinar la velocidad de bits correcta.
La calidad percibida puede verse influenciada por el entorno de escucha (ruido ambiental), la atención del oyente, el entrenamiento del oyente y, en la mayoría de los casos, por el equipo de audio del oyente (como tarjetas de sonido, altavoces y auriculares). Además, se puede lograr una calidad suficiente con una configuración de calidad inferior para conferencias y aplicaciones de voz humana, y reduce el tiempo y la complejidad de codificación. Una prueba realizada a nuevos estudiantes por el profesor de música de la Universidad de Stanford Jonathan Berger mostró que la preferencia de los estudiantes por la música con calidad MP3 ha aumentado cada año. Berger dijo que los estudiantes parecen preferir los sonidos "chisporroteantes" que los MP3 aportan a la música. [77]
Un estudio profundo de la calidad de audio de MP3, el proyecto del artista sonoro y compositor Ryan Maguire "The Ghost in the MP3" aísla los sonidos perdidos durante la compresión de MP3. En 2015, lanzó la canción "moDernisT" (un anagrama de "Tom's Diner"), compuesta exclusivamente a partir de los sonidos eliminados durante la compresión de MP3 de la canción "Tom's Diner", [78] [79] [80] la canción originalmente utilizada en la formulación del estándar MP3. Una descripción detallada de las técnicas utilizadas para aislar los sonidos eliminados durante la compresión de MP3, junto con la motivación conceptual del proyecto, se publicó en las Actas de la Conferencia Internacional de Música por Computadora de 2014. [81]
La velocidad de bits es el producto de la frecuencia de muestreo y el número de bits por muestra que se utilizan para codificar la música. El audio de un CD es de 44100 muestras por segundo. La cantidad de bits por muestra también depende de la cantidad de canales de audio. El CD es estéreo y tiene 16 bits por canal. Por lo tanto, multiplicar 44100 por 32 da como resultado 1411200, la velocidad de bits del audio digital de CD sin comprimir. El MP3 fue diseñado para codificar estos datos de 1411 kbit/s a 320 kbit/s o menos. Si los algoritmos del MP3 detectan pasajes menos complejos, se pueden utilizar velocidades de bits más bajas. Al utilizar MPEG-2 en lugar de MPEG-1, el MP3 solo admite velocidades de muestreo más bajas (16000, 22050 o 24000 muestras por segundo) y ofrece opciones de velocidad de bits tan bajas como 8 kbit/s pero no más altas que 160 kbit/s. Al reducir la frecuencia de muestreo, MPEG-2 capa III elimina todas las frecuencias por encima de la mitad de la nueva frecuencia de muestreo que puedan haber estado presentes en el audio de origen.
Como se muestra en estas dos tablas, se permiten 14 velocidades de bits seleccionadas en el estándar MPEG-1 Audio Layer III: 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 y 320 kbit/s, junto con las 3 velocidades de muestreo más altas disponibles de 32, 44,1 y 48 kHz . [64] MPEG-2 Audio Layer III también permite 14 velocidades de bits algo diferentes (y en su mayoría inferiores) de 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160 kbit/s con velocidades de muestreo de 16, 22,05 y 24 kHz que son exactamente la mitad de las de MPEG-1. [64] Los cuadros MPEG-2.5 Audio Layer III están limitados a solo 8 velocidades de bits de 8, 16, 24, 32, 40, 48, 56 y 64 kbit/s con 3 velocidades de muestreo aún más bajas de 8, 11.025 y 12 kHz. [ cita requerida ] En sistemas anteriores que solo admiten el estándar MPEG-1 Audio Layer III, los archivos MP3 con una velocidad de bits inferior a 32 kbit/s se pueden reproducir acelerados y con tono más alto.
Los sistemas anteriores también carecen de controles de avance y rebobinado rápidos en la reproducción de MP3. [83] [84]
Los fotogramas MPEG-1 contienen la mayor cantidad de detalles en el modo de 320 kbit/s, la configuración de velocidad de bits más alta permitida, [85] mientras que el silencio y los tonos simples aún requieren 32 kbit/s. Los fotogramas MPEG-2 pueden capturar reproducciones de sonido de hasta 12 kHz necesarias hasta 160 kbit/s. Los archivos MP3 creados con MPEG-2 no tienen un ancho de banda de 20 kHz debido al teorema de muestreo de Nyquist-Shannon . La reproducción de frecuencia siempre es estrictamente menor que la mitad de la frecuencia de muestreo, y los filtros imperfectos requieren un margen de error mayor (nivel de ruido versus nitidez del filtro), por lo que una frecuencia de muestreo de 8 kHz limita la frecuencia máxima a 4 kHz, mientras que una frecuencia de muestreo de 48 kHz limita un MP3 a una reproducción de sonido máxima de 24 kHz. MPEG-2 utiliza la mitad y MPEG-2.5 solo una cuarta parte de las frecuencias de muestreo de MPEG-1.
Para el campo general de reproducción de voz humana, un ancho de banda de 5.512 Hz es suficiente para producir excelentes resultados (para voz) utilizando la frecuencia de muestreo de 11.025 y la codificación VBR de un archivo WAV de 44.100 (estándar). Los hablantes de inglés tienen un promedio de 41–42 kbit/s con la configuración -V 9.6, pero esto puede variar con la cantidad de silencio grabado o la velocidad de entrega (ppm). El remuestreo a 12.000 (ancho de banda de 6K) se selecciona mediante el parámetro LAME -V 9.4. Del mismo modo, -V 9.2 selecciona una frecuencia de muestreo de 16.000 y un filtrado de paso bajo resultante de 8K. Las versiones anteriores de LAME y FFmpeg solo admiten argumentos enteros para el parámetro de selección de calidad de velocidad de bits variable. El parámetro de calidad n.nnn (-V) está documentado en lame.sourceforge.net, pero solo se admite en LAME con el nuevo selector de calidad de velocidad de bits variable VBR, no con la velocidad de bits promedio (ABR).
Una frecuencia de muestreo de 44,1 kHz se utiliza habitualmente para la reproducción de música porque también se utiliza para el audio de CD , la principal fuente utilizada para crear archivos MP3. En Internet se utiliza una gran variedad de velocidades de bits. Se utiliza habitualmente una velocidad de bits de 128 kbit/s, [86] con una relación de compresión de 11:1, que ofrece una calidad de audio adecuada en un espacio relativamente pequeño. A medida que ha aumentado la disponibilidad del ancho de banda de Internet y los tamaños de los discos duros, se han generalizado las velocidades de bits más altas de hasta 320 kbit/s. El audio sin comprimir almacenado en un CD de audio tiene una velocidad de bits de 1.411,2 kbit/s (16 bits/muestra × 44.100 muestras/segundo × 2 canales/1.000 bits/kilobit), por lo que las velocidades de bits de 128, 160 y 192 kbit/s representan relaciones de compresión de aproximadamente 11:1, 9:1 y 7:1 respectivamente.
Se pueden lograr velocidades de bits no estándar de hasta 640 kbit/s con el codificador LAME y la opción de formato libre, aunque pocos reproductores MP3 pueden reproducir esos archivos. Según el estándar ISO, los decodificadores solo deben poder decodificar transmisiones de hasta 320 kbit/s. [87] [88] [89] Los primeros codificadores MPEG Layer III usaban lo que ahora se llama tasa de bits constante (CBR). El software solo podía usar una tasa de bits uniforme en todos los fotogramas de un archivo MP3. Los codificadores MP3 posteriores más sofisticados podían usar el depósito de bits para apuntar a una tasa de bits promedio seleccionando la tasa de codificación para cada fotograma en función de la complejidad del sonido en esa parte de la grabación.
Un codificador MP3 más sofisticado puede producir audio con una tasa de bits variable. El audio MPEG puede utilizar la conmutación de la tasa de bits por fotograma, pero solo los decodificadores de capa III deben soportarlo. [64] [90] [91] [92] La VBR se utiliza cuando el objetivo es lograr un nivel fijo de calidad. El tamaño de archivo final de una codificación VBR es menos predecible que con una tasa de bits constante. La tasa de bits promedio es un tipo de VBR implementado como un compromiso entre los dos: se permite que la tasa de bits varíe para una calidad más consistente, pero se controla para que permanezca cerca de un valor promedio elegido por el usuario, para tamaños de archivo predecibles. Aunque un decodificador MP3 debe soportar VBR para cumplir con los estándares, históricamente algunos decodificadores tienen errores con la decodificación VBR, particularmente antes de que los codificadores VBR se generalizaran. El codificador MP3 LAME más evolucionado admite la generación de formatos VBR, ABR e incluso los antiguos formatos CBR MP3.
El audio de capa III también puede utilizar un "depósito de bits", la capacidad de un fotograma parcialmente lleno de contener parte de los datos de audio del siguiente fotograma, lo que permite cambios temporales en la tasa de bits efectiva, incluso en un flujo de tasa de bits constante. [64] [90] El manejo interno del depósito de bits aumenta el retraso de codificación. [ cita requerida ] No existe una banda de factor de escala 21 (sfb21) para frecuencias superiores a aproximadamente 16 kHz , lo que obliga al codificador a elegir entre una representación menos precisa en la banda 21 o un almacenamiento menos eficiente en todas las bandas por debajo de la banda 21, lo que da como resultado este último un desperdicio de tasa de bits en la codificación VBR. [93]
El campo de datos auxiliares se puede utilizar para almacenar datos definidos por el usuario. Los datos auxiliares son opcionales y la cantidad de bits disponibles no se proporciona explícitamente. Los datos auxiliares se ubican después de los bits del código Huffman y se extienden hasta donde apunta el main_data_begin del siguiente cuadro. El codificador mp3PRO utilizó datos auxiliares para codificar información adicional que podría mejorar la calidad del audio cuando se decodifica con su algoritmo.
Una "etiqueta" en un archivo de audio es una sección del archivo que contiene metadatos como el título, el artista, el álbum, el número de pista u otra información sobre el contenido del archivo. Los estándares MP3 no definen formatos de etiquetas para archivos MP3, ni existe un formato contenedor estándar que admita metadatos y evite la necesidad de etiquetas. Sin embargo, existen varios estándares de facto para formatos de etiquetas. A partir de 2010, los más extendidos son ID3v1 e ID3v2 , y el más reciente APEv2 . Estas etiquetas normalmente se incrustan al principio o al final de los archivos MP3, separadas de los datos reales del marco MP3. Los decodificadores MP3 extraen información de las etiquetas o simplemente las tratan como datos basura que no son MP3 y que se pueden ignorar.
El software de reproducción y edición a menudo contiene una función de edición de etiquetas, pero también hay aplicaciones de edición de etiquetas dedicadas a este propósito. Además de los metadatos sobre el contenido de audio, las etiquetas también se pueden usar para DRM . [94] ReplayGain es un estándar para medir y almacenar la sonoridad de un archivo MP3 ( normalización de audio ) en su etiqueta de metadatos, lo que permite que un reproductor compatible con ReplayGain ajuste automáticamente el volumen de reproducción general para cada archivo. MP3Gain se puede utilizar para modificar archivos de forma reversible según las mediciones de ReplayGain, de modo que se pueda lograr una reproducción ajustada en reproductores sin capacidad de ReplayGain.
La tecnología básica de codificación y decodificación de MP3 está libre de patentes en la Unión Europea, y todas las patentes expiraron allí a más tardar en 2012. En los Estados Unidos, la tecnología quedó prácticamente libre de patentes el 16 de abril de 2017 (véase más abajo). Las patentes de MP3 expiraron en los EE. UU. entre 2007 y 2017. En el pasado, muchas organizaciones han reclamado la propiedad de patentes relacionadas con la decodificación o codificación de MP3. Estas reclamaciones dieron lugar a varias amenazas y acciones legales de diversas fuentes. Como resultado, en los países que permiten las patentes de software , la incertidumbre sobre qué patentes deben haber sido licenciadas para crear productos MP3 sin cometer infracciones de patentes era común en las primeras etapas de la adopción de la tecnología.
El estándar inicial MPEG-1 casi completo (partes 1, 2 y 3) se puso a disposición del público el 6 de diciembre de 1991 como ISO CD 11172. [95] [96] En la mayoría de los países, no se pueden presentar patentes después de que se haya hecho pública la técnica anterior , y las patentes expiran 20 años después de la fecha de presentación inicial, que puede ser hasta 12 meses después para las solicitudes presentadas en otros países. Como resultado, las patentes requeridas para implementar MP3 expiraron en la mayoría de los países en diciembre de 2012, 21 años después de la publicación de ISO CD 11172.
Una excepción son los Estados Unidos, donde las patentes en vigor pero presentadas antes del 8 de junio de 1995 expiran después de lo que sea más tarde: 17 años desde la fecha de emisión o 20 años desde la fecha de prioridad. Un largo proceso de tramitación de patentes puede dar como resultado una patente emitida mucho más tarde de lo que normalmente se espera (ver patentes submarinas ). Las diversas patentes relacionadas con MP3 expiraron en fechas que van desde 2007 a 2017 en los Estados Unidos. [97] Las patentes para cualquier cosa divulgada en ISO CD 11172 presentadas un año o más después de su publicación son cuestionables. Si solo se consideran las patentes de MP3 conocidas presentadas hasta diciembre de 1992, entonces la decodificación de MP3 ha estado libre de patentes en los EE. UU. desde el 22 de septiembre de 2015, cuando expiró la patente estadounidense 5.812.672 , que tenía una presentación PCT en octubre de 1992. [98] [99] [100] Si se toma como medida la patente de mayor duración mencionada en las referencias antes mencionadas, entonces la tecnología MP3 quedó libre de patentes en los Estados Unidos el 16 de abril de 2017, cuando expiró la patente estadounidense 6.009.399 , propiedad [101] y administrada por Technicolor [ 102] . Como resultado, muchos proyectos de software libre y de código abierto , como el sistema operativo Fedora , han decidido comenzar a enviar soporte para MP3 de forma predeterminada, y los usuarios ya no tendrán que recurrir a la instalación de paquetes no oficiales mantenidos por repositorios de software de terceros para la reproducción o codificación de MP3. [103]
Technicolor (antes llamada Thomson Consumer Electronics) afirmó controlar las licencias de MP3 de las patentes de Layer 3 en muchos países, incluidos Estados Unidos, Japón, Canadá y países de la UE. [104] Technicolor había estado haciendo cumplir activamente estas patentes. [105] Los ingresos por licencias de MP3 de la administración de Technicolor generaron alrededor de 100 millones de euros para la Sociedad Fraunhofer en 2005. [106] En septiembre de 1998, el Instituto Fraunhofer envió una carta a varios desarrolladores de software de MP3 indicando que se necesitaba una licencia para "distribuir y/o vender decodificadores y/o codificadores". La carta afirmaba que los productos sin licencia "infringen los derechos de patente de Fraunhofer y Thomson. Para fabricar, vender o distribuir productos que utilicen el estándar [MPEG Layer-3] y, por lo tanto, nuestras patentes, es necesario obtener una licencia de estas patentes de nosotros". [107] Esto llevó a una situación en la que el proyecto de codificación de MP3 LAME no podía ofrecer a sus usuarios binarios oficiales que pudieran ejecutarse en sus computadoras. La posición del proyecto era que, como código fuente, LAME era simplemente una descripción de cómo se podía implementar un codificador de MP3. De manera extraoficial, los binarios compilados estaban disponibles en otras fuentes.
Sisvel SpA, una empresa con sede en Luxemburgo, administra licencias para patentes que se aplican a MPEG Audio. [108] Ellos, junto con su subsidiaria estadounidense Audio MPEG, Inc. demandaron previamente a Thomson por infracción de patentes en tecnología MP3, [109] pero esas disputas se resolvieron en noviembre de 2005 cuando Sisvel otorgó a Thomson una licencia para sus patentes. Motorola siguió poco después y firmó con Sisvel para licenciar patentes relacionadas con MP3 en diciembre de 2005. [110] A excepción de tres patentes, las patentes estadounidenses administradas por Sisvel [111] habían expirado todas en 2015. Las tres excepciones son: la patente estadounidense 5.878.080 , expiró en febrero de 2017; la patente estadounidense 5.850.456 , expiró en febrero de 2017; y la patente estadounidense 5.960.037 , expiró el 9 de abril de 2017. A partir del primer trimestre de 2023, aproximadamente, el programa de licencias de Sisvel se ha convertido en un legado. [112]
En septiembre de 2006, las autoridades alemanas confiscaron reproductores MP3 del stand de SanDisk en la feria IFA de Berlín después de que una firma de patentes italiana obtuviera una orden judicial en nombre de Sisvel contra SanDisk en una disputa sobre derechos de licencia. La orden judicial fue revocada posteriormente por un juez de Berlín, [113] pero esa revocación fue bloqueada a su vez el mismo día por otro juez del mismo tribunal, "trayendo el Salvaje Oeste de las Patentes a Alemania", en palabras de un comentarista. [114] En febrero de 2007, Texas MP3 Technologies demandó a Apple, Samsung Electronics y Sandisk en un tribunal federal del este de Texas , alegando la infracción de una patente de reproductor MP3 portátil que Texas MP3 dijo que le había sido asignada. Apple, Samsung y Sandisk resolvieron las demandas en su contra en enero de 2009. [115] [116]
Alcatel-Lucent ha invocado varias patentes de codificación y compresión de MP3, supuestamente heredadas de AT&T-Bell Labs, en su propio litigio. En noviembre de 2006, antes de la fusión de las empresas, Alcatel demandó a Microsoft por presunta infracción de siete patentes. El 23 de febrero de 2007, un jurado de San Diego concedió a Alcatel-Lucent 1.520 millones de dólares estadounidenses en concepto de daños y perjuicios por la infracción de dos de ellas. [117] Sin embargo, el tribunal posteriormente revocó la indemnización, al determinar que una patente no había sido infringida y que la otra no era propiedad de Alcatel-Lucent; era copropiedad de AT&T y Fraunhofer, que la había licenciado a Microsoft , dictaminó el juez. [118] Esa sentencia de defensa se confirmó en apelación en 2008. [119]
Existen otros formatos con pérdida. Entre ellos, Advanced Audio Coding (AAC) es el más utilizado y fue diseñado para ser el sucesor del MP3. También existen otros formatos con pérdida como mp3PRO y MP2 . Son miembros de la misma familia tecnológica que el MP3 y dependen de modelos psicoacústicos y algoritmos MDCT aproximadamente similares. Mientras que el MP3 utiliza un enfoque de codificación híbrido que es parte MDCT y parte FFT , el AAC es puramente MDCT, lo que mejora significativamente la eficiencia de compresión. [120] Muchas de las patentes básicas que sustentan estos formatos pertenecen a Fraunhofer Society, Alcatel-Lucent, Thomson Consumer Electronics , [120] Bell , Dolby , LG Electronics , NEC , NTT Docomo , Panasonic , Sony Corporation , [121] ETRI , JVC Kenwood , Philips , Microsoft y NTT . [122]
Cuando el mercado de reproductores de audio digital estaba despegando, el MP3 fue ampliamente adoptado como el estándar, de ahí el nombre popular de "reproductor MP3". Sony fue una excepción y utilizó su propio códec ATRAC tomado de su formato MiniDisc , que Sony afirmó que era mejor. [123] Después de las críticas y las ventas de Walkman menores de lo esperado , en 2004 Sony introdujo por primera vez soporte nativo para MP3 en sus reproductores Walkman. [124]
También existen formatos de compresión abiertos como Opus y Vorbis que están disponibles de forma gratuita y sin ninguna restricción de patente conocida. Algunos de los formatos de compresión de audio más nuevos, como AAC, WMA Pro, Vorbis y Opus, están libres de algunas limitaciones inherentes al formato MP3 que no pueden ser superadas por ningún codificador de MP3. [97] [125]
Además de los métodos de compresión con pérdida, los formatos sin pérdida son una alternativa importante al MP3 porque ofrecen contenido de audio inalterado, aunque con un mayor tamaño de archivo en comparación con la compresión con pérdida. Los formatos sin pérdida incluyen FLAC (Free Lossless Audio Codec), Apple Lossless y muchos otros.
{{cite journal}}
: Requiere citar revista |journal=
( ayuda ){{cite journal}}
: Requiere citar revista |journal=
( ayuda ){{cite journal}}
: Requiere citar revista |journal=
( ayuda )A Brandenburg y Grill se unieron otros cuatro investigadores del Fraunhofer: Heinz Gerhauser supervisaba el grupo de investigación de audio del instituto;Harald
Popp
era un especialista en hardware; Ernst Eberlein era un experto en procesamiento de señales; Jurgen Herre era otro estudiante de posgrado cuya destreza matemática rivalizaba con la del propio Brandenburg. En años posteriores, este grupo se referiría a sí mismo como "los seis originales".
comprimido Musicam (MPEG Audio Layer II) implementada en un microordenador que se utiliza no sólo como estación de edición profesional sino también como servidor en Ethernet para una biblioteca de audio digital comprimido, anticipándose así al futuro MP3 en Internet.
"MPEG-2.5" es el nombre de una extensión propia desarrollada por Fraunhofer IIS. Permite que el formato MP3 funcione satisfactoriamente a tasas de bits muy bajas e introduce frecuencias de muestreo adicionales de 8 kHz, 11,025 kHz y 12 kHz.
Búsqueda: localización de la posición deseada en el disco (solo CD de audio)( radiocasete 2004 )
• La reproducción con avance rápido y revisión no funciona con un CD MP3/WMA/JPEG.
Su CBR produce paquetes con exactamente el tamaño solicitado por el codificador, sin un depósito de bits que imponga retrasos de almacenamiento en búfer adicionales, como los que se encuentran en códecs como MP3 o AAC-LD. [...] [El ruido tonal] es más notorio en MP3 de baja tasa de bits.