Un servidor de noticias es un conjunto de programas que se utilizan para gestionar artículos de Usenet . [1] También puede referirse a una computadora que se utiliza principalmente o exclusivamente para gestionar Usenet. El acceso a Usenet solo está disponible a través de proveedores de servidores de noticias.
Los usuarios finales suelen utilizar el término "publicación" para referirse a un único mensaje o archivo publicado en Usenet. En el caso de los artículos que contienen texto simple, esto es sinónimo de un artículo. En el caso de contenido binario, como imágenes y archivos, suele ser necesario dividir el contenido entre varios artículos. Normalmente, mediante el uso de encabezados Subject: numerados, el lector de noticias vuelve a ensamblar automáticamente las publicaciones de varios artículos en una sola unidad . La mayoría de los servidores no distinguen entre publicaciones de una sola parte y de varias partes, y se ocupan únicamente del nivel de los artículos componentes individuales. [2]
Cada artículo de noticias contiene un conjunto completo de líneas de encabezado, pero en el uso común el término "encabezados" también se utiliza para referirse a la base de datos de descripción general de noticias . [2] La descripción general es una lista de los encabezados utilizados con más frecuencia e información adicional, como el tamaño de los artículos, que normalmente recupera el software del cliente mediante el comando NNTP XOVER . Las descripciones generales hacen que la lectura de un grupo de noticias sea más rápida tanto para el cliente como para el servidor al eliminar la necesidad de abrir cada artículo individual para presentarlos en forma de lista.
Si se requieren encabezados que no sean de resumen, como cuando se usa un archivo de eliminación , aún puede ser necesario usar el método más lento de leer todos los encabezados de artículos completos. [1] Muchos clientes no pueden hacer esto y limitan el filtrado a lo que está disponible en los resúmenes. [2]
Entre los operadores y usuarios de servidores de noticias comerciales, las preocupaciones comunes son los requisitos de capacidad de red y almacenamiento cada vez mayores y sus efectos [2] . La finalización (la capacidad de un servidor para recibir con éxito todo el tráfico), la retención (la cantidad de tiempo que los artículos están disponibles para los lectores) y el rendimiento general del sistema. Con las crecientes demandas, es común que las funciones de servidor de tránsito y de lectura se subdividan en sistemas de numeración, almacenamiento y front-end. Estas granjas de servidores son monitoreadas continuamente tanto por personas internas como externas, y los consumidores suelen utilizar mediciones de estas características al elegir un servicio de noticias comerciales.
La velocidad, en relación con Usenet, es la rapidez con la que un servidor puede entregar un artículo al usuario. El servidor al que se conecta el usuario suele ser parte de una granja de servidores que tiene muchos servidores dedicados a múltiples tareas. La velocidad con la que se pueden mover los datos a través de esta granja es lo primero que afecta a la velocidad de entrega. [ cita requerida ]
La velocidad de los datos que viajan por la granja puede verse gravemente limitada por las operaciones del disco duro. La recuperación de la información del artículo y la descripción general puede provocar una gran tensión en los discos duros. [ cita requerida ] Para combatir esto, se han desarrollado tecnologías de almacenamiento en caché y sistemas de almacenamiento de archivos cilíndricos. [ cita requerida ]
Una vez que la granja puede enviar los datos a la red, el proveedor tiene un control limitado sobre la velocidad al usuario. Dado que la ruta de red para cada usuario es diferente, algunos usuarios tendrán buenas rutas y los datos fluirán rápidamente. Otros usuarios tendrán enrutadores sobrecargados entre ellos y el proveedor, lo que provocará demoras. Todo lo que puede hacer un proveedor en ese caso es intentar mover el tráfico a través de una ruta diferente. Si el ISP tiene una conectividad limitada a la red, los cambios de enrutamiento pueden tener poco efecto.
Con frecuencia, un usuario puede reducir el impacto de los problemas de red utilizando varias conexiones. Algunos servidores permiten hasta 60 conexiones simultáneas, pero esto varía ampliamente según el proveedor. [3]
Los tamaños de los artículos están limitados a lo que cada servidor de noticias acepta. Cuanto mayor sea el tamaño del artículo, más espacio ocupará y, por lo tanto, habrá menos artículos en cada servidor. Esto generalmente significa que un servidor puede funcionar con menos sobrecarga, lo que lo hace más eficiente, pero ofrece menos artículos a los que los usuarios pueden acceder. [ cita requerida ]
La retención se define simplemente como el tiempo durante el cual el servidor conserva los artículos. [4] Históricamente, la mayoría de los usuarios quieren que la retención sea lo suficientemente larga como para no tener que acceder al servidor todos los días, pero no una retención demasiado larga que pueda abrumar a los usuarios con computadoras o conexiones de red lentas. [1] En la era moderna, las conexiones de alta velocidad, la gran capacidad de almacenamiento y las herramientas de búsqueda avanzadas permiten a los usuarios utilizar una retención extensa sin inconvenientes.
La retención se suele cotizar por separado para los artículos de texto y binarios, aunque también puede variar entre los diferentes grupos dentro de estas categorías. Los tiempos varían mucho según la cantidad de almacenamiento disponible en los servidores y el tráfico en continuo aumento. A partir de 2009, es común que los proveedores de noticias promedio tengan una retención de texto de más de 1000 días y una retención binaria de más de 200 días. [ cita requerida ] Los grandes proveedores de noticias ofrecen retención de texto de hasta 2480 días y retención binaria de 850 días o más. [ cita requerida ] Es importante entender que el tiempo de retención varía entre los diferentes grupos de noticias dentro de las categorías de texto y binario. HW Media de Omicron es actualmente el servidor Usenet con la mayor cantidad de retención binaria, mientras que Google es el servidor Usenet con la mayor cantidad de retención de texto. [ cita requerida ]
Puede resultar difícil para los usuarios finales medir con precisión la retención de un servidor. Un método habitual consiste en examinar los artículos más antiguos de un grupo y examinar la fecha, pero esto no siempre es preciso. Algunos artículos de un grupo pueden conservarse durante más tiempo que otros, los artículos de servidores remotos no siempre llegan a tiempo y, en ocasiones, los encabezados de fecha son simplemente incorrectos. Se requiere una muestra de muchos o todos los artículos, preferiblemente en más de un grupo de noticias, para detectar tales anomalías.
Los servidores de noticias no tienen almacenamiento ilimitado y, por este motivo, solo pueden guardar publicaciones durante un tiempo determinado antes de tener que eliminarlas para dejar espacio a nuevas publicaciones. Este es un problema particular en los grupos de noticias binarios que transmiten grandes volúmenes de artículos.
Para los servidores de noticias proporcionados por proveedores de servicios de Internet como parte de un paquete de suscripción de un usuario, las tasas de retención típicas suelen ser de solo 2 a 4 días. [ cita requerida ] Para lidiar con el aumento del tráfico de Usenet, muchos proveedores recurren a un sistema híbrido, en el que los artículos antiguos que no se encuentran en el servidor del proveedor solicitarán el artículo a otro servidor con una retención más prolongada.
Dada la gran cantidad de artículos transferidos entre servidores y el gran tamaño de los artículos individuales, no se garantiza su propagación completa a ninguna granja de servidores. El término "finalización" se utiliza para describir qué tan bien un servicio se mantiene al día con el tráfico. [ cita requerida ]
El principal obstáculo para calcular el porcentaje de finalización es la cantidad de artículos que se publicaron. Si se observa un solo servidor, no se puede saber cuántos artículos se insertaron realmente en toda la red. [ cita requerida ] Es posible que los artículos nunca salgan del servidor de origen o que no encuentren la forma de salir a la nube de tránsito. Los artículos muy grandes se descartan con frecuencia y tienden a propagarse peor que los más pequeños. [ cita requerida ]
Una forma de medir la completitud es acceder a varios servidores y recuperar listas de artículos. Debido a que los encabezados Message-ID: son nominalmente únicos en toda la red, la comparación de las listas es en su mayoría una tarea sencilla. Las limitaciones prácticas de este tipo de medición incluyen la imposibilidad de obtener listas de todos los servidores del mundo, el hecho de que muchos servidores filtran el correo basura o emplean penalizaciones de muerte de Usenet , y que algunos servidores enmascaran la incompleción ocultando conjuntos binarios multiparte con artículos faltantes. [ cita requerida ] También es necesario tener en cuenta los tiempos de propagación y retención; un artículo puede simplemente no haber llegado todavía a un servidor determinado, o puede haber estado presente pero ya expirado. [ cita requerida ]
Todos los servidores de Usenet se conectan con uno o más servidores para intercambiar artículos. Ocasionalmente, aparecen nuevos servidores. Aunque existen varios recursos web que pueden ayudar a encontrar servidores similares, un recurso mejor es el grupo de noticias news.admin.peering (portal de Google Groups). [ cita requerida ]
A partir de 2020, los feeds de texto generalmente se pueden obtener de forma gratuita, mientras que los feeds binarios completos pueden ser gratuitos o pagos (según la cantidad de artículos que cada servidor envíe al otro). Debido a la gran cantidad de datos en un feed de Usenet binario+texto completo (puede llegar a 30 terabytes por día) y los altos costos de transmitir esos datos a través de un proveedor de tránsito IP como Cogent , Telia o Zayo , la mayoría de los proveedores de Usenet solo participarán en peering binario cuando estén interconectados en un intercambio de Internet como AMS-IX , SIX o DeCIX .
Cuando el servidor almacena el cuerpo de un artículo, lo coloca en un área de almacenamiento de disco denominada genéricamente "spool". [2] Existen varias formas comunes en las que se puede organizar el spool:
Un servidor de lectura proporciona una interfaz para leer y publicar artículos, generalmente con la ayuda de un cliente de noticias . Un servidor de tránsito intercambia artículos con otros servidores. La mayoría de los servidores pueden proporcionar ambas funciones.
Los servidores de tránsito modernos suelen utilizar NNTP para intercambiar noticias de forma continua a través de Internet y conexiones similares que siempre están activas. En el pasado, los servidores normalmente empleaban el protocolo UUCP , que fue diseñado para conexiones de acceso telefónico intermitentes. Otros protocolos ad hoc , incluido el correo electrónico , se ven con menos frecuencia. Los servidores de noticias normalmente se conectan con varios pares, y la redundancia ayuda a distribuir las cargas y garantizar que no se pierdan los artículos. Los sitios más pequeños, llamados nodos hoja , están conectados a otro servidor principal. [2]
Los artículos se enrutan según la información que se encuentra en las líneas de encabezado definidas en RFC 1036. [ cita requerida ] De particular interés para un servidor de tránsito son:
En la mayoría de los casos, el servidor de envío controla el proceso de transferencia de artículos. Compara los grupos de noticias y la distribución de cada artículo recién llegado con un conjunto de patrones llamados canales de noticias , que enumeran cada servidor remoto y los grupos de noticias que su operador desea recibir. Algunos remitentes también examinan la ruta; si el servidor receptor aparece en esta línea, no se ofrece. También se pueden agregar otras reglas locales. El remitente transmite los identificadores de mensajes de los artículos coincidentes al servidor receptor. El receptor indica qué identificadores de mensajes aún no ha almacenado localmente y esos artículos se envían. [2]
El servidor receptor examina los artículos entrantes. Normalmente, un mensaje se descarta si el ID del mensaje está duplicado por un artículo ya recibido (es decir, otro servidor lo envió mientras tanto), las líneas de fecha o caducidad indican que el artículo es demasiado antiguo, la sintaxis del encabezado parece no ser válida, el encabezado Aprobado no está disponible para un grupo de noticias moderado o hay reglas locales adicionales que lo prohíben. [ cita requerida ] La mayoría de los servidores también mantienen una lista de grupos de noticias activos. Si el encabezado Grupos de noticias de un artículo nuevo no coincide con la lista activa, puede descartarse o colocarse en un grupo de noticias "basura" especial. Una vez que se almacena el artículo, el servidor intenta retransmitirlo a cualquier servidor de su propia lista de noticias. [2]
Los artículos con líneas de control reciben un tratamiento especial. Normalmente se archivan en grupos de noticias de "control" especiales y pueden hacer que el servidor realice automáticamente acciones excepcionales. Los comandos newgroup
y rmgroup
pueden hacer que se creen o eliminen grupos de noticias; checkgroups
se pueden utilizar para conciliar la lista activa local con un conjunto aceptado comúnmente; y se cancel
utilizan para solicitar la eliminación de un artículo específico. A veces se utilizan con UUCP para transmitir listas de identificadores de mensajes ofrecidos y deseados. Otros comandos ( , , y ) son solicitudes de detalles de configuración del servidor. En el pasado se utilizaban para crear mapas de red, pero ahora están generalmente obsoletos. [2]ihave
sendme
version
sendsys
uuname
Un servidor lector es aquel que pone a disposición los artículos en el formato de directorio de disco jerárquico originado por B News 2.10, u ofrece los comandos NNTP o IMAP , para su uso por parte de los lectores de noticias. Un servidor lector normalmente también funciona como un servidor de tránsito, pero puede operar de forma independiente o servir como una interfaz alternativa a un foro de Internet . Al recibir noticias, este tipo de servidor debe realizar los pasos adicionales de archivar artículos en grupos de noticias y asignar números secuenciales dentro de cada grupo. Por lo general, se agrega una línea Xref , que enumera todos los grupos donde aparece el mensaje y los números de secuencia. A diferencia de los identificadores de mensajes, los números y el orden de los artículos diferirán en cada servidor; pero los servidores relacionados pueden forzar el acuerdo al operar en modo esclavo, reutilizando las líneas Xref de sus hermanos. Los servidores lectores normalmente también mantienen una base de datos News Overview (NOV) que permite a los lectores de noticias obtener rápidamente resúmenes de mensajes y presentar mensajes en forma de hilo. [2]
La mayoría de los servidores de lectura admiten la publicación, ya sea a través de NNTP o de un programa especial de noticias . [ cita requerida ] Cuando se publica un artículo, el proceso es muy similar al que se lleva a cabo cuando un servidor de tránsito recibe noticias, pero con comprobaciones adicionales. Para la publicación, el servidor normalmente completará las líneas Path y Message-ID que faltan y comprobará la sintaxis de los encabezados destinados a los lectores humanos, como From y Subject . Si el artículo se publica en un grupo moderado, el servidor intentará enviarlo por correo electrónico al moderador del grupo de noticias si falta el encabezado Approved . En este punto también se suelen aplicar comprobaciones de identidad y filtros adicionales. [2]
Los sitios más pequeños con un ancho de banda de red limitado pueden operar servidores de "succión" o de caché . Estos desempeñan la misma función de servidor de lectura que los servidores de noticias convencionales, pero actúan como lectores de noticias para intercambiar artículos con otros servidores de lectura. [ cita requerida ] Los servidores híbridos permiten una mayor flexibilidad para el operador del servidor, ya que los grupos recibidos se pueden ajustar sin intervención manual por parte de los operadores. También pueden ser el único medio disponible para obtener artículos de servidores remotos que no ofrecen alimentación convencional.
Debido a que los servidores híbridos suelen utilizar la función de publicación para enviar noticias, los encabezados de los artículos se reformatean mediante la función de publicación y se puede perder la información de seguimiento. Además, el proceso de succión demorado puede generar un exceso de actividad en los servidores de lectura remotos. Por estas razones, el uso de servidores híbridos a menudo se desaconseja o se prohíbe sin un acuerdo previo. [2]