stringtranslate.com

Wikipedia:Descarga de base de datos

Wikipedia ofrece copias gratuitas de todo el contenido disponible a los usuarios interesados. Estas bases de datos se pueden utilizar para duplicación , uso personal, copias de seguridad informales, uso sin conexión o consultas a bases de datos (como para Wikipedia:Mantenimiento ). Todo el contenido de texto está licenciado bajo la Licencia Creative Commons Atribución-CompartirIgual 3.0 (CC-BY-SA), y la mayoría está además licenciada bajo la Licencia de Documentación Libre de GNU (GFDL). [1] Las imágenes y otros archivos están disponibles bajo diferentes términos , como se detalla en sus páginas de descripción. Para obtener nuestros consejos sobre cómo cumplir con estas licencias, consulte Wikipedia:Derechos de autor .

Lectores de Wikipedia sin conexión

Algunas de las muchas formas de leer Wikipedia sin conexión:

Algunas de ellas son aplicaciones móviles (véase la " lista de aplicaciones móviles de Wikipedia ").

¿Dónde consigo los dumps?

Wikipedia en inglés

¿Debería adquirir multitransmisión?

TL;DR : ¡OBTÉN LA VERSIÓN MULTISTREAM! (y el archivo de índice correspondiente, pages-articles-multistream-index.txt.bz2 )

pages-articles.xml.bz2 y pages-articles-multistream.xml.bz2 contienen el mismo contenido xml . Por lo tanto, si descomprime cualquiera de ellos, obtendrá los mismos datos. Pero con multistream, es posible obtener un artículo del archivo sin descomprimirlo todo. Su lector debería encargarse de esto por usted; si su lector no lo admite, funcionará de todos modos, ya que multistream y non-multistream contienen el mismo xml . La única desventaja de multistream es que es marginalmente más grande. Puede verse tentado a obtener el archivo non-multistream más pequeño, pero esto será inútil si no lo descomprime. Y se descomprimirá a ~5-10 veces su tamaño original. Ahorrar dinero no es una buena idea. Obtenga multistream.

TENGA EN CUENTA QUE el archivo de volcado multistream contiene múltiples 'streams' bz2 (encabezado, cuerpo, pie de página bz2) concatenados en un solo archivo, a diferencia del archivo original que contiene un solo stream. Cada 'stream' (o en realidad, archivo) independiente en el volcado multistream contiene 100 páginas, excepto posiblemente la última.

¿Cómo utilizar multistream?

Para multistream, puede obtener un archivo de índice, pages-articles-multistream-index.txt.bz2 . El primer campo de este índice es la cantidad de bytes que se buscarán en el archivo comprimido pages-articles-multistream.xml.bz2 , el segundo es el ID del artículo y el tercero, el título del artículo.

Corte una pequeña parte del archivo con dd utilizando el desplazamiento de bytes que se encuentra en el índice. Luego, puede descomprimirlo con bzip2 o usar bzip2recover y buscar el ID del artículo en el primer archivo.

Consulte https://docs.python.org/3/library/bz2.html#bz2.BZ2Decompressor para obtener información sobre dichos archivos multistream y sobre cómo descomprimirlos con Python; consulte también https://gerrit.wikimedia.org/r/plugins/gitiles/operations/dumps/+/ariel/toys/bz2multistream/README.txt y archivos relacionados para un viejo juguete funcional.

Otros idiomas

En el directorio dumps.wikimedia.org encontrará los archivos SQL y XML más recientes de los proyectos, no solo en inglés. Los subdirectorios reciben el nombre del código de idioma y del proyecto correspondiente. Existen otros directorios (por ejemplo, simple, nostalgia) con la misma estructura. Estos archivos también están disponibles en Internet Archive.

¿Dónde están los archivos cargados (imagen, audio, vídeo, etc.)?

Las imágenes y otros medios cargados están disponibles desde los servidores de réplica, además de ser servidos directamente desde los servidores de Wikimedia. La descarga masiva está disponible (a partir de septiembre de 2013) desde los servidores de réplica, pero no se ofrece directamente desde los servidores de Wikimedia. Vea la lista de servidores de réplica actuales. Debe sincronizar desde el servidor de réplica, luego completar las imágenes faltantes desde upload.wikimedia.org; cuando descargue desde el servidor de réplica, upload.wikimedia.orgdebe limitarse a 1 error de caché por segundo (puede verificar los encabezados de una respuesta para ver si fue un acierto o un error y luego reducir la velocidad cuando obtenga un error) y no debe usar más de una o dos conexiones HTTP simultáneas. En cualquier caso, asegúrese de tener una cadena de agente de usuario precisa con información de contacto (dirección de correo electrónico) para que los operadores puedan comunicarse con usted si hay un problema. Debe obtener sumas de verificación de la API de mediawiki y verificarlas. La página de Etiqueta de API contiene algunas pautas, aunque no todas se aplican (por ejemplo, debido a que upload.wikimedia.org no es MediaWiki, no hay ningún maxlagparámetro).

A diferencia de la mayoría de los textos de los artículos, las imágenes no necesariamente tienen licencia GFDL y CC-BY-SA-3.0. Pueden tener una de las muchas licencias gratuitas , ser de dominio público , considerarse de uso legítimo o incluso infringir los derechos de autor (que deberían eliminarse ). En particular, el uso de imágenes de uso legítimo fuera del contexto de Wikipedia o de obras similares puede ser ilegal. Las imágenes con la mayoría de las licencias requieren un crédito y posiblemente otra información de derechos de autor adjunta. Esta información se incluye en las páginas de descripción de las imágenes, que forman parte de los volcados de texto disponibles en dumps.wikimedia.org. En conclusión, descargue estas imágenes bajo su propio riesgo (Legal).

Cómo manejar archivos comprimidos

Los archivos de volcado comprimidos se comprimen significativamente, por lo que después de descomprimirlos ocuparán una gran cantidad de espacio en el disco. Se describe una gran lista de programas de descompresión en comparación con los archivadores de archivos . Los siguientes programas en particular se pueden utilizar para descomprimir archivos bzip2, .bz2 , .zip y .7z .

Ventanas

A partir de Windows XP , un programa de descompresión básico permite la descompresión de archivos zip. [2] [3] Entre otros, se pueden utilizar los siguientes para descomprimir archivos bzip2.

Macintosh (Mac)
GNU/ Linux
Distribución de software de Berkeley (BSD)
Notas
  1. Es posible que algunas versiones anteriores de bzip2 no puedan manejar archivos de más de 2 GB, así que asegúrese de tener la última versión si experimenta algún problema.
  2. Algunos archivos más antiguos están comprimidos con gzip, que es compatible con PKZIP (el formato más común de Windows).

Cómo manejar archivos grandes

A medida que los archivos aumentan de tamaño, también aumenta la probabilidad de que superen algún límite de un dispositivo informático. Cada sistema operativo, sistema de archivos, dispositivo de almacenamiento duro y software (aplicación) tiene un límite máximo de tamaño de archivo. Es probable que cada uno de ellos tenga un máximo diferente, y el límite más bajo de todos ellos se convertirá en el límite de tamaño de archivo para un dispositivo de almacenamiento.

Cuanto más antiguo sea el software de un dispositivo informático, más probable será que tenga un límite de archivos de 2 GB en algún lugar del sistema. Esto se debe a que el software más antiguo utiliza números enteros de 32 bits para la indexación de archivos, lo que limita el tamaño de los archivos a 2^31 bytes (2 GB) (para números enteros con signo) o 2^32 (4 GB) (para números enteros sin signo). Las bibliotecas de programación C más antiguas tienen este límite de 2 o 4 GB, pero las bibliotecas de archivos más nuevas se han convertido a números enteros de 64 bits, por lo que admiten tamaños de archivo de hasta 2^63 o 2^64 bytes (8 o 16 EB ).

Antes de comenzar a descargar un archivo grande, verifique el dispositivo de almacenamiento para asegurarse de que su sistema de archivos pueda soportar archivos de un tamaño tan grande, verifique la cantidad de espacio libre para asegurarse de que pueda contener el archivo descargado y asegúrese de que los dispositivos con los que usará el almacenamiento puedan leer el sistema de archivos elegido.

Límites del sistema de archivos

Existen dos límites para un sistema de archivos: el límite de tamaño del sistema de archivos y el límite del sistema de archivos. En general, dado que el límite de tamaño de archivo es menor que el límite del sistema de archivos, los límites mayores del sistema de archivos son un punto discutible. Un gran porcentaje de usuarios asume que pueden crear archivos hasta el tamaño de su dispositivo de almacenamiento, pero se equivocan en su suposición. Por ejemplo, un dispositivo de almacenamiento de 16 GB formateado como sistema de archivos FAT32 tiene un límite de archivo de 4 GB para cualquier archivo individual. A continuación, se incluye una lista de los sistemas de archivos más comunes; consulte Comparación de sistemas de archivos para obtener información detallada adicional.

Ventanas
Macintosh (Mac)
Linux
BSD libre
FreeBSD y otros BSD

Límites del sistema operativo

Cada sistema operativo tiene límites internos para el tamaño de los archivos y de las unidades, que son independientes del sistema de archivos o del medio físico. Si el sistema operativo tiene límites inferiores a los del sistema de archivos o del medio físico, entonces los límites del sistema operativo serán los límites reales.

Ventanas
Linux

Android : Android se basa en Linux, lo que determina sus límites básicos.

Apple iOS (ver Lista de modelos de iPhone )

Consejos

Detectar archivos corruptos

Es útil comprobar las sumas MD5 (que se proporcionan en un archivo en el directorio de descarga) para asegurarse de que la descarga se haya completado y sea precisa. Esto se puede comprobar ejecutando el comando "md5sum" en los archivos descargados. Dados sus tamaños, el cálculo puede tardar un tiempo. Debido a los detalles técnicos de cómo se almacenan los archivos, los tamaños de los archivos pueden informarse de forma diferente en diferentes sistemas de archivos, por lo que no son necesariamente fiables. Además, es posible que se hayan producido daños durante la descarga, aunque esto es poco probable.

Linux y Unix

Si parece que estás alcanzando el límite de 2 GB, prueba a usar la versión 1.10 o posterior de wget , la versión 7.11.1-1 o posterior de cURL , o una versión reciente de lynx (usando -dump). También puedes reanudar las descargas (por ejemplo, wget -c).

¿Por qué no simplemente recuperar datos de?wikipedia.org¿en tiempo de ejecución?

Supongamos que está creando un programa que, en determinados puntos, muestra información procedente de Wikipedia. Si desea que su programa muestre la información de una forma distinta a la que se puede ver en la versión en vivo, probablemente necesitará el código wiki que se utiliza para ingresarlo, en lugar del HTML final.

Además, si quieres obtener todos los datos, probablemente quieras transferirlos de la forma más eficiente posible. Los servidores de wikipedia.org necesitan hacer un gran trabajo para convertir el código wiki en HTML. Eso consume mucho tiempo tanto para ti como para los servidores de wikipedia.org, por lo que simplemente rastrear todas las páginas no es la mejor opción.

Para acceder a cualquier artículo en XML, de uno en uno, acceda a Especial:Exportar/Título del artículo .

Lea más sobre esto en Special:Export .

Tenga en cuenta que los espejos en vivo de Wikipedia que se cargan dinámicamente desde los servidores de Wikimedia están prohibidos. Consulte Wikipedia:Mirrors and forks .

Por favor, no utilice un rastreador web

No utilice un rastreador web para descargar una gran cantidad de artículos. El rastreo agresivo del servidor puede provocar una ralentización drástica de Wikipedia.

Ejemplo de correo electrónico bloqueado por un rastreador

La dirección IP nnn.nnn.nnn.nnn estaba recuperando hasta 50 páginas por segundo de las direcciones de wikipedia.org. Algo así como un retraso de al menos un segundo entre solicitudes es razonable. Por favor, respete esa configuración. Si debe excederla un poco, hágalo solo durante los horarios de menor actividad que se muestran en nuestros gráficos de carga del sitio en stats.wikimedia.org/EN/ChartsWikipediaZZ.htm . Vale la pena señalar que rastrear todo el sitio a un hit por segundo llevará varias semanas. La IP de origen está bloqueada ahora o lo estará en breve. Por favor, póngase en contacto con nosotros si desea desbloquearla. Por favor, no intente eludirla: simplemente bloquearemos todo su rango de IP.
Si desea obtener información sobre cómo obtener nuestro contenido de manera más eficiente, ofrecemos una variedad de métodos, incluidos volcados de bases de datos semanales que puede cargar en MySQL y rastrear localmente a la velocidad que le resulte conveniente. También hay herramientas disponibles que lo harán por usted con la frecuencia que desee una vez que tenga la infraestructura en su lugar.
En lugar de responder por correo electrónico, quizás prefieras visitar #mediawiki connect en irc.libera.chat para discutir tus opciones con nuestro equipo.

Realizar consultas SQL en el volcado de base de datos actual

Puede realizar consultas SQL en el volcado de base de datos actual utilizando Quarry (como reemplazo de la página Special:Asksql deshabilitada ).

Esquema de base de datos

Esquema SQL

Véase también: mw:Manual:Diseño de la base de datos

El archivo sql utilizado para inicializar una base de datos MediaWiki se puede encontrar aquí.

Esquema XML

El esquema XML para cada volcado se define en la parte superior del archivo y se describe en la página de ayuda de exportación de MediaWiki.

Ayuda a analizar archivos volcados para su uso en scripts

Ejecución de Hadoop MapReduce en el volcado de base de datos actual de Wikipedia

Puede realizar consultas Hadoop MapReduce en el volcado de base de datos actual, pero necesitará una extensión de InputRecordFormat para que cada <page> </page> sea una única entrada de mapeador. Hay disponible un conjunto funcional de métodos Java (jobControl, mapper, reducer y XmlInputRecordFormat) en Hadoop en Wikipedia.

Ayuda para importar volcados a MySQL

Ver:

Volcados HTML de Wikimedia Enterprise

Como parte de Wikimedia Enterprise se publica un espejo parcial de los archivos HTML. Los archivos HTML se generan para un conjunto específico de espacios de nombres y wikis, y luego se ponen a disposición del público para su descarga. Cada archivo HTML resultante consiste en un archivo tar.gz que, cuando se descomprime y descomprime, contiene un archivo, con una sola línea por artículo, en formato json. [Página principal del proyecto]

Volcados de árboles HTML estáticos para duplicación o distribución en CD

MediaWiki 1.5 incluye rutinas para convertir un wiki en HTML, lo que permite reproducir el HTML con el mismo analizador que se utiliza en un wiki en vivo. Como se indica en la página siguiente, publicar uno de estos archivos en la web sin modificarlo constituirá una violación de marca registrada. Están pensados ​​para su visualización privada en una intranet o en una instalación de escritorio.

Ver también:

Kiwix

Kiwix en una tableta Android

Kiwix es, con diferencia, la mayor distribución offline de Wikipedia hasta la fecha. Como lector offline, Kiwix funciona con una biblioteca de contenidos que son archivos zim: puedes elegir cualquier proyecto de Wikimedia (Wikipedia en cualquier idioma, Wiktionary , Wikisource , etc.), así como TED Talks , simulaciones interactivas de matemáticas y física de PhET , Project Gutenberg , etc.

Es gratuito y de código abierto, y actualmente está disponible para descargar en:

... así como extensiones para los navegadores Chrome y Firefox, soluciones de servidor, etc. Consulte el sitio web oficial para ver el portafolio completo de Kiwix.

Diccionario Aard / Aard 2

Aard Dictionary es un lector de Wikipedia sin conexión. Sin imágenes. Multiplataforma para Windows, Mac, Linux, Android y Maemo. Funciona en lectores de libros electrónicos Nook y Sony PRS-T1 rooteados.

También tiene un sucesor, Aard 2.

Wikivisor paraCaja de rock

El complemento WikiViewer para Rockbox permite ver archivos de Wikipedia convertidos en muchos dispositivos Rockbox . Requiere una compilación personalizada y la conversión de los archivos de Wikipedia siguiendo las instrucciones disponibles en http://www.rockbox.org/tracker/4755. La conversión vuelve a comprimir el archivo y lo divide en archivos de 1 GB y un archivo de índice, que deben estar todos en la misma carpeta en el dispositivo o la tarjeta micro SD.

Viejos vertederos

Generación dinámica de HTML a partir de un volcado de base de datos XML local

En lugar de convertir un archivo de volcado de base de datos en muchos fragmentos de HTML estático, también se puede utilizar un generador de HTML dinámico. Navegar por una página wiki es como navegar por un sitio wiki, pero el contenido se obtiene y se convierte desde un archivo de volcado local a petición del navegador.

XOWA

XOWA es una aplicación gratuita de código abierto que permite descargar Wikipedia a un ordenador. ¡Accede a toda la Wikipedia sin conexión a Internet! Actualmente se encuentra en fase beta de desarrollo, pero es funcional. Está disponible para descargar aquí.

Características

Características principales

  1. Búsqueda muy rápida
  2. Búsqueda basada en palabras clave (en realidad, palabras del título)
  3. La búsqueda produce múltiples artículos posibles: puedes elegir entre ellos
  4. Representación basada en LaTeX para fórmulas matemáticas
  5. Requisitos mínimos de espacio: el archivo .bz2 original más el índice
  6. Instalación muy rápida (en cuestión de horas) en comparación con cargar el volcado en MySQL

Filtro Wiki

WikiFilter es un programa que te permite explorar más de 100 archivos de volcado sin visitar un sitio Wiki.

Requisitos del sistema de WikiFilter

Cómo configurar WikiFilter

  1. Comience a descargar un archivo de volcado de base de datos de Wikipedia, como un archivo de volcado de Wikipedia en inglés. Es mejor utilizar un administrador de descargas como GetRight para poder reanudar la descarga del archivo incluso si su computadora falla o se apaga durante la descarga.
  2. Descargue XAMPPLITE desde [2] (debe obtener la versión 1.5.0 para que funcione). Asegúrese de seleccionar el archivo cuyo nombre termine con .exe
  3. Instalarlo/extráelo a C:\XAMPPLITE.
  4. Descargue WikiFilter 2.3 desde este sitio: http://sourceforge.net/projects/wikifilter. Podrá elegir entre varios archivos para descargar, así que asegúrese de elegir la versión 2.3. Extráigala en C:\WIKIFILTER.
  5. Copie WikiFilter.so en su carpeta C:\XAMPPLITE\apache\modules.
  6. Edite su archivo C:\xampplite\apache\conf\httpd.conf y agregue la siguiente línea:
    • LoadModule WikiFilter_module "C:/XAMPPLITE/apache/modules/WikiFilter.so"
  7. Cuando haya terminado de descargarse el archivo de Wikipedia, descomprímalo en la carpeta C:\WIKIFILTER. (Yo utilicé la versión demo de WinRAR http://www.rarlab.com/ – BitZipper http://www.bitzipper.com/winrar.html también funciona bien.)
  8. Ejecute WikiFilter (WikiIndex.exe), vaya a su carpeta C:\WIKIFILTER, arrastre y suelte el archivo XML en la ventana, haga clic en Cargar y luego en Iniciar.
  9. Una vez finalizado, salga de la ventana y vaya a la carpeta C:\XAMPPLITE. Ejecute el archivo setup_xampp.bat para configurar xampp.
  10. Cuando termine con eso, ejecute el archivo Xampp-Control.exe e inicie Apache.
  11. Vaya a http://localhost/wiki y vea si funciona
    • Si no funciona, consulte los foros.

WikiTaxi (para Windows)

WikiTaxi es un lector offline de wikis en formato MediaWiki. Permite a los usuarios buscar y navegar en wikis populares como Wikipedia, Wikiquote o WikiNews sin necesidad de estar conectados a Internet. WikiTaxi funciona bien con diferentes idiomas como inglés, alemán, turco y otros, pero tiene un problema con los sistemas de escritura de derecha a izquierda. WikiTaxi no muestra imágenes.

Requisitos del sistema de WikiTaxi

Uso de WikiTaxi

  1. Descargue WikiTaxi y extráigalo a una carpeta vacía. No se requiere ninguna otra instalación.
  2. Descargue el volcado de base de datos XML (*.xml.bz2) de su wiki favorita.
  3. Ejecute WikiTaxi_Importer.exe para importar el archivo volcado de la base de datos a una base de datos WikiTaxi. El importador se encarga de descomprimir el archivo volcado a medida que lo importa, así que asegúrese de ahorrar espacio en el disco y no lo descomprima antes.
  4. Cuando finalice la importación, inicie WikiTaxi.exe y abra el archivo de base de datos generado. Puede comenzar a buscar, explorar y leer de inmediato.
  5. Después de una importación exitosa, el archivo de volcado XML ya no es necesario y se puede eliminar para recuperar espacio en disco.
  6. Para actualizar un Wiki sin conexión para WikiTaxi, descargue e importe un volcado de base de datos más reciente.

Para leer WikiTaxi, solo se necesitan dos archivos: WikiTaxi.exe y la base de datos .taxi. Cópielos en cualquier dispositivo de almacenamiento (memoria USB o tarjeta de memoria) o grábelos en un CD o DVD y lleve su Wikipedia a donde quiera que vaya.

BzReader y MzReader (para Windows)

BzReader es un lector de Wikipedia sin conexión con funciones de búsqueda rápida. Convierte el texto de la wiki en HTML y no necesita descomprimir la base de datos. Requiere Microsoft .NET Framework 2.0.

MzReader de Mun206 funciona con BzReader (aunque no está afiliado a él) y permite una mejor representación del código wiki en HTML, incluida una interpretación del diseño de Monobook. Su objetivo es hacer que las páginas sean más legibles. Requiere Microsoft Visual Basic 6.0 Runtime, que no se incluye con la descarga. También requiere Inet Control e Internet Controls (Internet Explorer 6 ActiveX), que se incluyen con la descarga.

Ala de Epsom

La base de datos de Wikipedia sin conexión en formato de diccionario EPWING, que es común y un estándar industrial japonés (JIS) obsoleto en Japón, se puede leer, incluidas las imágenes en miniatura y las tablas con algunas limitaciones de representación, en cualquier sistema que tenga un lector disponible (Boookends). Hay muchos lectores gratuitos y comerciales para Windows (incluidos los móviles), Mac OS X, iOS (iPhone, iPad), Android, Unix-Linux-BSD, DOS y aplicaciones de navegador basadas en Java (EPWING Viewers).

Edificio de espejos

Espejo WP

Importante: WP-mirror no cuenta con soporte desde 2014 y se necesita la verificación de la comunidad para comprobar que realmente funciona. Consulta la página de discusión .

WP-MIRROR es una utilidad gratuita para crear un espejo de cualquier conjunto de wikis WMF. Es decir, crea una granja de wikis que el usuario puede explorar localmente. WP-MIRROR crea un espejo completo con archivos multimedia en tamaño original. WP-MIRROR está disponible para descargar.

Véase también

Referencias

  1. ^ Consulte Wikipedia:Reutilización de contenido de Wikipedia § Reutilización de texto bajo la Licencia de Documentación Libre de GNU para obtener más información sobre la compatibilidad con la GFDL.
  2. ^ "Benchmarked: ¿Cuál es el mejor formato de compresión de archivos?". How To Geek . How-To Geek, LLC . Consultado el 18 de enero de 2017 .
  3. ^ "Comprimir y descomprimir archivos". Microsoft . Microsoft . Consultado el 18 de enero de 2017 .
  4. ^ ab "Comparación de formatos de volumen". developer.apple.com . Consultado el 19 de noviembre de 2023 .
  5. ^ Compatibilidad con archivos grandes en Linux
  6. ^ Android 2.2 y anteriores utilizaban el sistema de archivos YAFFS; 14 de diciembre de 2010.

Enlaces externos