stringtranslate.com

Wikipedia: descarga de base de datos

Wikipedia ofrece copias gratuitas de todo el contenido disponible a los usuarios interesados. Estas bases de datos se pueden utilizar para duplicación , uso personal, copias de seguridad informales, uso fuera de línea o consultas de bases de datos (como para Wikipedia: Mantenimiento ). Todo el contenido de texto tiene la licencia Creative Commons Attribution-ShareAlike 3.0 (CC-BY-SA), y la mayoría tiene además la licencia de documentación libre GNU (GFDL). [1] Las imágenes y otros archivos están disponibles bajo diferentes términos , como se detalla en sus páginas de descripción. Para obtener consejos sobre el cumplimiento de estas licencias, consulte Wikipedia: Copyrights .

Lectores de Wikipedia sin conexión

Algunas de las muchas formas de leer Wikipedia sin conexión:

Algunas de ellas son aplicaciones móviles; consulte " lista de aplicaciones móviles de Wikipedia ".

¿Dónde consigo los volcados?

Wikipedia en inglés

¿Debería obtener transmisión múltiple?

TL;DR : ¡OBTENGA LA VERSIÓN MULTISTREAM! (y el archivo de índice correspondiente, páginas-artículos-multistream-index.txt.bz2 )

páginas-artículos.xml.bz2 y páginas-artículos-multistream.xml.bz2 contienen el mismo contenido xml . Entonces, si descomprimes cualquiera de los dos, obtendrás los mismos datos. Pero con multistream, es posible obtener un artículo del archivo sin descomprimirlo todo. Su lector debe manejar esto por usted, si su lector no lo admite, funcionará de todos modos ya que multistream y no multistream contienen el mismo xml . El único inconveniente del multistream es que es ligeramente más grande. Es posible que tenga la tentación de obtener el archivo más pequeño que no sea multitransmisión, pero será inútil si no lo descomprime. Y se descomprimirá entre 5 y 10 veces su tamaño original. Centavo libras sabios necios. Obtenga transmisión múltiple.

TENGA EN CUENTA QUE el archivo de volcado multitransmisión contiene múltiples 'secuencias' bz2 (encabezado, cuerpo, pie de página de bz2) concatenadas en un solo archivo, en contraste con el archivo básico que contiene una sola secuencia. Cada 'flujo' separado (o en realidad, archivo) en el volcado de flujo múltiple contiene 100 páginas, excepto posiblemente la última.

¿Cómo utilizar multitransmisión?

Para multistream, puede obtener un archivo de índice, páginas-artículos-multistream-index.txt.bz2 . El primer campo de este índice es el número de bytes que se buscarán en el archivo comprimido pages-articles-multistream.xml.bz2 , el segundo es el ID del artículo y el tercero el título del artículo.

Corte una pequeña parte del archivo con dd utilizando el desplazamiento de bytes que se encuentra en el índice. Luego puede descomprimirlo con bzip2 o usar bzip2recover y buscar en el primer archivo el ID del artículo.

Consulte https://docs.python.org/3/library/bz2.html#bz2.BZ2Decompressor para obtener información sobre dichos archivos multitransmisión y sobre cómo descomprimirlos con Python; consulte también https://gerrit.wikimedia.org/r/plugins/gitiles/operatives/dumps/+/ariel/toys/bz2multistream/README.txt y archivos relacionados para un juguete antiguo que funciona.

Otros idiomas

En el directorio dumps.wikimedia.org encontrará los últimos volcados de SQL y XML para los proyectos, no solo en inglés. Los subdirectorios reciben el nombre del código de idioma y del proyecto correspondiente. Existen algunos otros directorios (por ejemplo, simple, nostalgia), con la misma estructura. Estos volcados también están disponibles en Internet Archive.

¿Dónde están los archivos cargados (imagen, audio, video, etc.)?

Las imágenes y otros medios cargados están disponibles en espejos además de ser servidos directamente desde los servidores de Wikimedia. La descarga masiva (a partir de septiembre de 2013) está disponible desde espejos, pero no se ofrece directamente desde los servidores de Wikimedia. Vea la lista de espejos actuales. Debes sincronizar desde el espejo y luego completar las imágenes que faltan desde upload.wikimedia.org; al realizar la descarga, upload.wikimedia.orgdebe limitarse a 1 error de caché por segundo (puede verificar los encabezados de una respuesta para ver si fue un éxito o un error y luego retroceder cuando falla) y no debe usar más de uno o dos conexiones HTTP simultáneas. En cualquier caso, asegúrese de tener una cadena de agente de usuario precisa con información de contacto (dirección de correo electrónico) para que los operadores puedan comunicarse con usted si hay un problema. Deberías obtener sumas de verificación de la API de mediawiki y verificarlas. La página Etiqueta de API contiene algunas pautas, aunque no todas se aplican (por ejemplo, debido a que upload.wikimedia.org no es MediaWiki, no hay ningún maxlagparámetro).

A diferencia de la mayoría del texto de los artículos, las imágenes no necesariamente tienen licencia GFDL y CC-BY-SA-3.0. Pueden estar bajo una de muchas licencias gratuitas , de dominio público , consideradas de uso legítimo , o incluso infracciones de derechos de autor (que deberían eliminarse ). En particular, el uso de imágenes de uso legítimo fuera del contexto de Wikipedia o trabajos similares puede ser ilegal. Las imágenes bajo la mayoría de las licencias requieren un crédito y posiblemente otra información de derechos de autor adjunta. Esta información se incluye en las páginas de descripción de imágenes, que forman parte de los volcados de texto disponibles en dumps.wikimedia.org. En conclusión, descarga estas imágenes bajo tu propia responsabilidad (Legal).

Manejo de archivos comprimidos

Los archivos de volcado comprimidos están significativamente comprimidos, por lo que después de descomprimirlos ocuparán grandes cantidades de espacio en el disco. Se describe una gran lista de programas de descompresión en comparación con archivadores de archivos . Los siguientes programas en particular se pueden utilizar para descomprimir archivos bzip2, .bz2 , .zip y .7z .

ventanas

A partir de Windows XP , un programa de descompresión básico permite descomprimir archivos zip. [2] [3] Entre otros, lo siguiente se puede utilizar para descomprimir archivos bzip2.

Macintosh (Mac)
GNU/ Linux
Distribución de software de Berkeley (BSD)
Notas
  1. Es posible que algunas versiones anteriores de bzip2 no puedan manejar archivos de más de 2 GB, así que asegúrese de tener la última versión si tiene algún problema.
  2. Algunos archivos antiguos se comprimen con gzip, que es compatible con PKZIP (el formato más común de Windows).

Manejo de archivos grandes

A medida que los archivos aumentan de tamaño, también aumenta la probabilidad de que excedan algún límite de un dispositivo informático. Cada sistema operativo, sistema de archivos, dispositivo de almacenamiento duro y software (aplicación) tiene un límite máximo de tamaño de archivo. Es probable que cada uno de ellos tenga un máximo diferente y el límite más bajo de todos ellos se convertirá en el límite de tamaño de archivo para un dispositivo de almacenamiento.

Cuanto más antiguo sea el software de un dispositivo informático, es más probable que tenga un límite de archivos de 2 GB en algún lugar del sistema. Esto se debe a que el software más antiguo utiliza enteros de 32 bits para la indexación de archivos, lo que limita el tamaño de los archivos a 2^31 bytes (2 GB) (para enteros con signo) o 2^32 (4 GB) (para enteros sin signo). Las bibliotecas de programación C más antiguas tienen este límite de 2 o 4 GB, pero las bibliotecas de archivos más nuevas se han convertido a enteros de 64 bits, lo que admite tamaños de archivos de hasta 2^63 o 2^64 bytes (8 o 16 EB ).

Antes de iniciar la descarga de un archivo grande, verifique el dispositivo de almacenamiento para asegurarse de que su sistema de archivos pueda admitir archivos de un tamaño tan grande, verifique la cantidad de espacio libre para asegurarse de que pueda contener el archivo descargado y asegúrese de que los dispositivos ) utilizará el almacenamiento y podrá leer el sistema de archivos elegido.

Límites del sistema de archivos

Hay dos límites para un sistema de archivos: el límite de tamaño del sistema de archivos y el límite del sistema de archivos. En general, dado que el límite de tamaño de archivo es menor que el límite del sistema de archivos, los límites más grandes del sistema de archivos son un punto discutible. Un gran porcentaje de usuarios asume que pueden crear archivos hasta el tamaño de su dispositivo de almacenamiento, pero se equivocan en su suposición. Por ejemplo, un dispositivo de almacenamiento de 16 GB formateado como sistema de archivos FAT32 tiene un límite de archivos de 4 GB para cada archivo. La siguiente es una lista de los sistemas de archivos más comunes y consulte Comparación de sistemas de archivos para obtener información detallada adicional.

ventanas
Macintosh (Mac)
linux
FreeBSD
FreeBSD y otros BSD

Límites del sistema operativo

Cada sistema operativo tiene límites internos del sistema de archivos para el tamaño del archivo y el tamaño de la unidad, que son independientes del sistema de archivos o del medio físico. Si el sistema operativo tiene límites inferiores a los del sistema de archivos o los medios físicos, entonces los límites del sistema operativo serán el límite real.

ventanas
linux

Android : Android está basado en Linux, lo que determina sus límites base.

Apple iOS (ver Lista de modelos de iPhone )

Consejos

Detectar archivos corruptos

Es útil verificar las sumas MD5 (proporcionadas en un archivo en el directorio de descarga) para asegurarse de que la descarga haya sido completa y precisa. Esto se puede comprobar ejecutando el comando "md5sum" en los archivos descargados. Dados sus tamaños, calcular esto puede llevar algún tiempo. Debido a los detalles técnicos de cómo se almacenan los archivos, los tamaños de los archivos pueden informarse de manera diferente en diferentes sistemas de archivos y, por lo tanto, no son necesariamente confiables. Además, es posible que se hayan producido daños durante la descarga, aunque esto es poco probable.

Linux y Unix

Si parece que está alcanzando el límite de 2 GB, intente usar la versión 1.10 o superior de wget , la versión 7.11.1-1 o superior de cURL o una versión reciente de lynx (usando -dump). Además, puede reanudar las descargas (por ejemplo, wget -c).

¿Por qué no simplemente recuperar datos de wikipedia.org en tiempo de ejecución?

Supongamos que está creando un software que en determinados puntos muestra información procedente de Wikipedia. Si desea que su programa muestre la información de una manera diferente a la que se puede ver en la versión en vivo, probablemente necesitará el código wiki que se utiliza para ingresarla, en lugar del HTML terminado.

Además, si deseas obtener todos los datos, probablemente querrás transferirlos de la manera más eficiente posible. Los servidores de wikipedia.org necesitan trabajar bastante para convertir el código wiki en HTML. Esto requiere mucho tiempo tanto para usted como para los servidores de wikipedia.org, por lo que simplemente revisar todas las páginas no es el camino a seguir.

Para acceder a cualquier artículo en XML, de uno en uno, acceda a Especial:Exportación/Título del artículo .

Lea más sobre esto en Especial: Exportación .

Tenga en cuenta que están prohibidas las réplicas en vivo de Wikipedia que se cargan dinámicamente desde los servidores de Wikimedia. Consulte Wikipedia: Espejos y horquillas .

Por favor no utilice un rastreador web

No utilice un rastreador web para descargar una gran cantidad de artículos. El rastreo agresivo del servidor puede provocar una ralentización dramática de Wikipedia.

Ejemplo de correo electrónico bloqueado del rastreador

La dirección IP nnn.nnn.nnn.nnn recuperaba hasta 50 páginas por segundo de direcciones de wikipedia.org. Algo así como al menos un segundo de retraso entre solicitudes es razonable. Por favor respete esa configuración. Si debe excederlo un poco, hágalo solo durante las horas de menor actividad que se muestran en los gráficos de carga de nuestro sitio en stats.wikimedia.org/EN/ChartsWikipediaZZ.htm . Vale la pena señalar que rastrear todo el sitio a un ritmo por segundo llevará varias semanas. La IP de origen ahora está bloqueada o lo estará en breve. Por favor contáctenos si desea desbloquearlo. No intentes eludirlo: simplemente bloquearemos todo tu rango de IP.
Si desea información sobre cómo obtener nuestro contenido de manera más eficiente, ofrecemos una variedad de métodos, incluidos volcados de bases de datos semanales que puede cargar en MySQL y rastrear localmente al ritmo que considere conveniente. También hay herramientas disponibles que harán eso por usted tantas veces como desee una vez que tenga la infraestructura en su lugar.
En lugar de una respuesta por correo electrónico, es posible que prefiera visitar #mediawiki connect en irc.libera.chat para analizar sus opciones con nuestro equipo.

Realizar consultas SQL en el volcado de base de datos actual

Puede realizar consultas SQL en el volcado de base de datos actual utilizando Quarry (como reemplazo de la página Especial:Asksql deshabilitada ).

Esquema de base de datos

esquema SQL

Ver también: mw:Manual:Diseño de base de datos

El archivo SQL utilizado para inicializar una base de datos de MediaWiki se puede encontrar aquí.

esquema XML

El esquema XML para cada volcado se define en la parte superior del archivo y se describe en la página de ayuda de exportación de MediaWiki.

Ayuda para analizar volcados para su uso en scripts

Haciendo Hadoop MapReduce en el volcado de base de datos actual de Wikipedia

Puede realizar consultas de Hadoop MapReduce en el volcado de base de datos actual, pero necesitará una extensión de InputRecordFormat para que cada <page> </page> sea una única entrada del asignador. Un conjunto funcional de métodos Java (jobControl, mapper, reducer y XmlInputRecordFormat) está disponible en Hadoop en Wikipedia.

Ayuda para importar volcados a MySQL

Ver:

Volcados de HTML empresarial de Wikimedia

Como parte de Wikimedia Enterprise, se publica una copia parcial de los volcados de HTML. Los volcados se producen para un conjunto específico de espacios de nombres y wikis y luego se ponen a disposición para su descarga pública. Cada archivo de salida del volcado consta de un archivo tar.gz que, cuando se descomprime y se descomprime, contiene un archivo, con una sola línea por artículo, en formato json. [Página principal del proyecto]

Volcados de árboles HTML estáticos para duplicación o distribución en CD

MediaWiki 1.5 incluye rutinas para volcar un wiki a HTML, renderizando el HTML con el mismo analizador usado en un wiki en vivo. Como indica la siguiente página, poner uno de estos volcados en la web sin modificar constituirá una violación de marca registrada. Están pensados ​​para su visualización privada en una intranet o en una instalación de escritorio.

Ver también:

Kiwix

Kiwix en una tableta Android

Kiwix es, con diferencia, la distribución fuera de línea más grande de Wikipedia hasta la fecha. Como lector fuera de línea, Kiwix trabaja con una biblioteca de contenidos que son archivos zim: puedes elegir cualquier proyecto de Wikimedia (Wikipedia en cualquier idioma, Wiktionary , Wikisource , etc.), así como TED Talks , PhET Interactive Maths & Physics. Simulaciones , Proyecto Gutenberg , etc.

Es gratuito y de código abierto, y actualmente está disponible para descargar en:

... así como extensiones para los navegadores Chrome y Firefox, soluciones de servidor, etc. Consulte el sitio web oficial para conocer la cartera completa de Kiwix.

Diccionario Aard / Aard 2

Aard Dictionary es un lector de Wikipedia sin conexión. Sin imágenes. Multiplataforma para Windows, Mac, Linux, Android, Maemo. Se ejecuta en lectores de libros electrónicos Nook y Sony PRS-T1 rooteados.

También tiene un sucesor, el Aard 2.

Wikiviewer para Rockbox

El complemento wikiviewer para rockbox permite ver volcados de Wikipedia convertidos en muchos dispositivos Rockbox . Necesita una compilación personalizada y una conversión de los volcados del wiki siguiendo las instrucciones disponibles en http://www.rockbox.org/tracker/4755. La conversión recomprime el archivo y lo divide en archivos de 1 GB y un archivo de índice, todos los cuales deben estar en la misma carpeta del dispositivo o de la tarjeta micro SD.

viejos vertederos

Generación de HTML dinámico a partir de un volcado de base de datos XML local

En lugar de convertir un archivo de volcado de base de datos en muchos fragmentos de HTML estático, también se puede utilizar un generador de HTML dinámico. Navegar por una página wiki es como navegar por un sitio Wiki, pero el contenido se recupera y convierte desde un archivo de volcado local a pedido del navegador.

XOWA

XOWA es una aplicación gratuita de código abierto que ayuda a descargar Wikipedia a una computadora. ¡Acceda a toda Wikipedia sin conexión, sin conexión a Internet! Actualmente se encuentra en la etapa beta de desarrollo, pero es funcional. Está disponible para descargar aquí.

Características

Principales características

  1. búsqueda muy rápida
  2. Búsqueda basada en palabras clave (en realidad, palabras del título)
  3. La búsqueda produce múltiples artículos posibles: puedes elegir entre ellos
  4. Representación basada en LaTeX para fórmulas matemáticas
  5. Requisitos mínimos de espacio: el archivo .bz2 original más el índice
  6. Instalación muy rápida (cuestión de horas) en comparación con cargar el volcado en MySQL

Filtro Wiki

WikiFilter es un programa que le permite explorar más de 100 archivos de volcado sin visitar un sitio Wiki.

Requisitos del sistema WikiFilter

Cómo configurar WikiFilter

  1. Comience a descargar un archivo de volcado de base de datos de Wikipedia, como un volcado de Wikipedia en inglés. Es mejor utilizar un administrador de descargas como GetRight para poder reanudar la descarga del archivo incluso si su computadora falla o se apaga durante la descarga.
  2. Descargue XAMPPLITE desde [2] (debe obtener la versión 1.5.0 para que funcione). Asegúrese de elegir el archivo cuyo nombre termina en .exe
  3. Instálelo/extráigalo a C:\XAMPPLITE.
  4. Descargue WikiFilter 2.3 desde este sitio: http://sourceforge.net/projects/wikifilter. Podrás elegir entre varios archivos para descargar, así que asegúrate de elegir la versión 2.3. Extráigalo a C:\WIKIFILTER.
  5. Copie WikiFilter.so en su carpeta C:\XAMPPLITE\apache\modules.
  6. Edite su archivo C:\xampplite\apache\conf\httpd.conf y agregue la siguiente línea:
    • LoadModule WikiFilter_module "C:/XAMPPLITE/apache/modules/WikiFilter.so"
  7. Cuando su archivo Wikipedia haya terminado de descargarse, descomprímalo en su carpeta C:\WIKIFILTER. (Usé la versión de demostración de WinRAR http://www.rarlab.com/; BitZipper http://www.bitzipper.com/winrar.html también funciona bien).
  8. Ejecute WikiFilter (WikiIndex.exe), vaya a su carpeta C:\WIKIFILTER, arrastre y suelte el archivo XML en la ventana, haga clic en Cargar y luego en Iniciar.
  9. Una vez que finalice, salga de la ventana y vaya a su carpeta C:\XAMPPLITE. Ejecute el archivo setup_xampp.bat para configurar xampp.
  10. Cuando termine con eso, ejecute el archivo Xampp-Control.exe e inicie Apache.
  11. Vaya a http://localhost/wiki y vea si funciona
    • Si no funciona, mira los foros.

WikiTaxi (para Windows)

WikiTaxi es un lector fuera de línea de wikis en formato MediaWiki. Permite a los usuarios buscar y explorar wikis populares como Wikipedia, Wikiquote o WikiNews, sin estar conectados a Internet. WikiTaxi funciona bien con diferentes idiomas como inglés, alemán, turco y otros, pero tiene problemas con las escrituras de idiomas de derecha a izquierda. WikiTaxi no muestra imágenes.

Requisitos del sistema WikiTaxi

Uso de WikiTaxi

  1. Descargue WikiTaxi y extráigalo a una carpeta vacía. De lo contrario, no se requiere instalación.
  2. Descargue el volcado de la base de datos XML (*.xml.bz2) de su wiki favorito.
  3. Ejecute WikiTaxi_Importer.exe para importar el volcado de la base de datos a una base de datos de WikiTaxi. El importador se encarga de descomprimir el volcado a medida que lo importa, así que asegúrese de ahorrar espacio en el disco y no lo descomprima de antemano.
  4. Cuando finalice la importación, inicie WikiTaxi.exe y abra el archivo de base de datos generado. Puede comenzar a buscar, navegar y leer inmediatamente.
  5. Después de una importación exitosa, el archivo de volcado XML ya no es necesario y se puede eliminar para recuperar espacio en el disco.
  6. Para actualizar un Wiki fuera de línea para WikiTaxi, descargue e importe un volcado de base de datos más reciente.

Para la lectura de WikiTaxi, sólo se requieren dos archivos: WikiTaxi.exe y la base de datos .taxi. Cópialos en cualquier dispositivo de almacenamiento (tarjeta de memoria o tarjeta de memoria) o grábalos en un CD o DVD y ¡llévate tu Wikipedia a donde quiera que vayas!

BzReader y MzReader (para Windows)

BzReader es un lector de Wikipedia sin conexión con capacidades de búsqueda rápida. Representa el texto Wiki en HTML y no necesita descomprimir la base de datos. Requiere Microsoft .NET framework 2.0.

MzReader de Mun206 funciona con BzReader (aunque no está afiliado) y permite una mayor representación del código wiki en un mejor HTML, incluida una interpretación del aspecto del monolibro. Su objetivo es hacer que las páginas sean más legibles. Requiere Microsoft Visual Basic 6.0 Runtime, que no se suministra con la descarga. También requiere Inet Control e Internet Controls (Internet Explorer 6 ActiveX), que se incluyen con la descarga.

EPWING

La base de datos de Wikipedia sin conexión en formato de diccionario EPWING, que es un estándar industrial japonés (JIS) común y obsoleto en Japón, se puede leer, incluidas imágenes en miniatura y tablas con algunos límites de representación, en cualquier sistema donde haya un lector disponible (Sujetalibros). Hay muchos lectores comerciales y gratuitos para Windows (incluido Mobile), Mac OS X, iOS (iPhone, iPad), Android, Unix-Linux-BSD, DOS y aplicaciones de navegador basadas en Java (EPWING Viewers).

edificio espejo

ESPEJO WP

Importante: WP-mirror no es compatible desde 2014 y se necesita verificación de la comunidad para comprobar que realmente funciona. Ver página de discusión .

WP-MIRROR es una utilidad gratuita para reflejar cualquier conjunto deseado de wikis WMF. Es decir, crea una granja wiki que el usuario puede explorar localmente. WP-MIRROR crea un espejo completo con archivos multimedia de tamaño original. WP-MIRROR está disponible para descargar.

Ver también

Referencias

  1. ^ Consulte Wikipedia: Reutilización del contenido de Wikipedia § Reutilización de texto bajo la licencia de documentación libre GNU para obtener más información sobre la compatibilidad con GFDL.
  2. ^ "Evaluación comparativa: ¿Cuál es el mejor formato de compresión de archivos?". Cómo ser friki . Cómo hacerlo Geek, LLC . Consultado el 18 de enero de 2017 .
  3. ^ "Comprimir y descomprimir archivos". Microsoft . Microsoft . Consultado el 18 de enero de 2017 .
  4. ^ ab "Comparación de formatos de volumen". desarrollador.apple.com . Consultado el 19 de noviembre de 2023 .
  5. ^ Compatibilidad con archivos grandes en Linux
  6. ^ Android 2.2 y versiones anteriores usaban el sistema de archivos YAFFS; 14 de diciembre de 2010.

enlaces externos