Mojikyō

Mojikyō (en japonés:文字鏡), también conocido por su nombre completo Konjaku Mojikyō (今昔文字鏡, lit. ' (el) espejo de caracteres pasados y presentes ' ) , es unde codificación de caracterescreado para proporcionar un índice completo de caracteres utilizados en lossistemas de escrituralogográficoschinos históricoschino,el japonés,el coreano,el vietnamita Chữ Nôm(文字鏡研究会, Mojikyō Kenkyūkai ) , que publicó el conjunto de caracteres, también publicósoftware de computadora fuentesTrueTypepara acompañarlo. El Instituto Mojikyō, presidido por Tadahisa Ishikawa(石川忠久),^[1]originalmente tenía su conjunto de caracteres y software y datos relacionados redistribuidos enCD-ROMvendidos enKinokuniya.^[2]

Conceptualizado en 1996, ^[3] la primera versión del CD-ROM fue lanzada en julio de 1997. ^[4] Durante un tiempo, el Instituto Mojikyō también ofreció una suscripción web, denominada " Mojikyō WEB" (文字鏡WEB ), que tenía caracteres más actualizados. ^[5]

En septiembre de 2006 ^[actualizar], Mojikyō codificaba 174.975 caracteres. ^[6] Entre ellos, 150.366 caracteres (≈86%) pertenecían a la familia extendida chino-japonés-coreano-vietnamita (CJKV) ^{[nota 2] .}^[5] Muchos de los caracteres de Mojikyō se consideran obsoletos u oscuros, y no están codificados por ningún otro conjunto de caracteres, incluido el estándar de codificación de texto internacional más utilizado, Unicode .

Originalmente un producto de software propietario de pago, a partir de 2015, el Instituto Mojikyō comenzó a subir sus últimos lanzamientos a Internet Archive como freeware , ^[7] como un homenaje a uno de sus desarrolladores, Tokio Furuya (古家時雄) , quien murió ese año. ^[3] El 15 de diciembre de 2018, se lanzó la versión 4.0. Al día siguiente, Ishikawa anunció que sin Furuya este sería el lanzamiento final de Mojikyō . ^[3]

Premisa

La codificación Mojikyō se creó para proporcionar un índice completo de caracteres utilizados en los sistemas de escritura chino , japonés , coreano y vietnamita Chữ Nôm . También codifica una gran cantidad de caracteres en escrituras antiguas, como la escritura de hueso de oráculo , la escritura de sello y el sánscrito ( Siddhaṃ ). Para muchos caracteres, es la única codificación de caracteres que los codifica, y sus datos se utilizan a menudo como punto de partida para las propuestas Unicode . ^[8]^[9] Sin embargo, Mojikyō tiene estándares mucho más laxos que Unicode para la codificación, lo que lleva a Mojikyō a tener muchos glifos codificados de origen dudoso, o incluso involuntariamente ficticio. ^[10]^{[11] Como tal, si bien muchos caracteres}Mojikyō que no son Unicode son adecuados para su incorporación a Unicode, no todos pueden convertirse en caracteres Unicode, debido a los diferentes estándares de evidencia requeridos por cada uno.

Composición

Las fuentes Mojikyō (文字鏡フォント) son fuentes TrueType que vienen en un archivo ZIP y pesan entre 2 y 5 megabytes ; las diferentes fuentes contienen diferentes cantidades de caracteres. ^{[nota 3]} También se incluye un ejecutable de Windows que implementa un mapa de caracteres gráfico , el " Mapa de caracteres Mojikyō " (文字鏡MAP ), MOCHRMAP .EXE . ^{[nota 4]}^{[nota 5]}MOCHRMAP.EXE permite a los usuarios explorar las fuentes Mojikyō y copiar y pegar caracteres en lugar de escribirlos en el teclado. A diferencia del mapa de caracteres normal de Windows, o de KCharSelect , que admiten fuentes TrueType, MOCHRMAP.EXE muestra la ranura de codificación Mojikyō numerada del carácter solicitado. ^[12]^{[nota 6]} Para que MOCHRMAP.EXE funcione, se deben instalar todas las fuentes Mojikyō^{. [nota 7]}

Codificación

Cuando se hace referencia a un carácter codificado en Mojikyō , se suele utilizar el formato MJXXXXXX, similar al formato U+XXXX utilizado para Unicode. Por ejemplo, hentaigana U+1B008 𛀈 HENTAIGANA LETTER I-3 tiene la codificación Mojikyō MJ090007 y la codificación Unicode U+1B008. ^[13] Sin embargo, una diferencia es que las codificaciones Mojikyō que se muestran de esta manera son decimales , mientras que la codificación U+ de Unicode es hexadecimal .

Desde los primeros días de Unicode, Mojikyō ha influido en el estándar y ha sido influenciado por él. Los glifos originados en Mojikyō aparecen por primera vez en una propuesta al Grupo de Relatores Ideográficos (IRG), ^{[nota 8]} que es responsable de mantener todos los bloques CJK en Unicode, ^[14]^[15] el 18 de abril de 2002. ^[16] En mayo de 2007, Mojikyō jugó un papel menor en una serie de propuestas que finalmente tuvieron éxito para codificar la escritura Tangut en Unicode; ^[17]^{[nota 9]} Mojikyō ya tenía dentro de su codificación 6000 caracteres Tangut en octubre de 2002. ^[6]

La base de datos Unihan del estándar Unicode se refiere a Mojikyō como la " Colección KOKUJI japonesa" (日本国字集), ^[18] abreviada como "JK". ^[19]^[20] Por ejemplo, U+2B679 𫙹 CJK UNIFIED IDEOGRAPH-2B679 , ^{[nota 10]} un ideograma que se lee en japonés como burizādo (ブリザード, lit. ' ventisca ' ) , tiene una J-Source ^{[nota 11]} igual a JK-66038. Todos los caracteres Unicode con una J-Source prefijada con JK se originan en Mojikyō . ^[21]^{[nota 12]} Según Ken Lunde , un experto en la materia de codificaciones de caracteres e idiomas del este asiático , a partir de Unicode 13.0, 782 ideogramas en Unicode se originan de Mojikyō , divididos de manera más o menos uniforme entre dos bloques : CJK Unified Ideographs Extension C , con 367, y CJK Unified Ideographs Extension E , con 415. ^[20]^[22] No todos los caracteres Unicode con orígenes Mojikyō (J-Sources con prefijo JK) tienen el mismo glifo representativo en la tabla de códigos que en la fuente Mojikyō^{; [nota 13]} algunos caracteres tuvieron sus formas cambiadas antes de la codificación final, ya que la investigación mostró que las formas asignadas por el Instituto Mojikyō eran incorrectas. ^[11]^{[nota 14]}

Bloques

En septiembre de 2006, ^[actualizar]el sistema codificaba 174.975 caracteres. ^[6] De ellos, 150.366 pertenecían a la familia extendida CJKV ^{[nota 2] .}^[5] Muchos de los caracteres codificados se consideran obsoletos o desconocidos, y no están codificados por ningún otro conjunto de caracteres, incluido el estándar internacional Unicode. Cada carácter Mojikyō tiene un número único y los caracteres están organizados en bloques.

Mojikyō coloca los caracteres CJKV en diferentes bloques según su radical Kangxi tradicional . Los radicales comunes que contienen una cantidad especialmente alta de caracteres, como los radicales 9 (人) y 162 ( ⻌ ), se dividen aún más según el orden de los trazos.^{[nota 15]}

Sin unificación

A diferencia de Unicode, Mojikyō evita deliberadamente la unificación Han ; no se intenta compacidad en la codificación ni se intenta mantener todos los caracteres comunes por debajo de U+FFFF como ocurre en Unicode.

Unicode, por otro lado, clasifica su CJK en bloques según su grado de comunidad: los más comunes generalmente se colocan en el Plano Multilingüe Básico ^{[nota 14]} , mientras que aquellos que son raros u oscuros se colocan en los Planos Suplementarios .

Por ejemplo, Radical 9 tiene dos caracteres donde Unicode tiene uno: MJ054435 (令) y MJ059031 (令), ambos representados en Unicode como U+4EE4令CJK IDEOGRAFO UNIFICADO-4EE4 .

Licencia

Mojikyō es un software propietario con una licencia restrictiva. Originalmente, el Instituto Mojikyō intentó evitar que se utilizaran sus datos de caracteres y amenazó a quienes publicaran tablas de conversión hacia y desde su conjunto de caracteres. En julio de 2010, el Instituto Mojikyō abandonó sus esfuerzos legales para impedir que al menos un usuario japonés publicara tablas de conversión o convirtiera caracteres codificados en Mojikyō a Unicode u otros conjuntos de caracteres.^[23] Los datos simples, que a veces incluyen las formas de las letras, se consideran en muchas jurisdicciones propiedad común , ya que no cumplen con el umbral de originalidad .^{[nota 16]}

Sin embargo, debido a este legado, GlyphWiki [ja] rechazó los datos de Mojikyō a partir de 2020. ^[24]

Sistemas de escritura recopilados

Viviendo

Chino — Hanzi
Japonés : Kanji , Kana (incluido Hentaigana )
Coreano — Hanja
Alfabeto latino con diacríticos
Escritura cirílica con diacríticos

Muerto u obsoleto

Chino antiguo
- Script de hueso de Oracle
- Guión de sello
Kana taiwanés
Vietnamita — Chữ Nôm
Sánscrito — Siddhaṃ
Escritura tangut
Escritura sui

Véase también

Referencias

^ "今昔文字鏡について" [Acerca de Mojikyō]. Instituto Mojikyō (en japonés). Archivado desde el original el 3 de febrero de 2001 . Consultado el 6 de julio de 2020 .
^ ようこそ、今昔文字鏡の世界へ！ [¡Bienvenido al mundo de Mojikyō !] (en japonés). Kinokuniya KK. Archivado desde el original el 4 de marzo de 2005 . Consultado el 5 de julio de 2020 .
^ abc Ishikawa, Tadahisa (agosto de 2015). "古家時雄君を悼む" [Tokio Furuya, lamentamos tu muerte]. Instituto Mojikyō (en japonés) . Consultado el 8 de julio de 2020 .
^ Konjaku Mojikyō 今昔文字鏡 (en japonés), julio de 1997, ISBN 9784314900034
^ abc 今昔文字鏡とは [Acerca de Mojikyo] (en japonés). Kinokuniya KK. Archivado desde el original el 27 de abril de 2010 . Consultado el 5 de julio de 2020 .
^ abc 今昔文字鏡とは [¿Qué es Mojikyō ?] (en japonés). Kinokuniya KK. Archivado desde el original el 5 de febrero de 2005 . Consultado el 5 de julio de 2020 .
^ "Buscar: creador:"MOJIKYO Institute"". Internet Archive . Consultado el 6 de julio de 2020 .
^ Takada, Tomokazu; Yada, Tsutomu; Saito, Tatsuya (18 de septiembre de 2015). Propuesta de hentaigana (PDF) . Traducido por Kobayashi, Tatsuo ; Kobayashi, Daniel. Sociedad de Procesamiento de la Información de Japón . L2/15-239 . Consultado el 5 de julio de 2020 – a través de Unicode Consortium .
^ Hiura, Hideki; Kobayashi, Tatsuo ; et al. (31 de octubre de 2003). Selector de variación de ideógrafo e identificador de colección de variaciones. Iniciativa de internacionalización abierta. L2/03-413 . Consultado el 5 de julio de 2020 a través de Unicode Consortium .
^ Takada, Tomokazu [高田智和]; Oda, Tetsuji [織田哲治]; et al. (26 de agosto de 2013). 平成25年度第3回文字情報検討サブワーキンググループ議事録 [Actas de la reunión del tercer subgrupo de trabajo de examen de información de personajes de 2013 ( Heisei 25)] (PDF) . Agencia de Promoción de Tecnología de la Información, Gobierno de Japón (en japonés). pag. 2 . Consultado el 6 de julio de 2020.文字鏡研究会の関係者にヒアリングしたところ、オランダから提案されたWG2 N36980ついても疑問があるとのことであった。[Según una entrevista con un representante de Mojikyō Institute, se utiliza una fuente Mojikyō en WG2 N36981 propuesta por los Países Bajos, pero el Instituto Mojikyō en sí no participa en la propuesta; Además, tiene dudas sobre parte del contenido de dicha propuesta.]
^ ab Suzuki, Toshiya [鈴木俊哉] (30 de julio de 2009). 統合漢字に申請された「殷周金文集成引得」図形文字の調査 [Investigación sobre glifos recopilados del "Índice de la colección de inscripciones del período Yin-Zhou" para enviar a CJK Unified Ideographs ]. Informe técnico de IPSJ SIG (en japonés). 2009-DD-72 (7). Sociedad de Procesamiento de Información de Japón : 2 - vía Internet Archive .しかし、拡張Cの標準化作業が8年の長期にわたり、また事後的に用例が必須とされたため、正.式に公布された拡張C漢字の典拠は当初の典拠とはかなり異なるものとなっている。たとえば日本では当初は文字鏡研究会によって選定.された1000文字程度の漢字を申請していた[。] [...] 典拠用例確認は文字鏡とは独立に行なわれたため、字形が文字鏡漢字から変更されたもの.も多い。[Como el esfuerzo de estandarización de CJK Unified Ideographs Extension C ha durado ocho largos años en el Aunque se han solicitado ejemplos de kanji después de su codificación, el estándar de kanji de la Extensión C promulgado oficialmente es bastante diferente del estándar original. Por ejemplo, nosotros, el Gobierno de Japón, solicitamos inicialmente unos 1.000 kanji seleccionados por el Instituto Mojikyō[.] [...] Dado que la verificación de los kanji se realizó independientemente del Instituto Mojikyō, las formas de los caracteres a menudo se cambiaban de La versión de Mojikyō de ese mismo punto de código.]
^ Ishikawa, Tadahisa (25 de mayo de 1999). "パソコン悠悠漢字術今昔文字鏡徹底活用" [Kanji en tu PC, simplificado: el manual completo de Mojikyō]. Instituto Mojikyō . Consultado el 6 de julio de 2020 .
^ MJ文字情報一覧表 [Tabla de codificaciones de caracteres MJ] (en japonés). Agencia de Promoción de Tecnologías de la Información. Archivado desde el original el 29 de septiembre de 2018 . Consultado el 5 de julio de 2020 .
^ "Anexo n.° 45 del estándar Unicode: ideogramas de origen U". El estándar Unicode . Consorcio Unicode.
^ "Apéndice E: Historia de la unificación Han" (PDF) . El estándar Unicode . Consorcio Unicode. Marzo de 2020.
^ "Extensión C1 de CJK de Japón". Grupo de relatores ideográficos . IRG#19 N895 – a través del Departamento de Ciencias Informáticas e Ingeniería de la Universidad China de Hong Kong . N895-Japón_C1
^ Cook, Richard (9 de mayo de 2007). Propuesta para codificar caracteres Tangut en el plano UCS 1 (PDF) . Iniciativa de codificación de scripts de la Universidad de California en Berkeley . pág. 4. L2/07-143 – vía Consorcio Unicode .
^ Jenkins, John H.; Cook, Richard; Lunde, Ken, eds. (5 de marzo de 2020), "kIRG JSource", Anexo n.° 38 del estándar Unicode, Consorcio Unicode
^ Kobayashi, Tatsuo (3 de diciembre de 2001). "Lista de ideogramas japoneses que pueden proponerse en la Extensión-C". ISO/IEC JTC1/SC2/WG2/IRG N853.
^ por Ken Lunde [@ken_lunde] (6 de julio de 2020). "En particular, los 782 ideogramas con prefijo JK son de hecho de 今昔文字鏡 según IRG N862. La mayoría fueron codificados en #ExtensionC, y los rezagados fueron codificados en #ExtensionE". ( Tweet ) . Consultado el 6 de julio de 2020 – vía Twitter .
^ Ken Lunde [@ken_lunde] (6 de julio de 2020). "Los ideogramas de J-Source con prefijo JK provienen de 今昔文字鏡, que se encuentran en las extensiones C y E (la mención de la extensión D fue simplemente que lo que se convirtió en la extensión E originalmente estaba destinado a convertirse en la extensión D)" ( Tweet ). Archivado desde el original el 7 de julio de 2020 . Consultado el 6 de julio de 2020 – vía Twitter .
^ Ken Lunde [@ken_lunde] (6 de julio de 2020). «367 ideogramas con prefijo JK están en la Extensión C y los 415 restantes en la Extensión E». ( Tweet ) . Consultado el 6 de julio de 2020 – vía Twitter .
^ "終戦宣言" [Anuncio: La guerra ha terminado]. El hombre que hizo el amor[ Seiwatei's Kanji Cram School ] (en japonés) (edición del 28 de enero de 2016). 21 de julio de 2010. Consultado el 7 de julio de 2020 .
^ "データ・記事のライセンス" [Licencia de nuestros datos y artículos]. GlyphWiki (edición del 9 de junio de 2010) . Consultado el 6 de julio de 2020. ".できません。文字鏡番号（独自部分）および文字鏡のフォントに収録されているグリフそのもの、およびそれを参照、利用して作成していると判断できる情報は、グリフウィキに登録する際の典拠とすることはできませんので、ご協力ををいたします. [ Konjaku Mojikyō y los productos relacionados y los datos asociados tienen una licencia que los hace incompatibles con nuestra licencia GlyphWiki mencionada anteriormente. Ni el número de la ranura de codificación de Mojikyō , ni la apariencia del glifo en sí en las fuentes de Mojikyō , ni ninguna otra información Todo lo que pueda considerarse recopilado a partir de un producto de Mojikyō se puede utilizar al introducir datos en GlyphWiki. No podemos aceptar en ningún caso datos de Mojikyō . Por favor, colabore con nosotros.]

Notas

^ Hasta el momento, carece de una codificación Unicode , por lo que se aproxima aquí con CSS y U+30BBセKATAKANA LETTER SE .
^ ab Para coreano, se hace referencia a Hanja . Para vietnamita, Chữ Nôm .
^ Descargue el archivo MojikyoCmap400ALL49TTF.7z del sitio web oficial
^ Nombre en inglés del título de la ventana que se produce al ejecutar el ejecutable; nombre en japonés del icono del ejecutable.
^ También llamado "Mojikyō Cmap".
^ Ver las capturas de pantalla en el sitio web oficial
^ En el directorio de fuentes del sistema C:\Windows\Fonts .
^ A partir de 2019, el IRG cambió su nombre a Grupo de Investigación Ideográfica.
^ La historia de la codificación de la escritura Tangut es bastante complicada; consulte Tangut (bloque Unicode) § Historia para obtener una lista completa de todas las propuestas relacionadas y una cronología.
^ Secuencia de descripción ideográfica : ⿰魚嵐
^ Este es un nombre de columna en la base de datos Unihan ; ⟨J⟩ aquí es la abreviatura de "fuente de glifos japoneses". El nombre completo de la columna es kIRG_JSource. Durante la unificación Han , existen nueve fuentes de este tipo. Consulte el §3.1 de UAX#38 para obtener una lista completa y más información.
^ Existen otros prefijos J-Source, como J4, que significa que el carácter se origina en JIS X 0213:2004 .
^ Es decir, un glifo formado por los mismos radicales en las mismas posiciones.
^ ab Los errores en grandes colecciones de ideogramas no son, por supuesto, algo poco común. Dichos errores ocurren incluso accidentalmente en colecciones bien financiadas producidas por el gobierno, como los famosos kanji de fuentes desconocidas en el estándar de codificación de caracteres de doble byte JIS X 0208 del Comité de Normas Industriales Japonesas . Todos estos kanji con errores JIS X 0208 ( caracteres fantasma ,幽霊文字; p. ej.,彁) han llegado a Unicode a pesar de no ser kanji "reales".
^ Para comprobarlo, consulte la lista en el mapa de caracteres de Mojikyō, MOCHRMAP.EXE .
^ Véase también: entrada ficticia ; calle trampa .

Enlaces externos

Sitio web oficial