Los caracteres fantasma ( en japonés :幽霊文字, Hepburn : yūrei moji ) son kanji erróneos incluidos en el Estándar Industrial Japonés , JIS X 0208. 12 de los 6.355 caracteres kanji son caracteres fantasma.
En 1978, el Ministerio de Comercio e Industria estableció la norma JIS C 6226 (posteriormente JIS X 0208 ). Esta norma definió 6349 caracteres como caracteres kanji de nivel 1 y 2 de JIS. Este conjunto de caracteres kanji se denomina "JIS Basic Kanji". En ese momento, se utilizaron como fuentes las siguientes cuatro listas de caracteres kanji. [1] : 269f
En el momento de la creación del estándar, no se estableció claramente la autoridad de cada carácter y se señaló que algunos caracteres tenían significados y ejemplos de uso desconocidos. El término "carácter fantasma" se acuñó a partir de " palabra fantasma ", que significa una palabra que se incluye en los diccionarios pero que no tiene un uso práctico. [2] Los ejemplos más comunes son "妛" y "彁". Estos caracteres nunca se mencionaron en el Diccionario Kangxi ni en el Dai Kan-Wa Jiten , una colección completa de libros de caracteres chinos antiguos.
En 1997, el comité de redacción de la norma revisada, dirigido por su presidente, Koji Shibano, y Hiroyuki Sasahara del Instituto Nacional de Lengua y Lingüística Japonesa , investigó la literatura a la que se hacía referencia en la redacción de la norma de 1978. Se reveló que muchos de los caracteres que se habían considerado caracteres fantasma eran en realidad kanji utilizados en nombres de lugares.
Según la encuesta, antes de la redacción de la norma de 1978, la Agencia de Gestión Administrativa había compilado en 1974 ocho listas de caracteres kanji, incluidas las 1 a 3 anteriores, tituladas "Frecuencia de uso y resultados del análisis de correspondencias de caracteres kanji para la selección de caracteres kanji estándar para el procesamiento de información administrativa". Esto va acompañado de una lista de caracteres kanji y sus fuentes originales. Los resultados de este análisis de correspondencias, en lugar de las fuentes originales, fueron los que se utilizaron como referencia al seleccionar los kanji básicos de JIS en ese momento. De estos, se encontró que muchos caracteres fantasma estaban incluidos en los basados en la Lista completa de divisiones administrativas de tierras nacionales y la Lista de caracteres kanji para nombres personales de Nippon Life Insurance Company . En particular, la Lista de caracteres kanji para nombres personales no tenía una fuente original en el momento de redactar la primera norma, y se ha señalado que su contenido es inadecuado. [3]
En respuesta a estos resultados, el Comité de Revisión de Normas restauró la edición de 1972 de la Lista completa de divisiones administrativas de tierras nacionales a partir de su historial de corrección de pruebas y revisó todos los kanji que aparecen en el libro con todas las páginas para confirmar los ejemplos. Además, como reemplazo de la Lista de caracteres kanji para nombres personales , que ya no existe, llevaron a cabo una búsqueda bibliográfica exhaustiva, que incluyó un estudio comparativo de las bases de datos de directorios telefónicos de NTT y Nippon Telegraph and Telephone Public Corporation y un estudio de más de 30 libros de caracteres antiguos y modernos.
12 caracteres kanji permanecen sin identificar. 3 parecen ser errores tipográficos. Quizás por coincidencia, hay ocho caracteres que figuraban en el diccionario antiguo japonés o en el diccionario antiguo chino. En cuanto a "彁", no se ha encontrado ninguna fuente concreta. [1] : 269f
Los caracteres fantasma ya han sido adoptados en estándares internacionales como Unicode , y es probable que los cambios en estos estándares causen problemas de compatibilidad, haciendo prácticamente imposible modificar o eliminar caracteres fantasma.
Los resultados de la encuesta antes mencionada realizada por Hiroyuki Sasahara et al. se resumen en el Anexo 7, "Descripción detallada de la ubicación de los distritos", de la norma JIS X 0208:1997. En esta sección se incluyen algunos extractos de ellos.
JIS X 0208:1997 recopila los detalles de las fuentes de 72 caracteres cuyas fuentes han sido identificadas, principalmente aquellos que no figuran en Dai Kan-Wa Jiten de Morohashi ni en Shin Jigen de Kadokawa . Sin embargo, también incluye caracteres que se han encontrado mal escritos en las fuentes originales.
La lista de delimitadores adjunta como "autoridad de fuente" en el Anexo 7 de JIS X 0208:1997 enumera 72 caracteres, pero el texto detallado no incluye "鰛(82-60)", que sólo tiene 71 caracteres.
JIS X 0208:1997 trata los 12 caracteres de la tabla siguiente como "Autoridad desconocida", "Desconocido" o "No identificable" porque no es seguro cuál de las cuatro listas de kanji mencionadas anteriormente es la fuente de los caracteres.
Dado que los caracteres fantasma son "kanji que no existen", las lecturas se dan "por conveniencia".
Se cree que algunos de los caracteres de autoridad desconocida fueron mal escritos por el creador del estándar.
Desde que se estableció el estándar, la política para la compilación de diccionarios ha sido publicar libros de caracteres que se basan en el supuesto de que todos los caracteres kanji básicos de JIS están incluidos en la lista. En el caso de los caracteres fantasma, no es posible hacer referencia a fuentes anteriores. Por lo tanto, su tratamiento difiere según los diccionarios y los caracteres individuales, como se indica a continuación.
En los equipos que utilizan caracteres kanji básicos JIS, a menudo se les asigna una lectura fonética. Algunos diccionarios también incluyen estas lecturas improvisadas. Hiroyuki Sasahara señala que estas lecturas pueden haberse obtenido a partir de un informe de investigación de la Asociación de Industrias de Electrónica y Tecnología de la Información de Japón (1982) y de materiales publicados por NEC (1982) e IBM Japón (1983). [37]
Algunos han asignado "駲" como una variante de "馴" [38] y "軅" como una variante de "軈". [39] Ninguna de estas fuentes proporciona una fuente.
El carácter "妛" puede ser un error tipográfico del carácter muy similar " 𡚴 " (el "山" superior se convierte en "屮"), y se encuentra en el Dai Kan-Wa Jiten y Kangxi Dictionary . [40] Esto también se presenta en la encuesta JIS X 0208:1997 con un ejemplo de fusión implícita con una fuente autorizada. Estos dos caracteres también se fusionan en el mismo punto de código en Unicode .
Dado que "竜" es una variante de "龍", existe la interpretación de que "槞" es una variante de "櫳". [29] Algunos diccionarios consideran que "鵈"="耳(ear)"+"鳥(bird)" es el carácter de milanos negros . [41]
Después de que se publicaron los resultados de la investigación anterior, estos contenidos fueron adoptados en general en los diccionarios. El Dai Kan-Wa Jiten publicó un volumen complementario en 2000; las letras 垈, 垉, 岾, 橸, 汢, 粭, 糘, 膤, 軅 y 鵈 fueron registradas allí. [42] Y el Shin Jigen (Nueva fuente de caracteres) de Kadokawa fue revisado en 2017 para incluir todos los estándares JIS del primero al cuarto, incluidos los caracteres fantasma. [43]
Dado que los caracteres chinos (incluidos los kanji japoneses ) se han utilizado en los países del este de Asia desde la antigüedad y se han transmitido principalmente mediante escritura a mano, han surgido caracteres con estilos de escritura ligeramente diferentes de un país a otro o dentro de un mismo país, los llamados caracteres chinos variantes . Unicode no adoptó todas las variaciones, y los caracteres con solo ligeras diferencias fueron incluidos y registrados. [45]
Por otra parte, en diferentes países y regiones también se ha combinado partes simples de un carácter chino para crear otro carácter. Como resultado, los mismos caracteres chinos pueden inventarse en diferentes países por coincidencia con significados diferentes (a veces idénticos). [46]
Como se mencionó anteriormente, se presume que el carácter fantasma japonés "妛" originalmente era solo "𡚴", que es una combinación de "山" y "女", pero con un "一" accidental en el medio. Por otro lado, existe un carácter chino en China "妛" que es una combinación de "屮", "一" y "女" que también es una variante de "媸". Sin embargo, en Unicode, "妛", que originalmente no existía en Japón, fue incluido porque resultó ser similar a "妛". [45] Además, el carácter japonés "妛", que es un error, fue registrado como un carácter Unicode. [47]
Además, se cree que el carácter fantasma japonés "閠" (la parte inferior es "玉") es un error ortográfico de "閏" (la parte inferior es "王"). (Un manuscrito del siglo XVI del Wagokuhen japonés del siglo XV también tiene el carácter "閠", pero es un ejemplo solitario). Por otro lado, el carácter chino en China "閠" es una especie de variante de "閏", que no es un error ortográfico. [32] Esto también se unificó en Unicode. [44]
Algunos creen que el carácter fantasma japonés "岾" es un Kokuji (un kanji exclusivamente japonés) que significa montañas peladas y que originalmente era un error ortográfico de "岵". Sin embargo, en Corea, este carácter fue creado como un carácter chino que significa paso de montaña . [48] Esto también se unificó en Unicode. [44]
Desde la publicación de la norma, han aparecido ejemplos de personajes fantasmas junto con su uso generalizado.
El "祢宜", el título del subdirector de un santuario japonés, a veces se usa incorrectamente como "袮宜" (usando el衣radical en lugar del correcto示). En algunos casos, el apellido japonés "栩谷" se confunde con "挧谷" (usando el radical手en lugar del木correcto ). [1] : 292, 304 El folclorista japonés Motoji Niwa introdujo el apellido "妛芸凡" (Akiōshi) en su libro. [2] [49]
La base de datos de Asahi Shimbun contenía el nombre "埼玉自彊会" impreso en la edición del 23 de febrero de 1923 de The Asahi Shimbun , pero cuando se digitalizó, estaba incorrectamente etiquetado como "埼玉自彁会". Ahora ha sido corregido. [50]
La serie de televisión japonesa tokusatsu Gosei Sentai Dairanger presenta un personaje llamado "嘉挧" (Kaku). El nombre proviene del antiguo estadista chino Jia Xu (賈詡), pero los caracteres han sido reemplazados por caracteres fantasma porque el carácter "詡" no está registrado en JIS X 0208 .
El libro 5A73 , del escritor de misterio japonés Yuji Yomisaka, comienza con una serie de asesinatos en los que el carácter fantasma "暃" está escrito en los cuerpos de las víctimas. [51]
El juego de música Beatmania IIDX incluye una canción titulada "閠槞彁の願い" que utiliza personajes fantasmas. Según los comentarios sobre la canción, la pronunciación es "impronunciable para los humanos" y tentativamente se llama "Gyokurōka no Negai" (ぎょくろうかのねがい), que es la lectura ateji de los personajes fantasma. [52]
Los ideogramas unificados CJK de Unicode también tienen caracteres cuyo historial de inclusión es desconocido y a veces también se los llama "caracteres fantasma". Por ejemplo, se ha señalado que el carácter "螀" (U+8780), que también se registró en Unicode porque se incluyó en el Conjunto primario chino del CCITT , puede ser un error tipográfico que se adoptó sin verificar suficientemente la fuente. [53]
Monotype Imaging agregó U+237C ⍼ ÁNGULO RECTO CON FLECHA EN ZIGZAG HACIA ABAJO a sus conjuntos matemáticos en 1972 por razones desconocidas. Desde entonces se ha incluido en Unicode.
En el bloque de compatibilidad CJK de Unicode 1.0, hay una versión cuadrada de la palabra japonesa para " baht ", escrita en escritura katakana . [54] La palabra japonesa para "baht" esバーツ( bā tsu ). Sin embargo, el glifo de referencia ⟨㌬⟩ y el nombre del carácter corresponden aパーツ( pā tsu , del inglés "partes"). [54] El punto de código CJK, U+332C ㌬ SQUARE PAATU , está documentado en versiones posteriores del estándar como "una representación errónea, no utilizada" y los usuarios son dirigidos a U+0E3F฿THAI CURRENCY SYMBOL BAHT en su lugar. [55] En consecuencia, solo unas pocas fuentes de computadora tienen algún contenido para este punto de código y su uso está en desuso. [54]