Trabajando con Texto sin Formato


Codificación predeterminada

Archivos de texto sin formato ― en la mayoría de los casos con una extensión .txt ― contienen exclusivamente información textual. No hay una manera definida de informar claramente al ordenador que idioma contiene. En (muy) pocas palabras, eso significa que el equipo asume de manera predeterminada que el texto está escrito en el mismo idioma que utiliza el propio equipo.


Muestra ilegible

Si usted es Ruso, es muy probable que su equipo trabaje en Ruso también: los menús están en Ruso, los archivos que abre están en Ruso, etc. En la mayoría de los casos, el ordenador en general supone correctamente el contenido de los archivos: todos ellos contienen caracteres Rusos de Rusia y no podría mostrar nada más.

Ahora, si usted es un traductor Ruso que traduce del Japonés, obtendrá archivos en Japonés, si son archivos de texto sin formato, lo más probable es que sean considerados por el equipo como archivos que contienen Ruso. Debido a que no hay información en el propio archivo que indique al ordenador en que idioma están escritos. El contenido del archivo Japonés podría ser:

OmegaTとは、コンピュータを利用した翻訳ツールです。


Debido a que espera que contenga Ruso, su editor de texto muy bien podría mostrarlo de esta manera:

OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≈ВЈБB


Sin embargo, está lejos del Ruso, los caracteres Japoneses se muestran erróneamente como caracteres Rusos.

Como cualquier otra aplicación, OmegaT está sujeto a este problema también. Sólo se puede suponer por omisión que los archivos de Texto sin formato se pueden mostrar utilizando los valores predeterminados del sistema. Esto funciona bien cuando el equipo funciona en Francés, por ejemplo, y los archivos están en Inglés, o cuando el equipo es Alemán y usted se ocupa de obtener archivos Italianos.


Conjuntos de caracteres y codificación

¿Por qué habría que trabajar con Inglés y Francés, pero no con Ruso y Japonés? Debido a que el Inglés y el Francés comparten un conjunto de caracteres común. A saber Latin-1, o alguna de sus variantes. Hasta hace poco, Rusia y Japón no han compartido ningún conjunto de caracteres. La mayoría de los conjuntos de caracteres de Rusia actuales no cubren los Japoneses y viceversa. El resultado es el que ha visto anteriormente.

Las clientes Japoneses trabajan con un equipo Japonés y crean archivos de texto que contienen Japonés. El conjunto de caracteres seleccionado por el equipo cliente dependerá del sistema operativo y en alguna otra configuración, pero es muy poco probable que el conjunto de caracteres elegido (en Japonés) se interprete correctamente en el equipo Ruso.

Debido a que la información textual en el conjunto de caracteres especificado se transmite físicamente (es decir, que los códigos numéricos que usa el ordenador para interpretar y mostrar el texto) dependen de la codificación. Cuando el equipo lee el archivo, "decodifica" la información de acuerdo a la codificación y la muestra de acuerdo con el conjunto de caracteres. En términos generales, una codificación corresponde a un conjunto de caracteres...


La solución de OmegaT

Básicamente existen tres maneras de abordar este problema en OmegaT. Todas ellas implican la aplicación de Filtros de archivo en el menú Opciones.

  1. Especifique la codificación para sus archivos de texto sin formato ― es decir, archivos con extensión .txt ― : en la sección Archivos de texto del cuadro de diálogo Filtros de archivo, cambie la Codificación de archivos fuente de <auto> a la codificación que corresponde a su archivo .txt fuente.
  2. Cambie la extensión de los archivos fuente de texto sin formato (de .txt a .jp para el texto sin formato Japonés, por ejemplo): en la sección Archivos de texto del cuadro de diálogo Filtros de archivo, agregue un nuevo patrón de nombre de archivo fuente (por ejemplo *.jp) y seleccione los parámetros adecuados para la codificación de fuente y destino.
  3. Cambie la codificación de sus archivos a Unicode: abra su archivo de código fuente en un editor de texto que interprete correctamente su codificación y guarde el archivo en formato de codificación "UTF-8". Cambie la extensión del archivo de .txt a .utf8. OmegaT automáticamente interpretará el archivo como un archivo UTF-8.

OmegaT de forma predeterminada tiene la siguiente lista de documentación corta para facilitarle a usted hacer frente a algunos archivos de texto sin formato:

Usted puede comprobarlo por sí mismo, seleccionando el elemento en Filtros de archivo del menú Opciones. Por ejemplo, cuando usted tiene un archivo de texto en idioma Checo (muy probablemente escrito en el código ISO-8859-2) sólo tiene que cambiar la extensión .txt a .txt2 y OmegaT interpretará su contenido correctamente. Y, por supuesto, si usted quiere estar en el lado seguro, tenga en cuenta la conversión de este tipo de archivos a Unicode, es decir, al formato de archivo .utf8.


Aviso Legal Inicio Índice de Contenido