Posts tagged ‘código abierto’

Apertium en Google Summer of Code 2009

13 abril, 2009 | Enrique | No Comment

Apertium en Google Summer of Code

¡Una gran noticia! El proyecto Apertium es uno de los 151 proyectos que formarán parte del Google Summer of Code (GSoC) en su edicición de este año. Comparte lugar en la lista con organizaciones y proyectos tan conocidos como The Apache Software Foundation, Creative Commons, Joomla!, Moodle, PHP, Wikimedia Foundation o WordPress. Estos son quizá los nombres que más suenan (algunos mucho entre la comunidad educativa), pero también participarán otros proyectos importantes como Subversion, GCC o MySQL.

Google Summer of Code (Verano de Código Google) es un programa anual que, desde 2005, ofrece a sus participantes la posibilidad de desarrollar programas de código abierto en alguno de los proyectos seleccionados y además recibir dinero por ello. Uno de los objetivos del programa es ofrecer a los estudiantes la oportunidad de trabajar en tareas relacionadas con sus intereses académicos, además de exponerles a situaciones de desarrollo de software en el mundo real (desarrollo distribuído, licencias de software, etiqueta en listas de correo, etc.). Así que los estudiantes interesados en la traducción automática, podrán trabajar durante este verano en alguna de las ideas que el proyecto Apertium ha publicado y recibirán una beca de 4500 dólares (unos 3400 €).

Siento decir que el plazo de presentación de solicitudes finalizó el pasado 3 de abril. El próximo día 20, se publicará la lista de estudiantes que han sido aceptados en cada uno de los proyectos ofertados. Podéis ver el calendario detallado en la página de la edición de este año y también en este calendario visual (hacer clic sobre la imagen para ampliarla).

Google Summer of Code - Timeline

Google Summer of Code - Timeline 2009

Las 28 ideas que el proyecto Apertium propone, han sido clasificadas según en grado de dificultad (del 1 al 4, de “muy difícil” a “nivel inicial”) y principalmente organizadas en cuatro bloques: interfaces y herramientas de usuario, desarrollo de datos lingüísticos, interoperabilidad del sistema y ampliaciones sobre el motor de traducción. Hasta el día 20 no se publicará la asignación de estudiantes a proyectos, pero es posible que este verano veamos actividad en el desarrollo de herramientas de postedición, correctores ortográficos y gramaticales, desarrollo de un módulo de selección léxica (combinando métodos estadísticos y basados en reglas) y nuevos formatos de diccionarios para dar soporte a lenguas aglutinantes, entre otras tantas ideas propuestas por la comunidad Apertium.

Los estudiantes empezarán a programar el 23 de mayo. Estaremos atentos a todas las novedades.

Enlaces: GSoC 2009 | Ideas en la Wiki de Apertium | Web Oficial Apertium.org | Proyecto Apertium en SourceForge

Diccionarios Apertium para Palm

6 marzo, 2009 | Enrique | 1 Comment

Hace unas semanas se anunció en SourceForge “Apertium Tinylex: dictionaries for Palm handhelds”, una colección de diccionarios bilingües Apertium para dispositivos Palm. Actualmente están disponibles para una veintena de pares de lenguas: español-inglés, inglés-catalán, euskera-español, español-gallego, etc. El proyecto forma parte de Apertium en SourceForge y ha sido financiado parcialmente por la Universidad de Alicante.

Hay publicadas dos versiones para cada uno de los diccionarios móviles. Por un lado, una versión que se “empaqueta” diariamente (nightly build) con el léxico que se haya podido incorporar o actualizar hasta la fecha (algunos de los diccionarios Apertium están en constante desarrollo; se puede comprobar observando la actividad diaria en el repositorio SVN del proyecto). Por otro lado, existe una versión que se actualiza con menor frecuencia pero que se puede considerar estable.

Para consultar los diccionarios basta con tener instalada la aplicación PalmOpenDic, que permite visualizar y buscar los términos en los diccionarios que instalemos. En la wiki de Apertium está toda la documentación sobre cómo generar estos diccionarios móviles con el programa Apertium DixTools a partir de los diccionarios originales (XML). En concreto, es la opción dix2tiny de este programa la que procesa los diccionarios y los convierte en versiones reducidas para Palm. Opcionalmente, permite personalizar qué tipo de entradas del diccionario se desea incluir u omitir.

Si no cuentas con un dispositivo Palm pero tienes curiosidad por probar estos diccionarios, puedes hacerlo en tu ordenador usando un emulador de Palm como POSE (Palm OS Emulator).

Enlaces: TinyLex.com : Apertium Wiki

Traducción automática de subtítulos con Apertium Subtitles

9 febrero, 2009 | Enrique | 10 Comments

(haz clic sobre la imagen para ampliarla)

Apertium Subtitles es un programa Java que traduce subtítulos automáticamente utilizando el traductor automático de código abierto Apertium.

El programa sigue en desarrollo, pero ya ofrece una versión completamente funcional que se puede ir probando. Para iniciar la aplicación basta con acceder a esta dirección:

Tras aceptar el certificado, comenzará la descarga de los archivos necesarios y una vez finalizada, se iniciará el programa. Para ello sólo es necesario tener instalado Java en nuestro ordenador.
También podemos descargar el código fuente del programa, que se distribuye con licencia GPL, y compilarlo. En la wiki de Apertium están todos los detalles sobre cómo compilar e instalar Apertium Subtitles.

El programa cuenta con dos modos de traducción:

  • Traducción local, utilizando una instalación local de Apertium.
  • Traducción online, con la que obtendremos la traducción a través de apertium.org en Internet.
Recomiendo instalar Apertium localmente por varios motivos. En primer lugar obtendremos las traducciones más rápidamente, además de poder utilizar Apertium Subtitles cuando no estemos conectados a Internet. Por otro lado, nos permitirá utilizar el traductor de subtítulos con todos los pares de lenguas que tengamos instalados en nuestro ordenador, incluyendo también aquellos que se encuentran en fases iniciales de desarrollo o que no han sido liberados oficialmente. Y es que, de momento, el modo online sólo ofrece traducción para los pares de lenguas considerados estables en Apertium, entre los cuales están el Español-Catalan, Español-Francés, Inglés-Español, Español-Portugués, etc., hasta un total de 18 pares de lenguas.

Sobre los subtítulos originales

Antes de efectuar una traducción, Apertium Subtitles intenta componer frases completas, que, como suele ser habitual en los subtítulos, pueden estar fragmentadas en secuencias distintas. La traducción automática de cada fragmento de frase por separado no siempre daría un buen resultado.
Por ello es conveniente asegurarnos de que el texto original contiene los signos de puntuación que indican un final de oración, como podrían ser el punto (.), el símbolo de interrogación (?) o de exclamación (!) y, en ciertos casos, los puntos suspensivos (…). También se recomienda cuidar la ortografía de los subtítulos originales, tratando de facilitar un poco el trabajo al traductor. En cualquier caso, Apertium Subtitles permite la postedición del texto traducido, de modo que podremos corregir los errores de traducción que se puedan producir.


Read the rest of this entry »

Blog multilingüe con Apertium

12 octubre, 2008 | Enrique | 8 Comments

Desde hoy las entradas de este blog están disponibles en otros idiomas. Aunque ya adelanto que no seré yo quien haga las traducciones, sino Apertium, un sistema de traducción automática de código abierto.

Apertium Logo
Quería haber dedicado un post hace tiempo a esta plataforma de traducción automática (lo merece) pero qué mejor forma que presentarla a los que todavía no la conocen que integrándola en este blog y viéndola en funcionamiento.

La plataforma Apertium, que inicialmente estaba pensada para traducir entre pares de lenguas emparentadas, fue recientemente ampliada para poder hacerlo con pares de lenguas más divergentes (inglés–catalán, por ejemplo). Para ello la plataforma se compone de:

  1. un ingenio de traducción independiente de las lenguas
  2. herramientas para gestionar los datos lingüísticos que son necesarios para construir un sistema de traducción automática para un par de lenguas dado
  3. datos lingüísticos para los pares de lenguas.

Es decir, que por un lado tenemos el motor de traducción y por otro los datos lingüísticos (para que nos entendamos: diccionarios, reglas gramaticales, etc.). “Simplemente” codificando de forma adecuada (usando XML) los datos lingüísticos de un par de lenguas concreto, obtenemos un nuevo traductor. Tanto en la página oficial de Apertium – www.apertium.org – como en la Wiki, está publicada toda la información relativa a la plataforma, que repito, es de código abierto.

¿Y cómo se ha integrado Apertium en el blog? Como seguramente ya habéis observado, en la parte superior del post, bajo el título, aparece un botón con el texto “translate this post”. Haciendo clic en él se despliega un pequeño menú con los idiomas disponibles:

Apertium Post Translation

Seleccionando cualquiera de ellos se muestra la traducción de forma instantánea, sustituyendo el texto original. También hay un botón con el texto “es” para poder volver en cualquier momento a la versión original en español. Por el momento he añadido algunas de las lenguas para las cuales existe traducción desde el español en Apertium: catalán, inglés, francés y portugués.