Tag Archives: TEI

Documentos con marcado TEI en español

El objetivo de este corpus, desarrollado durante mi estancia sabática en la Unviersidad de Roma Tre, es tener una fuente documental de textos en lengua española codificados en el estándar XML-TEI. Esto con la intención de servir de base para estudios sobre el modo en que se utiliza este lenguaje de codificación en español y analizar las implicaciones y consecuencias políticas y culturales que el código tiene en la construcción de los documentos para su procesamiento computacional.

El corpus de documentos en español con marcado TEI está formado a partir de una revisión y depuración de la relación hecha por José Calvo Tello en More tan books, en la entrada Altas de Datos: New Catalogue of Digital Edition in Spanish, y la integración otras ediciones digitales en español en América Latina. Para la formación de este corpus se excluyeron los proyectos reaccionados por Calvo Tello que no son accesibles en línea o que no contienen documentos TEI. De este modo, los proyectos considerados para este corpus son, en el momento de revisarlos, accesibles en línea y contienen al menos un archivo en español codificado en XML-TEI. En total son diez proyectos, los tres primeros son proyectos latinoamericanos, dos argentinos y uno mexicano, y el resto europeos. De ellos, cinco son realizados en España, uno en Alemania y otro en Francia.

Temáticamente del total de los proyectos dos son sobre poesía castellana medieval, cuatro de poesía del siglo de oro español, uno sobre textos de la Nueva España, uno sobre novela española y latinoamericana, uno sobre El Belianís literario de Juan José López de Sedano del siglo XVIII y uno sobre el historiador argentino del siglo XX José Luis Romero.

De cada uno de los proyectos se escogieron tres archivos muestra, salvo en un caso en que no se pudo tener acceso a los documentos TEI (Repertorio métrico digital de la poesía medieval castellana), y en otro en que toda la colección está editada en un solo archivo TEI (Observatour de la vida literarie). El corpus está integrado, en consecuencia, por 25 archivos. En la mayoría de los casos, los archivos TEI pudieron obtenerse directamente del sitio de los proyectos, en otros casos, los archivos se encuentran en repositorios de GitHub a los que se puede acceder libremente.

Los archivos muestran diversos grados de complejidad en la codificación TEI. Desde versiones muy simples en las ediciones latinoamericanas, a marcados exhaustivos y complejos por ejemplo en el caso del El Belianís literario. Al mismo tiempo, las codificaciones corresponden a una variedad de géneros, desde la poesía, el diálogo, el teatro, el ensayo, la novela, el tratado y el documento periodístico, lo que hace del corpus un ejemplo amplio de criterios de marcado en leguaje TEI para textos en español.

Es importante anotar que la identificación de proyectos de edición digital en español que usan codificación TEI es compleja. No se encuentran relacionados en el sitio de la Text Encoding Iniciative. En buscadores no es sencillo recuperarlos a partir de búsquedas que integren codificación TEI y Español. Salvo el esfuerzo hecho por José Calvo Tello, no hay otro que ofrezca una relación de proyectos académicos que utilicen para la edición de obras en español la codificación TEI.

Finalmente, este corpus va acompañado de otro más pequeño en otras lenguas del sur. Busqué sobre todo proyectos en portugués, por ser otra lengua importante en América Latina, con la que se comparten geopolíticas y en lenguas indígenas de México, por el interés en el problema de la representación cultural de las lenguas indígenas. Tampoco en este caso fue sencillo identificar ediciones con codificación TEI. Se identifiqué tres en portugués, una de las cuales la excluí por estar incompleta y no contener archivos TEI pese a proponérselo. De modo que el corpus quedó reducido a dos proyectos, de los cuales solo uno hace accesibles sus archivos TEI, y un texto en Mixteco, una lengua indígena del centro de México.

 

Proyectos y archivos en español

 

Diálogo medieval

http://dialogo.linhd.es/

Fuente TEI: Proyecto

Género: Poesía medieval castellana

Tiren el clavo e ande la rueda. Fernán Pérez de Guzmán https://www.dropbox.com/s/1r7n8sui38ty82c/252b4.0.xml?dl=0

Las gracias complidas a vos sean dadas. Alfonso Álvarez de Villasandino

https://www.dropbox.com/s/9q0ep9rsbpsliei/2529t.0.xml?dl=0

Gracias e mercedes sean otorgadas. Bachiller en Artes de Salamanca

https://www.dropbox.com/s/0uwe5rdvhd6hz99/2529v.0.xml?dl=0

 

Edición digital de las obras de José Luis Romero

http://jlromero.com.ar

Fuente TEI: Proyecto

Género: Ensayo periodístico

Cómo se enseña la historia del país. https://www.dropbox.com/s/0a9o953opoj0lsr/tei-6640.xml?dl=0

Humanismo y conocimiento del hombre https://www.dropbox.com/s/cezmo1cp207m1tu/tei-6661.xml?dl=0

Seminario “Problemas de la democracia, el autoritarismo y el desarrollo en los asuntos hemisféricos” https://www.dropbox.com/s/rxovpn0aueyhemz/tei-6678.xml?dl=0

 

Biblioteca Digital del Pensamiento Novohispano

http://bdpn.unam.mx

Fuente TEI: Proyecto

Género: Tratados

Discurso cometologico, y relacion del nuevo cometa. Salmeron y Castro https://www.dropbox.com/s/hkozf23jagc2651/Copia%20de%20Discurso%20cometol%C3%B3gico%20y%20relaci%C3%B3n%20del%20nuevo%20cometa.xml?dl=0

Especulacion astrologica, y physica. Evelino

https://www.dropbox.com/s/5tmrb9buznu15xi/Copia%20de%20Especulaci%C3%B3n%20astrol%C3%B3gica%20y%20f%C3%ADsica%20de%20la%20naturaleza%20de%20los%20cometas.xml?dl=0

Exposicion astronómica. Kino

https://www.dropbox.com/s/58rrvrv0flertql/Copia%20de%20Exposici%C3%B3n_Astron%C3%B3mica_del_cometa_Eusebio_Kino.xml?dl=0

 

Repertorio métrico digital de la poesía medieval castellana

http://www.remetca.uned.es/

Fuente TEI: sin acceso

Género: Poesía medieval castellana

 

Observatour de la vida literarie. Edition digitale et étude de la polémque autor de Góngora http://obvil.paris-sorbonne.fr/corpus/gongora/

Fuente TEI: Proyecto.

Género: Poesía

Un solo archivo

https://www.dropbox.com/s/dc31eh79fxy4abg/GongoraBellaNi%C3%B1a.xml?dl=0

 

Proyecto Tesoro

http://www.bib.uc3m.es/~nogales/xml/tesoro/index.html

Fuente TEI: Proyecto

Género: Teatro

Auto de los reyes magos. Vicente Gil

https://www.dropbox.com/s/r1b74a8nrg3o9w1/autoreyesmagos.xml?dl=0

La destrucción de Constantinopla de Gabriel Lasso de la Vega https://www.dropbox.com/s/fcz6i5fx4r4kpp1/constantinopla.xml?dl=0

Las muñecas de Marcela de Álvaro Cubillo de Aragón https://www.dropbox.com/s/i24z68k1cado7op/marcela.xml?dl=0

 

Análisis distante del soneto castellano de los Siglos de Oro

http://adso.gplsi.es/index.php/es/proyecto-adso/

Fuente TEI: https://github.com/bncolorado/CorpusSonetosSigloDeOro

Género: Poesía

Soneto XIX,  Francisco de Aldana

https://github.com/bncolorado/CorpusSonetosSigloDeOro/blob/master/FranciscoDeAldana/FranciscoDeAldana_11.xml

Soneto IV Fray Luis de León

https://github.com/bncolorado/CorpusSonetosSigloDeOro/blob/master/FrayLuisDeLeon/FrayLuisDeLeon_5.xml

Soneto XXII de Juan de Timoneda

https://github.com/bncolorado/CorpusSonetosSigloDeOro/blob/master/JuanDeTimoneda/JuanDeTimoneda_15.xml

 

Moralischen Wochenschriften

http://gams.uni-graz.at/archive/objects/container:mws-belianisliterario/methods/sdef:Context/get?locale=de&context=es

Fuente TEI: proyecto

Género: Novela de caballería

Número I https://www.dropbox.com/s/y5gxoy509a28lzc/TEI%20Source%20of%20the%20Object-1.xml?dl=0

Número II https://www.dropbox.com/s/ggxkdsucbumxx9j/TEI%20Source%20of%20the%20Object-2.xml?dl=0

Número III https://www.dropbox.com/s/or1vcuv6mpfvar1/TEI%20Source%20of%20the%20Object.xml?dl=0

 

Cligs

http://cligs.hypotheses.org/

Fuente TEI: https://github.com/cligs/textbox

Género: Novela

Morsamor. peregrinaciones heroicas y lances de amor y fortuna de Miguel de Zuheros y Tiburcio de Simahonda. Juan Valera 1899

https://github.com/cligs/textbox/blob/master/spanish/novela-espanola/tei/ne0153.xml

Hilván de escenas. Gabriel Miró 1903

https://github.com/cligs/textbox/blob/master/spanish/novela-espanola/tei/ne0041.xml

Hacia la justicia. Francisco Anselmo Sicardi. 1902

https://github.com/cligs/textbox/blob/master/spanish/novela-hispanoamericana/tei/nh0033.xml

 

Fabulas Mitológicas

http://www.antoniorojascastro.com/fabulas-mitologicas/

Fuente TEI: https://github.com/arojascastro/fabulasmitologicas

Género: Poesía

Andrómeda de Lope de Vega https://github.com/arojascastro/fabulasmitologicas/blob/master/corpus/tei/Lope_andromeda.xml

Polifemo de Góngora

https://github.com/arojascastro/fabulasmitologicas/blob/master/corpus/tei/Gongora_polifemo.xml

Faeton de Villamediana

https://github.com/arojascastro/fabulasmitologicas/blob/master/corpus/tei/Villamediana_faeton.xml

 

7 partidas

http://www.7partidas.hypotheses.org/ 

Fuente TEI: https://github.com/7PartidasDigital

Género: Literatura medieval

Alfonso el sabio. Siete Partidas fragmento VA3

https://github.com/7PartidasDigital/XML-TEI/commit/e27828e3398980ce57f51dbcc8b6233b8ab38307

Alfonso el sabio. Siete Partidas fragmento TN4

https://github.com/7PartidasDigital/XML-TEI/commit/c6bb436b8051d953332d23d9d268ba86498c0251

Alfonso el sabio. Siete Partidas fragmento VA1

https://github.com/7PartidasDigital/XML-TEI/blob/master/SP-VA1.xml

 

 

Proyectos y archivos portugués

Cligs

http://cligs.hypotheses.org/

Fuente TEI: https://github.com/cligs/textbox

Género: Novela

O Christão novo https://github.com/cligs/textbox/blob/faeeb530f5410c1587306df443a7e27282960c91/portuguese/romancesportugueses/tei/rp0001.xml

O Annel Mysterioso https://github.com/cligs/textbox/blob/faeeb530f5410c1587306df443a7e27282960c91/portuguese/romancesportugueses/tei/rp0003.xml

Os Brilhantes do Brasileiro

https://github.com/cligs/textbox/blob/faeeb530f5410c1587306df443a7e27282960c91/portuguese/romancesportugueses/tei/rp0010.xml

 

Livro do Desassossego (Pessoa)

https://ldod.uc.pt/

Fuente TEI: http://jtei.revues.org/1171

Género: Novela

Archivo muestra de la codificación: LdoD Encoding Fragment

 

Proyectos y archivos mixteco

Mixtepec-Mixtec (Sa’an Savi) vocabulary

https://it.pinterest.com/MixtepecMixtec/

Fuente TEI:  http://tapasproject.org/node/465

Academia de la lengua mixteca http://tapasproject.org/sites/default/files/1446085793/tei/Pronunciamiento-AcademiaLenguaMixteca_2011-TEI.xml

Transcriptions of Spoken Mixtepec-Mixtec Speech: Original Language Resources http://tapasproject.org/sites/default/files/1446081961/tei/MIX-Transcriptions-OriginalLR_0.xml

 

Proyectos y archivos Zapoteco

Ticha, Colonial Zapotec Text

https://ticha.haverford.edu/en/index/

Fuente TEI: (sitio)

Arte en Lengua Zapoteca view-source:https://ticha.haverford.edu/en/arte_original/

El texto digital y la disyuntiva de las humanidades digitales

El texto digital y la disyuntiva de las humanidades digitales

A partir del hecho de que las humanidades se estudian dentro de una ecología mixta entre lo impreso y lo digital, y en donde este último está tendiendo a ser predominante, el artículo se pregunta qué tanto el cambio de ámbito conduce a las humanidades hacia el umbral de un nuevo paradigma, o si los conceptos, métodos e ideas que han constituido tradicionalmente a las humanidades continúan vigentes aún en este nuevo entorno. Para responder a esta pregunta, el artículo se propone abordar el tema del texto y sus posibles variaciones prácticas y teóricas a partir de su digitalización. El texto ocupa un lugar predominante dentro de las humanidades porque es, al mismo tiempo, objeto primario de estudio, producción de conocimiento y diseminación. El artículo sostiene que aun cuando la digitalización nos obliga a redefinir nuestra noción de ‘texto’ porque se ha modificado su naturaleza y se ha abierto una intensa discusión sobre lo que este es, no se ha roto ni teórica ni prácticamente con el paradigma de lo impreso. Las teorías sobre el texto digital desarrolladas por Dino Buzzetti, Manfred Thaller, Jerom McGann y Paul Caton, así como la concepción misma de la codificación SGML/XML/TEI, que serán objeto de análisis de este artículo, preservan residuos de la concepción tradicional sobre el texto, que evidencian cuán poco las humanidades se han desprendido de nociones provenientes de la tecnología de lo impreso.

Hace ya tanto tiempo, Foucault

Discutiendo sobre la lectura, alguien me hizo la observación el otro día de cuánto tiempo había pasado desde que Michel Foucault había impartido la conferencia Qué es un autor, en donde propone tomar el texto como fuente única de sentido y no como un testimonio del pensamiento de un autor. Han pasado exactamente 43 años, la conferencia es de 1969, y lo significativo no es la distancia en años, sino el hecho de que en esos años, la lectura ha comenzado a cambiar por completo.

Foucault aun pensaba en libros. Libros empastados en papel, manuscritos resguardados en bibliotecas. En el horizonte de discusión no aparecían aun los textos digitales y la lectura electrónica. ¿De qué manera en esos 43 años el traslado a lo digital ha cambiado la forma de leer? ¿Cómo este cambio ha trastocado la aproximación al sentido del texto? ¿Cómo se ha alterado a partir de la digitalización la relación entre el autor y su texto? Pensemos, por ejemplo, en el caso de Agamben. Pero también, ¿cuáles son las implicaciones que tiene para la lectura la transformación de las palabras y los caracteres en datos? ¿Cuáles las implicaciones del marcado del texto, por ejemplo en XML o en TEI? ¿Cómo la lectura se modifica con el procesamiento masivo de textos, por ejemplo con Google Books? ¿Qué es leer con n-gram?

Responder estas preguntas requiere de mucha elaboración. Mucha aun por venir. Pero lo que me inquietó de la súbita conciencia del tiempo pasado entre la conferencia de Foucault y nuestros días,  es la necesidad de revisar algunos de los presupuestos que todavía conservamos.

Cruso de Posgrado 1-2013

Las humanidades digitales son un campo emergente que se define, en términos muy generales, como el uso de herramientas y metodologías del cómputo para la investigación de los problemas tradicionales de las humanidades. El desarrollo de los proyectos en éste campo ha generado un serie de preguntas y de cuestionamientos que afectan profundamente la vida de las humanidades y representan nuevos retos para la reflexión. Cuestiones como cuál es la naturaleza del texto, qué es un dato en humanidades, qué significa leer, hay formas de lectura diferentes a las que conocemos, qué implicaciones tiene el fin del libro y la emergencia de nuevas formas de acceder al texto, por solo citar las más conocidas.

La intención del curso es introducirse a la discusión de los problemas centrales de las humanidades digitales, mediante el conocimiento de su historia, desarrollo, metodologías y proyectos específicos. Concentrándose finalmente, en los temas relativos al texto, el futuro del libro y la biblioteca como laboratorio humanístico.

El curso abarcará una parte práctica de desarrollo de marcado de texto y discusión de sus implicaciones, a modo de taller.

 

Baja el programa del curso

Proyecto de investigación: Cuerpo, escritura y género

En diciembre del año pasado el Conacyt me avisó que mi proyecto de investigación conjunto con Clara Inés Ramírez del IISUE había recibido un importante monto de financiamiento para ser desarrollado a lo largo de los próximos tres años. Aunque nunca antes he hecho pública las características de un proyecto como este, más por omisión que por una decisión razonada, he decidido hacerlo ahora precisamente porque es un proyecto sobre Humanidades Digitales, que parte de la premisa de que la colaboración es relevante y que, por lo mismo, puede ser de interés para muchos.

 

Proyecto de investigación

Cuerpo, escritura y género. Marcadores para el análisis digital de textos.

Nuestra propuesta es utilizar una metodología desarrollada en el ámbito del cómputo, para aplicarla en la
investigación en las humanidades. En este sentido, el proyecto parte de una pregunta de investigación propia de las
humanidades: ¿cuáles son las diferencias de género en el discurso sobre el cuerpo de hombres y mujeres en el
mundo novohispano? Y a ella buscamos responder generando marcadores XML (tags), sobre la base del sistema TEI
Lite de la Text Encoding Iniciative
(un estándar utilizado por la comunidad de investigación en humanidades digitales), para identificar, interpretar y recuperar automáticamente, al procesar digitalmente los documentos, las variantes de género en el discurso sobre el cuerpo en obras novohispanas. Nuestro corpus de investigación esta formado por dos colecciones académicas ya establecidas y en crecimiento: una sobre la escritura de las mujeres, desarrollada por el Seminario de escritos de Mujeres del Instituto de Investigaciones Sobre la Universidad y la Educación de la UNAM, y otra de textos astrológico/astronómicos escritos por hombres, desarrollado por la Biblioteca Digital del Pensamiento Novohispano, un proyecto de la Facultad de Filosofía y Letras de la UNAM, que en conjunto conforman un fondo inicial de 20 obras para su marcado y su estudio. El desarrollo del proyecto contempla cuatro etapas fundamentales. La primera es la generación de los marcadores con los cuales identificar en los textos las variantes de género en el discurso sobre el cuerpo. La segunda consiste, propiamente, en el marcado de los textos con las categorías creadas. En la tercera, los textos maracados son procesados para indexar automáticamente: a) Los pasajes en que se habla del cuerpo por género, b) Los términos de la retórica sobre el cuerpo por género y c) las partes del cuerpo a las que cada género alude. Finalmente, en la última etapa se sistematiza la información obtenida y se identifican los hallazgos tanto cualitativos como cuantitativos, relativos a la ocurrencia de ciertos términos. Los resultados obtenidos se presentaran en articulos individuales a lo largo del proyecto, y en la elaboración de un libro colectivo en la etapa final del mismo. La hipótesis general del proyecto es que la generación de marcas adecuadas y el procesamiento digital de los textos, ofrecen datos fundamentales para investigar en humanidades, pero sobre todo, permiten ampliar los propósitos y las dimensiones del campo de estudio y búsqueda, que las técnicas tradicionales de lectura de textos, no permitirían. En este sentido, para el caso de nuestra investigación, la creación de marcas para distinguir las diferencias entre las retoricas masculinas y femeninas sobre el cuerpo humano en los siglos XVI al XVIII, harán posible manejar un conjunto de cuerpos textuales amplios, que de otra forma difícilmente podríamos trabajar.