El objetivo de este corpus, desarrollado durante mi estancia sabática en la Unviersidad de Roma Tre, es tener una fuente documental de textos en lengua española codificados en el estándar XML-TEI. Esto con la intención de servir de base para estudios sobre el modo en que se utiliza este lenguaje de codificación en español y analizar las implicaciones y consecuencias políticas y culturales que el código tiene en la construcción de los documentos para su procesamiento computacional.
El corpus de documentos en español con marcado TEI está formado a partir de una revisión y depuración de la relación hecha por José Calvo Tello en More tan books, en la entrada Altas de Datos: New Catalogue of Digital Edition in Spanish, y la integración otras ediciones digitales en español en América Latina. Para la formación de este corpus se excluyeron los proyectos reaccionados por Calvo Tello que no son accesibles en línea o que no contienen documentos TEI. De este modo, los proyectos considerados para este corpus son, en el momento de revisarlos, accesibles en línea y contienen al menos un archivo en español codificado en XML-TEI. En total son diez proyectos, los tres primeros son proyectos latinoamericanos, dos argentinos y uno mexicano, y el resto europeos. De ellos, cinco son realizados en España, uno en Alemania y otro en Francia.
Temáticamente del total de los proyectos dos son sobre poesía castellana medieval, cuatro de poesía del siglo de oro español, uno sobre textos de la Nueva España, uno sobre novela española y latinoamericana, uno sobre El Belianís literario de Juan José López de Sedano del siglo XVIII y uno sobre el historiador argentino del siglo XX José Luis Romero.
De cada uno de los proyectos se escogieron tres archivos muestra, salvo en un caso en que no se pudo tener acceso a los documentos TEI (Repertorio métrico digital de la poesía medieval castellana), y en otro en que toda la colección está editada en un solo archivo TEI (Observatour de la vida literarie). El corpus está integrado, en consecuencia, por 25 archivos. En la mayoría de los casos, los archivos TEI pudieron obtenerse directamente del sitio de los proyectos, en otros casos, los archivos se encuentran en repositorios de GitHub a los que se puede acceder libremente.
Los archivos muestran diversos grados de complejidad en la codificación TEI. Desde versiones muy simples en las ediciones latinoamericanas, a marcados exhaustivos y complejos por ejemplo en el caso del El Belianís literario. Al mismo tiempo, las codificaciones corresponden a una variedad de géneros, desde la poesía, el diálogo, el teatro, el ensayo, la novela, el tratado y el documento periodístico, lo que hace del corpus un ejemplo amplio de criterios de marcado en leguaje TEI para textos en español.
Es importante anotar que la identificación de proyectos de edición digital en español que usan codificación TEI es compleja. No se encuentran relacionados en el sitio de la Text Encoding Iniciative. En buscadores no es sencillo recuperarlos a partir de búsquedas que integren codificación TEI y Español. Salvo el esfuerzo hecho por José Calvo Tello, no hay otro que ofrezca una relación de proyectos académicos que utilicen para la edición de obras en español la codificación TEI.
Finalmente, este corpus va acompañado de otro más pequeño en otras lenguas del sur. Busqué sobre todo proyectos en portugués, por ser otra lengua importante en América Latina, con la que se comparten geopolíticas y en lenguas indígenas de México, por el interés en el problema de la representación cultural de las lenguas indígenas. Tampoco en este caso fue sencillo identificar ediciones con codificación TEI. Se identifiqué tres en portugués, una de las cuales la excluí por estar incompleta y no contener archivos TEI pese a proponérselo. De modo que el corpus quedó reducido a dos proyectos, de los cuales solo uno hace accesibles sus archivos TEI, y un texto en Mixteco, una lengua indígena del centro de México.
Proyectos y archivos en español
Diálogo medieval
Fuente TEI: Proyecto
Género: Poesía medieval castellana
Tiren el clavo e ande la rueda. Fernán Pérez de Guzmán https://www.dropbox.com/s/1r7n8sui38ty82c/252b4.0.xml?dl=0
Las gracias complidas a vos sean dadas. Alfonso Álvarez de Villasandino
https://www.dropbox.com/s/9q0ep9rsbpsliei/2529t.0.xml?dl=0
Gracias e mercedes sean otorgadas. Bachiller en Artes de Salamanca
https://www.dropbox.com/s/0uwe5rdvhd6hz99/2529v.0.xml?dl=0
Edición digital de las obras de José Luis Romero
Fuente TEI: Proyecto
Género: Ensayo periodístico
Cómo se enseña la historia del país. https://www.dropbox.com/s/0a9o953opoj0lsr/tei-6640.xml?dl=0
Humanismo y conocimiento del hombre https://www.dropbox.com/s/cezmo1cp207m1tu/tei-6661.xml?dl=0
Seminario “Problemas de la democracia, el autoritarismo y el desarrollo en los asuntos hemisféricos” https://www.dropbox.com/s/rxovpn0aueyhemz/tei-6678.xml?dl=0
Biblioteca Digital del Pensamiento Novohispano
Fuente TEI: Proyecto
Género: Tratados
Discurso cometologico, y relacion del nuevo cometa. Salmeron y Castro https://www.dropbox.com/s/hkozf23jagc2651/Copia%20de%20Discurso%20cometol%C3%B3gico%20y%20relaci%C3%B3n%20del%20nuevo%20cometa.xml?dl=0
Especulacion astrologica, y physica. Evelino
Exposicion astronómica. Kino
Repertorio métrico digital de la poesía medieval castellana
Fuente TEI: sin acceso
Género: Poesía medieval castellana
Observatour de la vida literarie. Edition digitale et étude de la polémque autor de Góngora http://obvil.paris-sorbonne.fr/corpus/gongora/
Fuente TEI: Proyecto.
Género: Poesía
Un solo archivo
https://www.dropbox.com/s/dc31eh79fxy4abg/GongoraBellaNi%C3%B1a.xml?dl=0
Proyecto Tesoro
http://www.bib.uc3m.es/~nogales/xml/tesoro/index.html
Fuente TEI: Proyecto
Género: Teatro
Auto de los reyes magos. Vicente Gil
https://www.dropbox.com/s/r1b74a8nrg3o9w1/autoreyesmagos.xml?dl=0
La destrucción de Constantinopla de Gabriel Lasso de la Vega https://www.dropbox.com/s/fcz6i5fx4r4kpp1/constantinopla.xml?dl=0
Las muñecas de Marcela de Álvaro Cubillo de Aragón https://www.dropbox.com/s/i24z68k1cado7op/marcela.xml?dl=0
Análisis distante del soneto castellano de los Siglos de Oro
http://adso.gplsi.es/index.php/es/proyecto-adso/
Fuente TEI: https://github.com/bncolorado/CorpusSonetosSigloDeOro
Género: Poesía
Soneto XIX, Francisco de Aldana
Soneto IV Fray Luis de León
Soneto XXII de Juan de Timoneda
Moralischen Wochenschriften
Fuente TEI: proyecto
Género: Novela de caballería
Número I https://www.dropbox.com/s/y5gxoy509a28lzc/TEI%20Source%20of%20the%20Object-1.xml?dl=0
Número II https://www.dropbox.com/s/ggxkdsucbumxx9j/TEI%20Source%20of%20the%20Object-2.xml?dl=0
Número III https://www.dropbox.com/s/or1vcuv6mpfvar1/TEI%20Source%20of%20the%20Object.xml?dl=0
Cligs
Fuente TEI: https://github.com/cligs/textbox
Género: Novela
Morsamor. peregrinaciones heroicas y lances de amor y fortuna de Miguel de Zuheros y Tiburcio de Simahonda. Juan Valera 1899
https://github.com/cligs/textbox/blob/master/spanish/novela-espanola/tei/ne0153.xml
Hilván de escenas. Gabriel Miró 1903
https://github.com/cligs/textbox/blob/master/spanish/novela-espanola/tei/ne0041.xml
Hacia la justicia. Francisco Anselmo Sicardi. 1902
https://github.com/cligs/textbox/blob/master/spanish/novela-hispanoamericana/tei/nh0033.xml
Fabulas Mitológicas
http://www.antoniorojascastro.com/fabulas-mitologicas/
Fuente TEI: https://github.com/arojascastro/fabulasmitologicas
Género: Poesía
Andrómeda de Lope de Vega https://github.com/arojascastro/fabulasmitologicas/blob/master/corpus/tei/Lope_andromeda.xml
Polifemo de Góngora
https://github.com/arojascastro/fabulasmitologicas/blob/master/corpus/tei/Gongora_polifemo.xml
Faeton de Villamediana
https://github.com/arojascastro/fabulasmitologicas/blob/master/corpus/tei/Villamediana_faeton.xml
7 partidas
http://www.7partidas.hypotheses.org/
Fuente TEI: https://github.com/7PartidasDigital
Género: Literatura medieval
Alfonso el sabio. Siete Partidas fragmento VA3
https://github.com/7PartidasDigital/XML-TEI/commit/e27828e3398980ce57f51dbcc8b6233b8ab38307
Alfonso el sabio. Siete Partidas fragmento TN4
https://github.com/7PartidasDigital/XML-TEI/commit/c6bb436b8051d953332d23d9d268ba86498c0251
Alfonso el sabio. Siete Partidas fragmento VA1
https://github.com/7PartidasDigital/XML-TEI/blob/master/SP-VA1.xml
Proyectos y archivos portugués
Cligs
Fuente TEI: https://github.com/cligs/textbox
Género: Novela
O Christão novo https://github.com/cligs/textbox/blob/faeeb530f5410c1587306df443a7e27282960c91/portuguese/romancesportugueses/tei/rp0001.xml
O Annel Mysterioso https://github.com/cligs/textbox/blob/faeeb530f5410c1587306df443a7e27282960c91/portuguese/romancesportugueses/tei/rp0003.xml
Os Brilhantes do Brasileiro
Livro do Desassossego (Pessoa)
Fuente TEI: http://jtei.revues.org/1171
Género: Novela
Archivo muestra de la codificación: LdoD Encoding Fragment
Proyectos y archivos mixteco
Mixtepec-Mixtec (Sa’an Savi) vocabulary
https://it.pinterest.com/MixtepecMixtec/
Fuente TEI: http://tapasproject.org/node/465
Academia de la lengua mixteca http://tapasproject.org/sites/default/files/1446085793/tei/Pronunciamiento-AcademiaLenguaMixteca_2011-TEI.xml
Transcriptions of Spoken Mixtepec-Mixtec Speech: Original Language Resources http://tapasproject.org/sites/default/files/1446081961/tei/MIX-Transcriptions-OriginalLR_0.xml
Proyectos y archivos Zapoteco
Ticha, Colonial Zapotec Text
https://ticha.haverford.edu/
Fuente TEI: (sitio)
Arte en Lengua Zapoteca view-source:https://ticha.