Vocabulario in formato XML

XML es un formato de archivos electronic que permitte le memorisation de datos de varie typo, in maniera structurate. Un del (innumerabile!) su usos es illo de memorisar textos, e de facto le formato del archivos de OpenOffice.org es XML.

Il existe un typo particular de XML que ha essite ideate appositemente pro immagazinar documentos textual; illo es le TEI (Text Encoding Initiative). Le parte del TEI al qual nos es interessate in iste contexto es illo usate pro le description de dictionarios, sia monolingue sia bilingue. Illo es descripte (in anglese) in iste pagina del TEI, que es multo utile pro quicunque vole participar al projecto.

Ecce un exemplo de alicun entratas del dictionario, in XML:

    <entry>
      <form>
        <orth>abbagliare</orth>
      </form>
      <gramGrp>
        <pos>v</pos>
        <subc>t</subc>
      </gramGrp>
      <sense>
        <usg type="hint">vista</usg>
        <trans>
          <tr>cecar</tr>
        </trans>
      </sense>
      <sense>
        <usg type="hint">affascinare</usg>
        <trans>
          <tr>fascinar</tr>
        </trans>
      </sense>
    </entry>
    <entry>
      <form>
        <orth>abbaglio</orth>
      </form>
      <gramGrp>
        <pos>s</pos>
        <gen>m</gen>
      </gramGrp>
      <trans>
        <tr>error</tr>
        <tr>equivocation</tr>
      </trans>
      <eg>
        <q>prendere un <oRef/></q>
        <trans>
          <tr>equivocar</tr>
        </trans>
      </eg>
    </entry>
    <entry>
      <form>
        <orth>abbaiare</orth>
      </form>
      <gramGrp>
        <pos>v</pos>
        <subc>i</subc>
      </gramGrp>
      <trans>
        <tr>latrar</tr>
      </trans>
    </entry>

Texto que appare inter < e > face parte del syntaxe XML, e nos appella iste parolas (como entry, form, etc.) "marcas". Le TEI defini un numero finite de marcas que pote esser usate in un dictionario. Nos los explicara brevemente in le lineas sequente, ma pro comprender los in detalio nos face referimento al documento del TEI.
Marcas usualmente defini un blocco de datos; le blocco es le parte de texto que sta inter le marca de apertura (p.ex. <entry>) e le marca de clausura (que es identificate per un "/", p.ex. </entry>). Le marca de apertura pote haber alicun parametros que specifica ulteriormente le typo de datos del blocco (p.ex. <usg type="hint">).

Marcas le plus commun

Iste notas servi solmente pro dar un idea del signification del marcas, non pro referentia.

  • entry: iste marca signala un entrata in le dictionario.
  • form: informationes super le forma scripte o oral del vocabulo (orthographia, pronunciation, sillabation, etc.)
  • orth: le orthographia
  • gramGrp: informationes grammatical
  • sense: informationes super un senso del parola
  • trans: blocco de traductiones
  • tr: un singule traduction
  • eg: exemplo de usage

Il ha alicun altere marcas e, in veritate, altere cosas a explicar. Ma le maniera plus immediate pro apprender iste typo de XML es analysar le partes del dictionario que jam ha essite preparate, e utilisar los como exemplo.

Avantages de XML

XML es simplicemente un modo pro immagazinar datos in un forma structurate; per se, XML ha nulle altere objectivo. In particular, XML non es un programma, e es independente del systema operative (Windows, Linux, MacOS, etc.) que on usa.
Un del avantages de XML es que illo es un formato que pote describer qualcunque typo de datos, in un archivo textual accessibile per qualcunque programma editor de texto (ben que il ha programmas apposite que facilita le edition de files XML).
In plus, illo es un formato extendibile; le dictionario que nos intende producer non contene, actualmente, informationes super le pronunciation o le sillabation del parolas; ma, gratias al versatilitate de XML, illos pote esser addite in un secunde momento, sin compromitter le labor jam realisate.

Usages practic

XML revela su potentia in le usage practic; il es facile realisar un programma que converte un documento XML in un altere typo de file, e viceversa.
Pro exemplo, del vocabulario in XML on pote crear vocabularios in un formato apte pro Babylon, Glossword, Vokabel, OpenOffice e mille alteres, sin limitationes.
Pro haber un evidentia, nos ha preparate un programma pro converter le dictionario in formato LaTeX, que es un systema de realisation de documentos typographic, e de illo nos ha producite un PDF.

Clicca hic pro vider le resultato del conversion: le littera A del dictionario in formato PDF!

Le labor a facer

Per medio de un programma automatic, nos ha succedite a converter le dictionario italiano-interlingua de Paolo Castellina in formato XML; ma le procedura es imprecise, e plure revisiones es necessari pro obtener un dictionario formalmente correcte.
Multe parolas, plus que 50%, ha un definition simple, e non necessita de modificationes; pro alteres, super toto illos que ha exemplos in lor traduction, il es necessari editar los manualmente.

Si vos vole ingagiar vos in iste activitate, contacta nos (invia un message al mailing-list), e vos recepira un parte del vocabulario a revisionar, instructiones plus detaliate e, super toto, nostre eterne gratitude!
Usque nunc, le littera A del vocabulario ha essite completate. Ecce un tabula (que nos cercara de actualisar frequentemente!) del situation:

Littera Numero de vocabulos Stato
A 1441 completate per Mardy
B 537 completate per Mardy
C 1780 completate per Mardy
D 884 completate per Mardy
E 452 0%
F 669 completate per Mardy
G 562 completate per Mardy
H 20 non initiate
I 1401 completate per Mardy
L 505 completate per Mardy
M 983 completate per Mardy
N 293 non initiate
O 428 0%
P 1819 completate per Mardy
Q 95 non initiate
R 1084 completate per Mardy
S 2100 completate per Mardy
T 870 completate per Mardy
U 146 non initiate
V 511 completate per Mardy
Z 76 non initiate