Woordenlijsten zijn bestanden die handmatig gemaakt en bijgewerkt worden voor gebruik in OmegaT.
Als een project in OmegaT één of meer woordenlijsten bevat, worden termen uit de woordenlijst die ook worden gevonden in het huidige segment automatisch weergegeven in het venster Woordenlijst.
Plaats een bestaande woordenlijst eenvoudigweg in de map /glossary
, na het maken van het project, om die te gebruiken. OmegaT detecteert automatisch woordenlijstbestanden in deze map als een project wordt geopend. Termen in het huidige segment die
OmegaT vindt in het/de woordenlijstbestand(en) worden weergegeven in het venster Woordenlijst:
Het woord voor het =-teken is de bronterm en de vertaling is (of zijn) de woorden na =. Het woordenlijst-item kan een opmerking toegevoegd hebben (zie "bedrijvend werkwoord" voor het tweede item). De functie woordenlijst vindt alleen exacte overeenkomsten met het woordenlijst-item (bijv. vindt geen afgeleide vormen etc.). Nieuwe termen kunnen handmatig aan de woordenlijstbestanden worden toegevoegd tijdens het vertalen (bijvoorbeeld in een tekstverwerkingsprogramma), maar nieuw toegevoegde termen worden niet herkend totdat het project opnieuw wordt geladen.
De bronterm behoeft geen item met één woord te zijn, zoals het volgende voorbeeld laat zien:
Het onderstreepte item "new preview screenshot" bestaat uit drie woorden en kan in het venster Woordenlijst worden gevonden als "nieuw voorbeeld schermafdruk". Merk op dat delen van de items met meerdere woorden ("preview" in het bovenstaande voorbeeld wordt ook herkend op zichzelf als "voorbeeld") worden ook herkend, maar lager gewaardeerd.
Woordenlijstbestanden zijn eenvoudige platte tekst-bestanden die drie-kolommen, tabgescheiden lijsten bevatten met de bron- en doeltermen in respectievelijk de eerste en tweede kolom. De derde kolom kan worden gebruikt voor aanvullende informatie. Woordenlijstbestanden kunnen of in de standaard systeemcodering (en aangegeven door de extensie .tab) zijn of in UTF-8 (de extensie .utf8). De codering Unicode (UTF8) wordt om voor de hand liggende redenen geprefereerd.
Ook het CSV-formaat wordt ondersteund. Dit formaat is hetzelfde als de tabgescheiden: bronterm, doelterm. Velden met opmerkingen worden gescheiden door een komma ','. Tekenreeksen kunnen worden omsloten door aanhalingstekens ", die het mogelijk maken een komma binnen een tekenreeks te hebben:
"This is a source term, which contains a comma","Dit is een bronterm, die een komma bevat"
In aanvulling op het platte tekst-formaat, wordt TBX-formaat ook ondersteund. TBX - Term Base eXchange (TBX) is de open, op XML gebaseerde standaard voor de uitwisseling van gestructureerde terminologische gegevens die is goedgekeurd als een internationale standaard door LISA en ISO. Als u een bestaand systeem hebt voor de afhandeling van terminologie - MultiTerm bijvoorbeeld - is het zeer wel mogelijk dat het de mogelijkheid biedt om gegevens van terminologie in TBX-formaat te exporteren.
Deze methode is ook geschikt voor "dwazen", mits op een redelijk behoedzame manier gevolgd. U heeft er OpenOffice.org Writer voor nodig, dus - als u dat al niet heeft gedaan - download en installeer OpenOffice.org. Start OpenOffice.org en open een nieuw tekstdocument of start "OpenOffice.org Writer".
Voer uw termen voor de woordenlijst als volgt in het lege document in: een term in de brontaal, tab, de term in de doeltaal, tab, een opmerking of uitleg voor het item en dan Return. Tab is de tabulator-toets aan de linkerzijde van het toetsenbord. Indien u geen opmerkingen wilt toevoegen, kunt u de tweede tab weglaten. Een "term" kan één enkel woord zijn of een hele frase. Op de tweede regel voert u de tweede term en de vertaling ervan in.
Als u gereed bent met het invoeren van de termen, zult u twee "kolommen" met termen hebben, termen in de brontaal links en hun termen in de doeltaal rechts en mogelijk een derde kolom, die uw opmerkingen en uitleg bevat. De tekens tab (→ in het voorbeeld hieronder) en Enter (¶ ) kunnen zichtbaar worden gemaakt door te klikken op het pictogram ¶ op de werkbalk Standaard van Writer. Hier zijn een aantal regels van een Engels -Duitse woordenlijst)
word →Wort→das (-/e/s, Wörter/-e)¶
small house→Häuschen→das, (pl Häuschen)¶
dog →Hund→m, f Hündin ¶
horse→Pferd→n, m Hengst f Stute n Fohlen¶
Gebruik NIET de functie "kolommen" van OpenOffice.org om kolommen te maken: scheid eenvoudigweg elke term van bron- en doeltaal door één enkele tab.
Als u gereed bent met de items, sla het bestand dan als volgt op als Unicode-gecodeerd bestand:
Selecteer Bestand > Opslaan als
Voer, in het vak "Bestandsnaam", de naam in voor uw woordenlijst.
Als "Opslaan als type", selecteer "Tekst gecodeerd (.txt.)"
Zorg er voor dat "Automatische bestandsnaamextensie" en "Filterinstellingen bewerken" niet zijn geselecteerd.
Bevestig met OK.
Kopieer of verplaats dit bestand naar de map /glossary van het project, na het maken van een OmegaT project. Als het project al is geopend, herlaadt het dan na het kopiëren van het bestand met de woordenlijst U kunt wijzigingen maken in een bestand van de woordenlijst terwijl het wordt gebruikt in een project. Wijzigingen in woordenlijsten worden na ongeveer één seconde opgemerkt en wijzigingen worden transparant op de achtergrond geladen, dus is er geen reden om het project opnieuw te laden na het opslaan van het nieuwe bestand van de woordenlijst.
Wanneer een segment, dat een term in de brontekst bevat, wordt geopend, zal het venster Woordenlijst de items weergeven voor die termen in het bronsegment die worden gevonden in de woordenlijst (of woordenlijsten - u kunt er meer dan één beschikbaar hebben, en zij mogen ook worden opgeslagen in submappen van glossary).
Opmerking: Natuurlijk zijn er andere wegen en manieren om een eenvoudig bestand met tabgescheiden items te maken, en zij zijn allemaal
eenvoudiger, en veel er van een heel stuk eenvoudiger dan bovenstaande suggestie. Men kan bijvoorbeeld de inhoud hierboven
exporteren als een CSV
, in plaats van als een UTF8
-tekstbestand. Onthoud echter dat de bovenstaande suggestie werkt voor elk doelsysteem, of dat nu Windows, OS X of Linux is.
Er is niets tegen het gebruiken van Notepad++ op Windows of GEdit op Linux bijvoorbeeld: elke tekstverwerker die UTF8 kan
afhandelen en witruimte weer kan geven (zodat de vereiste TAB-tekens u niet ontgaan) kan worden gebruikt.
De inhoud van bestanden met woordenlijsten worden in het geheugen bewaard en geladen als het project wordt geopend of opnieuw geladen. Bijwerken van een bestand met een woordenlijst is dus redelijk eenvoudig:
Houd het bestand open in uw geselecteerde verwerker
Als u langs een term komt die u toe wilt voegen aan uw woordenlijst, voer dan de nieuwe term, de vertaling en enige opmerking die u zou kunnen hebben, in (zorg er voor dat u op tab drukt tussen de velden) en sla het bestand op. De inhoud van het venster Woordenlijst zal overeenkomstig worden bijgewerkt.
Woordenlijsten die zijn geëxporteerd vanuit Trados Multiterm kunnen zonder verdere aanpassingen worden gebruikt als woordenlijsten
voor OmegaT, vooropgesteld dat zij de bestandsextensie .tab
hebben gekregen en de velden voor bron- en doelterm respectievelijk de eerste twee velden zijn.
Indien u exporteert met behulp van de systeemoptie "Tabgescheiden exporteren", moet u de eerste 5 kolommen verwijderen (Seq. Nr, Date created etc). De nieuwere versies van MultiTerm ondersteunen het exporteren naar TBX-formaat.
Probleem: Er worden geen items van de woordenlijst weergegeven - mogelijke oorzaken:
Geen bestand met woordenlijst gevonden in de map "glossary".
Het bestand met de woordenlijst is leeg.
De items worden niet gescheiden door een TAB-teken.
Het bestand met de woordenlijst heeft niet de juiste extensie (.tab of .utf8).
Er bestaat geen EXACTE overeenkomst tussen het item in de woordenlijst en de brontekst in uw document - bijvoorbeeld als het item meervoud is.
Het bestand met de woordenlijst heeft niet de juiste codering.
Er staan in het huidige segment geen termen die overeenkomen met enige term in de woordenlijst.
Eén of meer van bovenstaande problemen kan zijn gerepareerd, maar het project werd nog niet herladen.
Probleem: In het venster Woordenlijst worden sommige tekens niet juist weergegeven
...maar dezelfde tekens worden wel goed weergegeven in het venster Bewerken: de extensie en de codering van het bestand komen niet overeen.