Kategorier
Asien Japan Kina Korea Kultur Språk Taiwan Teknik

Skriva tecken på dator

Frågan ställs med jämna mellanrum, nämligen hur man hanterar kinesiska, japanska och andra skriftsystem på en dator eller telefon. Det är kanske inte banalt eller trivialt, men ändå infinner sig hos mig varje gång en viss förvåning över att det inte hör till allmängodset.

En del föreställer sig alltjämt att det finns något slags kinesiskt tangentbord som inrymmer tiotusentals tecken, medan den enkla sanningen är att man nyttjar samma slag som du och jag. Med undantag för Taiwan, där man av geopolitiska skäl vägrade följa Folkrepublikens utveckling och istället anammade ett eget ickekommunistiskt fonetiskt alfabet kallat zhuyin fuhao (注音符号) eller bopomofo (ㄅㄆㄇㄈ) efter de inledande tecknen, som därför präglar tangentborden därstädes.

På fastlandet och i den övriga mandarintalande sfären nyttjar man istället pinyin (拼音) som grund, en modern (1958) romanisering som är avsevärt mer ljudriktig än tidigare system. Varje kinesiskt tecken kan således representeras med det latinska alfabetet, som till exempel 海 (hai, hav), 北 (bei, norr) och 水 (shui, vatten).

Uttalet, minus toner, följer i stort den romaniserade skriften, men det finns en del undantag och förenklingar som är värda att notera. Ett är att u egentligen är ü efter x, j, q och y, som i 去 (qu = , åka, gå), 许 (xu = , tillåta), 鱼 (yu = = ü, fisk) och 剧 (ju = , drama). Efter n anges ü explicit, som i 女 (, kvinna), eftersom n även kan följas av u, som i 怒 (nu, raseri) – för ü används emellertid den lediga bokstaven v i praktiken vid inmatning: 女 = = nv.

Ett annat undantag är att y och w inte alltid uttalas självständigt, utan är ett slags funktionella halvvokaler. I det tidigare exemplet har vi 鱼 (yu = = ü, fisk), som alltså uttalas som ü eller svenskt y. Men i sammansättning föreligger palatalisering, eller muljering, så att det inledande y antar ett svenskt j-liknande ljud: 鲨鱼 (shayu = shayü, haj). För exempelvis provinsen 云南 (Yunnan = Yünnan) förekommer vanligen palataliseringen självständigt i initialen, vilket motiverar bruket.

Alla är numera bekanta med staden Wuhan, som dock i en kinesisk kontext mest är känd av andra skäl, exempelvis för revolutionen 1911. Uttalet är emellertid inte som i statstelevisionen, utan vi har 武汉 (Wuhan = Uhan), det vill säga Oo-han. Att w ändå används beror på att det blir den bästa approximationen när u följs av en annan vokal, som i 我 (wo = uo, jag) eller 为 (wei = uei, för).

Ett ytterligare undantag är att -ian egentligen är -ien (-iän) i standarduttal, som i 天津 (Tianjin = Tienjin) och 鞭炮 (bianpao = bienpao, smällare), och att -uan egentligen är -uen (uän), som i 美元 (meiyuan = meiyuen, amerikansk dollar). I samma härad ligger kortformer för -ui = -uei, som i 水 (shui = shuei, vatten) och 桂 (Gui = Guei), och i kombination med föregående har vi således 瑞典 (Ruidian = Rueidien, Sverige). Lokalt uttal varierar, och kan ligga ortografiskt närmare pinyin. Pinyin är således utformat för att ha kortast möjliga form.

Kandidatfönster för sha i pinyin.

Med pinyin som grund kan man enkelt rendera tecken på skärm, nämligen genom att knappa in motsvarande romanisering för ett tecken eller ord, varvid man får ett antal förslag i ett kandidatfönster. De flesta stavelser i pinyin har nämligen ett antal motsvarigheter i tecken, som till exempel 傻 (sha, dum), 杀 (sha, döda), 鲨 (sha, haj). Det gäller även sammansatta ord, som 上海 (Shanghai) och 伤害 (shanghai, såra) – det är här tonerna kommer till sin rätt.

Kandidatfönster för shanghai i pinyin.

De första inmatningsmetoderna under 1980-talet var givetvis primitiva, men har sedermera raffinerats. Numera förekommer således prediktion på samma sätt som hos en sökmaskin, och metoden kan algoritmiskt välja rätt tecken och teckenkombinationer beroende av kontext. I Kina har man därtill AI-prediktion per molntjänst, vilket ytterligare raffinerar intelligensen i systemet. Metoden har vidare minne för användarens val av tecken.

Man skriver således inte enstaka tecken eller ord, utan hela eller delar av meningar i pinyin, för att erhålla bästa förslag per kontext. Man kan vid behov stega sig fram mellan olika delar av en mening för att korrigera enskilda tecken eller ord. Till yttermera visso behöver man inte alls skriva ut hela ord, utan det räcker med initialer, som gcd för 共产党 (gongchandang, kommunistpartiet), eller med «suddig pinyin» i allmänhet.

Prediktion vid kinesisk inmatning. gcdsrmdxz ger 共产党是人民的选择 (gongchandang shi renmin de xuanze, kommunistpartiet är folkets val).

En hel mening kan formas sålunda: gcdsrmdxz renderas som 共产党是人民的选择 (gongchandang shi renmin de xuanze, kommunistpartiet är folkets val). Av detta förstår vi att kinesiska på dator kan skrivas mycket snabbare än västerländska språk, vilket får sägas vara en oväntad utveckling.

Prediktion vid kinesisk inmatning med pinyin. Den fixar inte mullvad (鼹鼠, yanshu) i meningen, men väl att pappa har fem söner (爸爸有五个儿子, baba you wuge erzi).

En komplikation tycks vara att man alltjämt använder traditionella tecken på sina håll, till exempel i Hongkong och Taiwan, men det finns för det ändamålet parallella inmatningsmetoder för respektive tradition, och båda medger i övrigt bruk av såväl förenklade som traditionella tecken. Tecken som tecken, liksom.

Rendering på japanska nyttjar samma principer och har ungefär samma förutsättningar som kinesiska i övrigt. Tangentbord i Japan kan visserligen ha en särskild layout med alfabetet hiragana som komplement till den sedvanliga latinska utformningen, men det går alldeles utmärkt att nyttja så kallad rōmaji (ローマ字) med latinska bokstäver direkt – det är för övrigt den vanligaste metoden.

Japanska är något mer komplicerat än kinesiska, eftersom man utöver tecken har två hjälpalfabet i hiragana och katakana. Men även här löser intelligent prediktion problemet smärtfritt.

Japansk inmatning i praktiken.
Texten ovan kommer från denna mangasnutt.

Även för japanska förekommer ett antal olika romaniseringar, men Hepburn är sedan länge den vanligast förekommande.Till skillnad från tidiga kinesiska romaniseringar är det förhållandevis ljudriktigt. Man har till exempel 彼女 (かのじょ, kanojo, hon), 切符 (きっぷ, kippu, biljett) och 日本 (にほん, Nihon, Japan).

Systemet väljer automatiskt mellan kanji (kinesiska tecken) och de två alfabeten, men man kan förstås överpröva beslutet vid behov. I själva verket kan man skriva med enbart hiragana eller katakana, men det underlättar inte läsningen – tecknen ger texten stadga.

Prediktion vid japansk inmatning. Förstahandsvalet 空き (suki, vara hungrig) ges av den tidigare existensen av お腹 (おなか, onaka, mage).

Kontexten bestämmer vidare vilka kanji som väljs, till exempel för すき (suki), som kan betyda 好き (suki, gilla), eller 空き (suki, vara hungrig, vara tom). Förekomsten av ordet お腹 (おなか, onaka, mage) i meningen ger då det naturliga valet 空き (suki, vara hungrig) i prediktionen.

Såväl kinesiska som japanska skrivs numera vanligen horisontellt från vänster till höger, men de flesta ordbehandlare medger traditionell vertikal skrift från höger till vänster, vanligen uppifrån och ned. Det påverkar inte inmatningen, utan är en fråga om typografi och grafisk utformning.

Vertikal rendering av japanska och kinesiska.

Koreanskan använder det inhemska alfabetet hangeul (한글), men eftersom det skrivs i termer av stavelseblock minner det en del om metoderna för kinesiska och japanska. Det beror i sin tur på att koreanska ursprungligen nyttjade kinesiska tecken i skrift, och att man därefter har behållit blockstrukturen – inte mindre än sextio procent av koreanska ord har nämligen kinesiskt ursprung.

Ett kinesiskt tecken som 山 (shan, berg) skrivs på koreanska således som 산 (san) snarare än löpande ㅅㅏㄴ som i västerländsk skrift. Därvid preciserar man fonetiken och gör renderingen betydligt mer kompakt. Av de tjugofyra bokstäverna kan man forma inte mindre än 11 172 stavelseblock, vilket gör att koreanska för en utomstående kan misstas för en logografisk teckenskrift.

Koreanska är en alfabetisk skrift, men med bevarad stavelsestruktur.

Koreanskan lider på samma sätt som kinesiskan av ett stort antal homonymer, det vill säga ord som uttalas likadant men har olika innebörd och rendering i tecken. I koreanskan är det dessutom fråga om homografer, i så måtto att de renderas identiskt med hangeul – därför får man emellanåt precisera med hanja (한자), det vill säga kinesiska tecken.

Tidigare nyttjade man likt japanskan en blandskrift, men numera använder man enbart hangeul, främst av historiska och politiska skäl – det koreanska språket trängdes undan under den japanska ockupationen. Koreanskan är som ett resultat mer svårläst än japanska och kinesiska, trots ett genialt alfabet.

Tidningen Joseon Ilbo (조선일보) använder hanja i logotypen (朝鮮日報), men även i artikeln (野, 야, ya, fält, opposition).

Även inmatning av koreanska är något mer komplicerat, eftersom man måste förhålla sig till stavelseblockens struktur, med allt vad det innebär i form av tomma platshållare. Vill man rendera namnet 李 (zh: Li, jp: Ri, ko: I) kan man således inte nöja sig med ㅣ, utan måste skriva 이, där ㅇ markerar en tyst platshållare.

Systemet hanterar i övrigt automatiskt strukturen i blocken, och även för koreanskan finns ett antal olika system för inmatning. Man kan använda en latiniserad variant om man vill, men det går avgjort fortare med en särskild koreansk layout som skiljer ut vokaler och konsonanter i vardera halvan.

Koreansk tangentlayout (Mac OS). Översta raden är ordprediktioner för aktuell text.