Por que seu app de furigana japonês não parece um livro japonês?

Orientado por morfemas ou pela escrita / unidade de kanji: duas rotas para o furigana japonês

Muitos estudantes de japonês encontram furigana pela primeira vez e pensam que ele apenas coloca a leitura em kana acima do kanji. A ideia não está errada, mas logo aparecem dúvidas.

Para a mesma frase, 昨日、学校へ行った。, uma ferramenta automática pode gerar 昨日きのう、学校がっこうへ行ったいった。. Um livro infantil, didático ou uma publicação bem diagramada pode preferir 昨日きのう、学がっ校こうへ行いった。.

As duas formas ajudam a ler japonês, mas respondem perguntas diferentes. A primeira pergunta como a frase soa. A segunda pergunta como os kanji impressos devem ser reconhecidos pelo leitor.

Veja ruby como duas decisões

Na tipografia, furigana costuma ser chamado de ruby. Em texto horizontal, fica geralmente acima do texto base; em texto vertical, geralmente à direita. A W3C também trata ruby como uma parte importante da composição japonesa. [1]

Mas escolher o que recebe ruby e decidir a qual unidade a leitura se prende são coisas diferentes. Todos os kanji recebem ajuda, ou só os difíceis? A leitura se prende a um kanji, a cada kanji dentro de um composto, ou ao termo inteiro?

O JLREQ descreve mono-ruby, jukugo-ruby e group-ruby. Esses três conceitos são a chave para entender a rota ortográfica. [2]

Primeira rota: morfológica

A rota morfológica começa pela análise linguística. Ela segmenta a frase em palavras ou morfemas e atribui leitura, classe gramatical, forma básica e informações de flexão.

Ferramentas como MeCab podem retornar forma superficial, classe gramatical, forma base, leitura e pronúncia. O UniDic também é projetado para análise morfológica japonesa, com unidades curtas e camadas como lexema, forma escrita e forma de pronúncia. [3] [4]

Para 学校へ行った, essa rota naturalmente gera 学校がっこうへ行ったいった. Ela se importa com o fato de 学校 ser lido がっこう e a forma flexionada 行った ser lida いった.

Isso é excelente para automação: apps de aprendizado, extensões, TTS, busca, dicionários eletrônicos e NLP precisam de leituras por contexto.

O ponto cego: leitura da palavra não é sempre ruby impresso

行った é lido いった, mas em publicações costuma aparecer como 行いった. O った já está visível no texto base, então não precisa ficar acima de 行.

学校がっこう basta para pronunciar. Mas, para aprender kanji, 学がっ校こう mostra melhor como 学 e 校 participam da leitura. O がっ aqui não é a leitura isolada がく; é a parte sonora correspondente dentro do composto.

Palavras como 今日きょう, 大人おとな e 小豆あずき não devem ser forçadas caractere por caractere. Elas funcionam melhor como leituras de grupo.

Segunda rota: ortográfica / por unidade de kanji

A rota ortográfica começa pela forma escrita. Onde estão os kanji? Que compostos eles formam? Quais caracteres precisam de ajuda para o leitor alvo? Se houver ruby, ele será por caractere, por composto ou pela palavra inteira?

O JLREQ também distingue ruby completo e parcial: todos os kanji podem receber ruby, ou apenas alguns difíceis, às vezes só na primeira ocorrência. [2]

Jukugo-ruby e group-ruby

Jukugo-ruby é a forma intermediária que muitos ignoram. 学がっ校こう não são apenas dois ruby isolados; o composto 学校 continua sendo tratado como uma unidade, enquanto cada kanji mantém uma relação com parte da leitura.

Quando a leitura não pode ser distribuída naturalmente, entra o group-ruby: 今日きょう, 明日あした, 大人おとな, 一昨日おととい. [5]

Diferenças

Dimensão	Rota morfológica	Rota ortográfica / kanji-unit
Pergunta principal	Como esta palavra ou frase é lida?	Que leitura deve se prender a quais kanji impressos?
Unidade básica	Morfema, palavra, unidade curta, forma flexionada	Texto base, kanji, composto, palavra inteira
Saída típica	`学校がっこう`, `行ったいった`	`学がっ校こう`, `行いった`
Força	Automação, contexto, TTS, vocabulário	Clareza impressa, aprendizado de kanji, livros infantis
Limite	Pode não mostrar que kanji carrega que som	Difícil automatizar, exige regras e revisão

Por que livros didáticos e infantis preferem a escrita?

Porque eles não ajudam apenas a pronunciar; também ensinam kanji. A educação japonesa distribui kanji por série, e documentos oficiais consideram estágio de desenvolvimento, carga de estudo, uso cotidiano e compreensão de significado. [6] [7]

学校がっこう é suficiente para ler, mas 学がっ校こう mostra o papel de 学 e 校. 行ったいった dá a pronúncia, mas 行いった mostra a relação entre kanji e okurigana.

Quatro exemplos

学校. Morfológico: 学校がっこう. Ortográfico: 学がっ校こう.

行った. Morfológico: 行ったいった. Ortográfico: 行いった.

今日. Em geral, as duas rotas usam 今日きょう, pois forçar 今きょ日う ensinaria uma intuição errada.

生物. O contexto decide entre せいぶつ e なまもの. A rota ortográfica pode mostrar 生せい物ぶつ para o sentido biológico e 生物なまもの como grupo para comida fresca.

Qual é melhor para o estudante?

Se você só quer ler a frase em voz alta com fluidez, a rota morfológica é direta. Se está aprendendo kanji, lendo livros infantis, fazendo leitura cuidadosa ou criando material didático, a rota ortográfica é mais fiel à página.

Para apps e materiais: o ideal é misturar em duas etapas

Um bom sistema de furigana deve primeiro usar análise morfológica para saber como a palavra é lida, e depois usar regras de publicação para decidir como a leitura volta aos caracteres impressos. A etapa difícil é a segunda, porque mistura linguística, educação de kanji, tipografia japonesa e design para o leitor.

Dois pares de óculos

A rota morfológica é um par de óculos auditivos: pergunta como a frase deve soar. A rota ortográfica é um par de óculos da escrita: pergunta como a página ajuda o leitor a ler e aprender os caracteres.

Nota sobre o OCAT: No OCAT, em Settings - Experimental Options, o usuário pode escolher livremente furigana orientado pela escrita (orthographic / kanji-unit) ou por morfemas (morphological). O padrão é o modo ortográfico. O OCAT pode ser um dos raríssimos apps de japonês com suporte a esse modo.