back to top

O que o Google está fazendo para que a internet fale a língua de todo mundo

Somente uma parcela dos idiomas falados têm suporte online. Usando inteligência artificial, funcionários do Google estão resolvendo esse problema.

publicado

Quando Nurhaida Sirait-Go xinga, ela xinga em sua língua materna.

A avó de 60 anos faz tudo com paixão, e os palavrões do idioma bahasa, língua oficial da Indonésia, simplesmente não transmitem a mesma fúria que os xingamentos em bakat, idioma que ela cresceu falando na ilha de Sumatra.

"No Facebook ou no WhatsApp, eles falam apenas em bahasa. Então eu não consigo me expressar do jeito que eu quero", disse Nurhaida, que dá risadinhas e cobre a boca quando eu peço para ela repetir uma das palavras sujas em bakat. "Não posso, não posso! As pessoas não usam essas palavras mais. Elas não estão na internet, então não existem."

Bakat é 1 das mais de 700 línguas faladas na Indonésia. Mas apenas uma delas, bahasa, é ensinada em escolas públicas e usada na internet. Para alguns linguistas, esse é só um dos exemplos de como o crescimento da influência global da web ajuda a reduzir idiomas inteiros a pó. Pesquisadores alertam que 90% das cerca de 7.000 línguas faladas no mundo serão extintas nos próximos 100 anos. Ou, como um famoso grupo de linguistas expressou, a cada 14 dias um idioma desaparece da face da Terra.

A tendência teve início há séculos, com a disseminação global do conceito de cidade-Estado, quando governos perceberam que padronizar o idioma ajudava a sedimentar uma identidade nacional. Esse processo, que se acelerou à medida em que idiomas como francês e inglês se tornaram padrão entre comerciantes e diplomatas, teve uma explosão conforme o alcance incomparável da internet encorajou usuários de diferentes partes do mundo a se comunicar.

Linne Ha, gerente de programação do Google cujo foco é idiomas pouco falados, estima que há ao menos 30 línguas com pelo menos 1 milhão de falantes cada que não têm suporte para serem usadas na internet — e há muitas outras, com uma quantidade menor de falantes, na mesma situação. Se imaginássemos que todas essas pessoas fossem um único grupo, seria o mesmo que se toda a população dos Estados Unidos fosse incapaz de escrever online, sem contar a impossibilidade de usar funções controladas por voz.

"Nós [falantes de inglês] somos enviesados porque todos os equipamentos são desenhados para nós", disse Ha ao BuzzFeed News. "A primeira opção, a alternativa padrão, é o teclado em inglês, mas e se o seu idioma não usa esses caracteres, ou se o seu idioma é apenas falado, mas não escrito?"

Segundo a ONU, cerca de 500 idiomas são usados online, apesar de sites populares como o Facebook e o Twitter darem suporte a 80 e 28, respectivamente. Esses sites também mostram suas URLs apenas com caracteres latinos — para milhões de pessoas, o endereço www.facebook.com não passa de um conjunto de formas a serem lembradas ou copiadas e coladas na barra do navegador.

Publicidade

Colocar um novo idioma na internet significa desde desenvolver uma fonte, o que pode custar até US$ 30 mil dólares, a gravar e criar capacidades de voz para o idioma, a fim de utilizar em programas que comportem uso de voz, como o Google Maps. É na parte da voz que Ha foca. Conforme partes do mundo em que idiomas falados são mais comuns que escritos entram na internet, se torna mais importante que nunca ser capaz de usar comandos de voz online.

"Em grande parte do mundo, o padrão é se comunicar usando comandos de voz no celular", diz Ha. "Há lugares em que existe uma tradição oral mais forte que escrita."

O idioma wu, falado por aproximadamente 80 milhões de pessoas na região de Xangai (China), é um bom exemplo. O wu falado tem diversos caracteres que não podem ser escritos com os caracteres-padrão da China, e o idioma raramente é escrito, uma vez que as escolhas ensinam apenas mandarim. Para que falantes de wu se tornassem capazes de usar a internet em sua total capacidade, uma função teve de ser criada para permitir que os usuários falassem e ouvissem wu online.

Outras línguas, ela explica, são simplesmente difíceis de adaptar ao teclado padrão, conhecido como teclado QWERTY — as cinco primeiras teclas da primeira linha de um teclado em inglês. O idioma khmer, falado por 18 milhões de pessoas no Cambodia, inclui 33 consoantes, 23 vogais e 12 vogais independentes.

"No tipo de teclado que é usado como padrão, eles têm que passar por três teclados diferentes para escrever uma única palavra. É impossível", disse Ha. A solução, ela explica, é usar um "teclado de transliteração", em que palavras faladas tomam o lugar das letras de um teclado tradicional.

A engenheira explica que, antes, para colocar um idioma falado na internet, era necessário gravar áudios em qualidade muito boa e ter todo o conjunto de sons possíveis de serem usados naquela língua. O processo, que demorava pelo menos seis meses para ser finalizado, demandava ao menos três pessoas em um estúdio. "Era bastante caro."

Agora, Ha desenvolveu uma maneira de usar "machine learning" — quando um computador "aprende" sozinho a partir de um conjunto de dados — para colocar um novo idioma na internet em questão de dias. O novo processo utiliza-se de uma técnica chamada rede neural, um tipo de inteligência artificial que busca emular a maneira como um cérebro humano funciona. Como uma criancinha aprendendo quais comidas gosta e quais não gosta, o sistema trabalha por tentativa e erro, reescrevendo a si próprio por meio de padrões no conjunto de informações fornecido.

Para testar a ideia, Ha convocou 50 funcionários do Google que dominam o idioma bengali, falado em partes da Índia. "Fizemos cada um deles falar por 45 minutos, mais ou menos 145 frases cada um. Então, em três dias, nós coletamos 2.000 frases", diz Ha. Então, o sistema detectou padrões por meio dessas palavras e expandiu seu vocabulário. "Com isso, fomos capazes de construir um modelo."

A partir daí, Ha arranjou um equipamento de gravação portátil, pequeno o suficiente para levar em viagens, que agora ela usa em todo o mundo. Até agora, a engenheira trouxe à internet três novos idiomas — além do bengali, khmer e sinhala — em somente um ano.

"A voz [em bengali] que nós criamos é uma mistura de sete vozes. É como um coral", ela explica. No início de 2016, a engenheira visitou a Indonésia, onde ela fez uma parceria com uma universidade local a fim de levar à web mais duas línguas utilizadas no país, javanês e sudanês.

Em Jacarta, Sirait-Go ficou animada em saber que o Google está trabalhando para colocar mais idiomas na internet, apesar de ter ficado surpresa ao saber que o programa-piloto na Indonésia escolheu javanês, em vez do idioma nativo dela, o batak.

"Seria melhor para todos se pudéssemos falar batak, nós poderíamos nos expressar melhor", ela disse.

"Meus filhos dizem para eu usar a internet, mas eu não sei o que fazer lá", diz a avó, que recentemente teve seu quinto neto. Ela abre o celular para mostrar os 168 amigos que mantém em seu perfil no Facebook — ela tem outros 55 pedidos de amizade, mas ainda não sabe como respondê-los. Seu perfil é composto basicamente de fotos de Sumatra, particularmente do lago Toba, onde ela cresceu.

"Eu também tenho um vídeo do lago! Alguém no vídeo está falando em batak e ouvir me deixa alegre", disse Sirait-Go. Suas filhas e netos, ela contou, usam o idioma apenas quando querem tirar sarro dela.

"Eu não acho que os meus netos ou os meus bisnetos irão aprender a falar batak, e isso me deixa triste", ela disse. "Se eles não puderem usar na internet, eles não vão aprender."

Este post foi traduzido do inglês.


Publicidade


Publicidade

Sheera Frenkel is a cybersecurity correspondent for BuzzFeed News based in San Francisco. She has reported from Israel, Egypt, Jordan and across the Middle East. Her secure PGP fingerprint is 4A53 A35C 06BE 5339 E9B6 D54E 73A6 0F6A E252 A50F

Contact Sheera Frenkel at sheera.frenkel@buzzfeed.com.

Got a confidential tip? Submit it here.