Os robôs já conseguem escutar e transcrever o que as pessoas dizem tão bem quando um ouvido humano comum. Foi este o resultado do esforço da Microsoft,
que revelou que uma equipe de engenheiros na área de pesquisa em
inteligência artificial desenvolveu um sistema de reconhecimento de voz
com o mesmo índice de erros que uma pessoa normal.
Para avaliar a qualidade do algoritmo, foi usada a métrica
WER (sigla em inglês para “taxa de erros de palavras”), que mede a
capacidade de um sistema de reconhecer a voz e transcrevê-la de forma
precisa. O software em questão foi capaz de obter uma taxa de erros de
apenas 5,9%, que foi aproximadamente igual ao obtido por pessoas que
receberam a tarefa de transcrever a mesma conversa.
Compreensivelmente, os pesquisadores da Microsoft ficaram
empolgados com o resultado, declarando uma marca histórica. “Alcançamos a
paridade humana”, comemora Xuedong Huang, chefe de cientistas da fala
na companhia. No entanto, os cientistas explicam que a marca é
importante, mas ainda está longe de ser perfeita, porque os humanos não
são perfeitos.
As pesquisas para chegar até este ponto foram extensas e
duraram décadas, mas o ritmo de evolução se intensificou nos últimos
tempos. No mês passado, o sistema também já havia atingido uma marca
importante, com uma pontuação de 6,3 WER, que ficou ainda um pouco atrás
das capacidades humanas. Neste mês, a meta foi alcançada.
Este nível de precisão usou redes neurais que armazenam
volumes enormes de informações, que são usados para treinar o sistema.
Com isso, a inteligência artificial consegue reconhecer padrões de voz
para conseguir transcrever a fala para texto.
O próximo passo é melhorar ainda mais o sistema e garantir
que ele funcione em situações do mundo real, que vão muito além do que
um laboratório pode proporcionar. É importante que o algoritmo seja
capaz de reconhecer o que é dito também em restaurantes com barulho de
fundo, em ruas movimentadas e em ventos fortes.
A conquista é importantíssima para o futuro da Microsoft, já
que a grande aposta do mercado de tecnologia é que a inteligência
artificial pode substituir os apps em um futuro não muito distante. Em
vez de abrir um aplicativo para realizar uma função, dê um comando de
voz para uma assistente virtual (no caso da Microsoft, a Cortana)
realizar a ação por você; para este futuro se concretizar, o sistema tem
que ficar cada vez melhor em entender comandos de voz. Xbox, Office,
Windows também se beneficiam diretamente disso.
No entanto, para chegar a um ponto perfeito da tecnologia, a
IA terá que ir além do simples reconhecimento de fala e chegar ao ponto
da compreensão da fala. É significativamente mais fácil transformar
sons que saem da boca das pessoas em letras do que extrair significado
do que é dito e compreender contextos. É só quando as máquinas realmente
entenderem o que é dito, e não apenas transcreverem, é que elas serão
realmente capazes de realizar as tarefas que se espera de um futuro da
inteligência artificial.
Fonte: Olhar Digital