
O reconhecimento de voz está sendo integrado em quase todos os aspectos da vida moderna, mas ainda existe uma grande lacuna: os falantes de línguas minoritárias e aqueles com sotaques grossos ou distúrbios de fala, como gagueira, geralmente têm menos capacidade de usar ferramentas de reconhecimento de fala que controlam aplicativos, transcrevem ou automatizam tarefas, entre outras funções.
Tobi Olatunji, fundador e CEO da startup de reconhecimento clínico de fala Intron Health, quer preencher essa lacuna. Ele afirma que a Intron é a maior base de dados clínicos de fala da África, com seu algoritmo treinado em 3,5 milhões de clips de áudio (16.000 horas) de mais de 18.000 colaboradores, principalmente profissionais de saúde, representando 29 países e 288 sotaques. Olatunji diz que a maioria dos colaboradores vem do setor de saúde para garantir que os termos médicos sejam pronunciados e capturados corretamente para seus mercados-alvo.
“Porque já treinamos em muitos sotaques africanos, é muito provável que o desempenho básico deles seja muito melhor do que qualquer outro serviço que eles usem”, disse ele, acrescentando que os dados de Gana, Uganda e África do Sul estão crescendo e que a startup está confiante em implantar o modelo lá.
O interesse de Olatunji em tecnologia de saúde vem de duas experiências. Primeiro, ele recebeu treinamento e atuou como médico na Nigéria, onde viu de perto as ineficiências dos sistemas nesse mercado, incluindo a quantidade de papelada que precisava ser preenchida e o quão difícil era rastrear tudo isso.
Essas perguntas o impulsionaram para a próxima fase de sua vida. Olatunji se mudou para os EUA para cursar um mestrado em informática médica pela Universidade de San Francisco e depois outro em ciência da computação no Georgia Tech.
Ele então ganhou experiência em várias empresas de tecnologia. Como cientista e pesquisador clínico de programação de linguagem natural (NLP) na Enlitic, uma empresa da área da Baía de São Francisco, ele construiu modelos para automatizar a extração de informações de relatórios textuais de radiologia. Ele também atuou como cientista de aprendizado de máquina na Amazon Web Services. Tanto na Enlitic quanto na Amazon, ele se concentrou em processamento de linguagem natural para a saúde, moldando sistemas que permitem que hospitais funcionem melhor.
Ao longo dessas experiências, ele começou a formar ideias sobre como o que estava sendo desenvolvido e usado nos EUA poderia ser usado para melhorar a saúde na Nigéria e outros mercados emergentes semelhantes.
O objetivo original da Intron Health, lançada em 2020, era digitalizar as operações hospitalares na África por meio de um sistema de prontuário eletrônico (EMR). Mas a adesão foi desafiadora: acabou que os médicos preferiam escrever a digitar, disse Olatunji.
Isso o levou a explorar como melhorar esse problema mais básico: como fazer o trabalho de entrada de dados básicos dos médicos, escrever, funcionar melhor. Inicialmente, a empresa olhou para soluções de terceiros para automatizar tarefas como anotações e incorporar tecnologias de fala para texto existentes em seu programa EMR.
Houve muitos problemas, no entanto, devido a constantes erros de transcrição. Ficou claro para Olatunji que sotaques africanos grossos e a pronúncia de termos médicos complicados e nomes tornavam a adoção de ferramentas de transcrição estrangeiras existentes impraticável.
Isso marcou o início da tecnologia de reconhecimento de fala da Intron Health, que pode reconhecer sotaques africanos e pode ser integrada aos EMRs existentes. A ferramenta foi adotada até o momento em 30 hospitais em cinco mercados, incluindo Quênia e Nigéria.
Houve alguns resultados positivos imediatos. Em um caso, disse Olatunji, a Intron Health ajudou a reduzir o tempo de espera pelos resultados de radiologia em um dos maiores hospitais da África Ocidental de 48 horas para 20 minutos. Essas eficiências são críticas na prestação de cuidados de saúde, especialmente na África, onde a relação médico-paciente permanece uma das mais baixas do mundo.
“Os hospitais já gastaram tanto em equipamentos e tecnologia ... Garantir que apliquem essas tecnologias é importante. Podemos fornecer valor para ajudá-los a melhorar a adoção do sistema EMR”, disse ele.
Olhando para o futuro, a startup está explorando novas fronteiras de crescimento apoiada por uma rodada de pré-seed de US $ 1,6 milhão, liderada pela Microtraction, com a participação da Plug and Play Ventures, Jaza Rift Ventures, Octopus Ventures, Africa Health Ventures, OpenseedVC, Pi Campus, Alumni Angel, BakerBridge Capital e vários investidores-anjo.
Em termos de tecnologia, a Intron Health está trabalhando para aperfeiçoar o cancelamento de ruído, assim como garantir que a plataforma funcione bem mesmo em baixas larguras de banda. Isso é além de habilitar a transcrição de conversas de múltiplos oradores e integrar capacidades de texto para fala.
O plano, diz Olatunji, é adicionar sistemas de inteligência ou ferramentas de suporte à decisão para tarefas como prescrição ou exames de laboratório. Essas ferramentas, ele acrescenta, podem ajudar a reduzir erros médicos, garantir cuidados adequados aos pacientes e acelerar seu trabalho.
A Intron Health está entre o crescente número de startups de AI generativa no espaço médico, incluindo o DAX Express da Microsoft, que estão reduzindo tarefas administrativas para clínicos gerando notas em segundos. O surgimento e a adoção dessas tecnologias ocorrem em meio ao mercado global de reconhecimento de fala e voz, que deve ser avaliado em US $ 84,97 bilhões até 2032, seguindo uma taxa de crescimento anual composta de 23,7% a partir de 2024, de acordo com a Fortune Business Insights.
Além de construir tecnologias de voz, a Intron também desempenha um papel crucial na pesquisa de fala na África, tendo recentemente se associado à Google Research, à Fundação Bill & Melinda Gates e ao Digital Square no PATH para avaliar os populares grandes modelos de linguagem (LLMs) como GPT-4o da OpenAI, Gemini do Google e Claude da Anthropic em 15 países, para identificar as forças, fraquezas e riscos de viés ou danos nos LLMs. Isso tudo é na tentativa de garantir que modelos culturalmente ajustados estejam disponíveis para clínicas e hospitais africanos.