LLMs - Large Language Models e Speech Analytics
- Gabriel Camargo
- 27 de jun. de 2024
- 3 min de leitura
Segundo vídeo da série AISphere, abordando LLMs e um pouquinho do VoiceAI, nossa solução de Speech Analytics.
Você sabe por que a inteligência artificial deu um salto gigantesco nos últimos dois anos? Foi por conta dos Grandes Modelos de Linguagem, do inglês Large Language Models e que formam a sigla LLM. Um tipo avançado de inteligência artificial projetado para entender, processar e gerar linguagem natural de uma maneira semelhante à dos seres humanos.
Esses modelos são treinados em grandes conjuntos de dados textuais e usam arquiteturas complexas de desenho mais profundas, especificamente de arquitetura transformação que realiza uma ampla gama de tarefas relacionadas à linguagem. Mas, diferente do que muitos pensam, a IA não surgiu do dia para a noite. A história da inteligência artificial é uma jornada fascinante que começou com conceitos teóricos e evoluiu para tecnologias avançadas que transformaram nossa vida cotidiana.
1956
O termo inteligência artificial foi cunhado por John McCarthy em 1956, quando pesquisadores vislumbraram máquinas capazes de simular qualquer aspecto da aprendizagem ou a inteligência humana. Em 1957, Frank Rosemblat desenvolveu o Perceptron, um tipo inicial de rede neural que podia aprender a realizar tarefas simples de classificação.
Anos 70 e 80
O período entre os anos 70 e 80 ficou conhecido como o Inverno da I.A., dado que o progresso inicial levou a expectativas elevadas, mas as limitações tecnológicas e a falta do poder computacional resultaram em grandes decepções.
Anos 90 e 2000
A AI ressurge então entre os anos 90 e 2000, mas dessa vez com avanços práticos. Os métodos de aprendizado de máquina como os SVMs, o Support Vector Mmachines, começaram a mostrar resultados promissores em redes neurais multicamadas, passaram a ser viáveis graças a melhorias computacionais.
2010, a Odisseia Continua
Nos anos 2010 houve uma verdadeira revolução das redes neurais profundas, uma combinação de grandes conjuntos de Big Data, o aumento do poder computacional com processamento paralelo em GPUs e o desenvolvimento de novos algoritmos como CNNs, que são as redes neurais convolucionárias focadas em visão computacional, enquanto as RMNs, que são as redes neurais recorrentes, transformaram o processamento de linguagem natural.
É como se tivéssemos dado olhos, bocas e ouvidos para a inteligência artificial.
Por volta desse período, vimos o surgimento de técnicas de treinamento como Backpropagation, que permitiu o treinamento e o aprendizado das redes neurais profundas, impulsionando avanços em várias áreas.
2017, a Tranformação
A partir de 2017, tiivemos uma verdadeira corrida do ouro na era da inteligência artificial, com o surgimento do modelo Transformer, que introduziu um mecanismo chamado de Self Attention ou mecanismo de alta tensão, que passou a superar as limitações das redes neurais anteriores, permitindo o processamento paralelo, o ganho de eficiência e precisão dos modelos derivados dessa arquitetura.
Vimos então o nascimento do BERT, criado pelo Google, e do GPT, criado pela Open AI.
O vídeo neste post mostra uma aplicação prática com LLM em tarefas de reconhecimento de fala.
O passo 1 é o processamento do áudio e a extração de recursos. Nesse passo ainda não usamos o LLM, onde o áudio é convertido em representações adequadas, como spectrogramas, e características relevantes são extraídas, capturando os padrões de frequência e temporais da fala.
O passo 2 é a modelagem e conversão para o LLM. O LLM usa o seu conhecimento pré-treinado em linguagem natural, para modelar a sequência de características do áudio e prever a sequência provável de palavras, considerando o contexto e as nuances do idioma.
E, por último, a geração e o pós processamento do texto. O LLM gera o texto correspondente ao áudio processado, formando frases coerentes e gramaticalmente corretas. Em seguida, o texto pode passar por pós processamento para correções e melhorias finais, garantindo uma transcrição de alta qualidade.
Nossa plataforma de Speech Analytics VoiceAI, que processa milhões de minutos de áudio, é um exemplo de uso prático do LLM hoje. A partir da voz do cliente, usamos LLMs e outras técnicas avançadas para encontrar padrões nesses dados para os segmentos financeiros, varejo, beleza, saúde e Telecom.
Os grandes modelos de linguagem trazem benefícios significativos para a construção de aplicações ao oferecer capacidades avançadas de compreensão e geração de linguagem natural. Isso resulta em interações mais precisas e contextualmente relevantes, melhorando a eficácia de assistentes virtuais.
Como vimos, os LLMs, Large Language Models, vão muito além do Speech Analytics e podem ser adaptados a diversos domínios e aplicações, fornecendo flexibilidade e escalabilidade ao mesmo tempo que reduzem a necessidade de extensa programação manual e ajustes específicos, acelerando o desenvolvimento e a implementação de soluções inteligentes.

Comentários