Speech Training — aplikacja do nauki angielskiego z głosem, RAG i LLM

Speech Training to techniczny prototyp aplikacji webowej wspierającej naukę języka angielskiego poprzez ćwiczenia głosowe, automatyczne generowanie materiałów oraz pracę z własnymi dokumentami PDF. Projekt pokazuje praktyczne połączenie klasycznej aplikacji Django/Vue z mechanizmami AI, takimi jak embeddings, baza wektorowa, Retrieval-Augmented Generation oraz integracja z modelami LLM.

Główna idea

Aplikacja umożliwia tworzenie i ćwiczenie słów, fraz, idiomów oraz zdań w języku angielskim. Użytkownik wybiera ćwiczenie, wypowiada tekst na głos, a system rozpoznaje wypowiedź i oblicza prosty scoring podobieństwa. Celem projektu jest zademonstrowanie pełnego przepływu: od materiałów źródłowych, przez generowanie ćwiczeń AI, aż po interaktywny trening speakingu.

Zrzut ekranu aplikacji

Interfejs Speech Training — lista ćwiczeń i panel nagrywania

Interfejs użytkownika

Frontend został przygotowany w Vue i obsługuje listę ćwiczeń, widok powtarzania zdań, nagrywanie wypowiedzi, odtwarzanie audio oraz prezentację wyniku scoringu.

Backend

Backend oparty jest o Django i Django REST Framework. Odpowiada za modele danych, panel administracyjny, przetwarzanie dokumentów, generowanie ćwiczeń i komunikację z providerami LLM.

RAG i dokumenty PDF

System pozwala wgrywać pliki PDF ze słownictwem lub materiałami edukacyjnymi. Dokumenty są przetwarzane, dzielone na chunki, wzbogacane metadanymi i indeksowane jako embeddings.

Generowanie ćwiczeń

Ćwiczenia mogą być generowane z wybranych chunków dokumentu lub bezpośrednio z prompta użytkownika. LLM tworzy zestawy słów, fraz, idiomów i zdań zgodnie z poziomem, kategorią oraz dodatkowymi instrukcjami.

Przepływ danych

Projekt łączy klasyczne zarządzanie treścią z warstwą AI. Materiały źródłowe są najpierw przetwarzane i indeksowane, a następnie wykorzystywane jako kontekst dla modeli językowych, które generują gotowe ćwiczenia do treningu wymowy.

Upload PDF

Chunking

Embeddings

LLM / RAG

Ćwiczenia głosowe

Najważniejsze technologie

Python
Django
Django REST Framework
Vue.js
JavaScript
Web Speech API
RAG
Embeddings
Vector Database
OpenAI API
Ollama
PDF Processing
LLM Providers

Charakter projektu

Speech Training powstał jako aplikacja demonstracyjna dla jednego użytkownika, której celem jest pokazanie praktycznego zastosowania głosu, modeli językowych i mechanizmów RAG w edukacji językowej. Projekt może być dalej rozwijany w kierunku pełniejszego systemu do nauki angielskiego, obejmującego personalizację lekcji, historię postępów, bardziej zaawansowany pronunciation scoring oraz integrację z dodatkowymi modelami AI.

AI demonstration project

Speech Training — an English learning app using voice, RAG and LLMs

Speech Training is a technical prototype of a web application designed to support English learning through voice-based exercises, automated content generation and user-provided PDF materials. The project demonstrates a practical integration of a Django/Vue application with AI mechanisms such as embeddings, vector search, Retrieval-Augmented Generation and LLM providers.

Core concept

The application allows users to create and practise English words, phrases, idioms and sentences. A user selects an exercise, speaks the target text aloud, and the system recognizes the utterance and calculates a simple similarity score. The project demonstrates a complete flow from source learning materials to AI-generated exercises and interactive speaking practice.

Application screenshot

Speech Training interface — exercise list and recording panel

User interface

The frontend is built with Vue and provides exercise lists, a speaking practice view, voice recording, audio playback and score presentation based on recognized speech.

Backend

The backend is based on Django and Django REST Framework. It handles data models, administration, document processing, exercise generation and communication with LLM providers.

RAG and PDF documents

The system supports uploading PDF files containing vocabulary or learning materials. Documents are processed, split into chunks, enriched with metadata and indexed as embeddings.

Exercise generation

Exercises can be generated from selected document chunks or directly from a free-form user prompt. The LLM creates sets of words, phrases, idioms and sentences based on level, category and custom instructions.

Data flow

The project combines traditional content management with an AI layer. Source materials are processed and indexed first, then used as contextual input for language models that generate ready-to-use speaking exercises.

PDF Upload

Chunking

Embeddings

LLM / RAG

Voice Practice

Key technologies

Python
Django
Django REST Framework
Vue.js
JavaScript
Web Speech API
RAG
Embeddings
Vector Database
OpenAI API
Ollama
PDF Processing
LLM Providers

Project character

Speech Training was created as a single-user demonstration app focused on the practical use of voice, language models and RAG in language education. It can be extended into a more complete English learning system with personalized lessons, progress history, advanced pronunciation scoring and additional AI integrations.