GigaAM v3 превращает речь в текст. Для русского языка используем лучшую модель: точность >95% на чистой записи. Работает в браузере, без установки и без карты.
Что такое распознавание речи
Распознавание речи (speech-to-text, ASR) — технология, которая превращает звуковую речь в письменный текст. Современные модели на нейросетях понимают:
- Естественную речь (с паузами, оговорками, словами-паразитами — «эээ», «ну», «короче»)
- Несколько говорящих (с разделением)
- Шум на фоне
- Акценты и диалекты
- Терминологию
AI Заметки использует GigaAM v3 — лучшую модель для русского языка в нашем пайплайне распознавания речи.
Два режима распознавания
Реальное время
Говорите в микрофон — текст появляется на экране сразу же. Подходит для голосового ввода в заметку или другое приложение.
Из файла
Загружаете готовый MP3 / M4A / WAV / OGG / видео — получаете расшифровку через 1–3 минуты. Подходит для расшифровки длинных записей: лекций, встреч, интервью.
Точность по типам речи
| Тип записи | Точность |
|---|---|
| Чистая речь, один говорящий | >95% |
| Речь с фоном (улица, кафе) | 88–93% |
| Несколько говорящих, перебивают друг друга | 80–88% |
| Шёпот, очень тихая речь | 70–80% |
| Сильный акцент / диалект | 80–90% |
| Профессиональные термины | 88–95% (зависит от области) |
| Песни, стихи с фоновой музыкой | 60–75% |
Для повышения точности можно подсказать тематику («медицина», «юриспруденция», «IT») — модель адаптируется к лексике.
Поддерживаемые языки
Русский — основной. Также:
🇬🇧 английский · 🇨🇳 китайский · 🇪🇸 испанский · 🇩🇪 немецкий · 🇫🇷 французский · 🇮🇹 итальянский · 🇵🇹 португальский · 🇯🇵 японский · 🇰🇷 корейский · 🇰🇿 казахский · 🇺🇿 узбекский · 🇹🇷 турецкий · 🇦🇪 арабский · 🇮🇳 хинди · 🇻🇳 вьетнамский · 🇹🇭 тайский · 🇮🇩 индонезийский · 🇺🇦 украинский · 🇧🇾 белорусский · и ещё 15+
Автоопределение языка работает с 2 секунд речи.
Сравнение программ распознавания речи
| AI Заметки | Yandex SpeechKit | Google Speech-to-Text | Whisper (локально) | |
|---|---|---|---|---|
| Модель для русского | GigaAM v3 | Yandex SpeechKit | Google Speech-to-Text | Whisper |
| Точность на русском | >95% | ~90% | ~85% | ~92% |
| Бесплатно для пользователя | 600 мин/мес | API платный | $0.006/15 сек | бесплатно, но локально |
| Без установки | Да | через API | через API | Нет |
| Длинные записи | до 5 ч | Да | Да | Да, но медленно |
| Диаризация (кто говорит) | Да | платно | платно | сторонние решения |
| Серверы в РФ | Да | Да | Нет | локально |
| Готовый интерфейс | Да | только API | только API | нужен код |
Где применяется распознавание речи
- Голосовой ввод текста — печатаете голосом
- Транскрибация записей — встречи, лекции, интервью
- Субтитры к видео — авторасшифровка с таймкодами для YouTube / VK Видео
- Диктофоны с расшифровкой — журналисты, врачи, юристы
- Голосовые ассистенты — встроенные в умные колонки
- Контакт-центры — анализ звонков, контроль качества
- Доступная среда — для людей с нарушением слуха
Как использовать
1. Онлайн в браузере
Откройте aizametki.ru/app/ → нажмите микрофон → говорите. Текст появится в реальном времени.
2. На телефоне
Скачайте приложение AI Заметки → новая заметка → микрофон. Работает на iOS 14+ и Android 8+.
3. Через API
Для разработчиков — есть REST API. Документация: docs.aizametki.ru/api. 1000 минут/мес бесплатно для разработки.
FAQ
Это бесплатно? Да, 600 минут распознавания в месяц — бесплатно навсегда. Без карты, без триала.
Какая точность распознавания на русском?
GigaAM v3 даёт 95% на чистой речи. На записях с шумом — 88–93%.
Нужно ли что-то скачивать? Нет, работает прямо в браузере. Но есть и приложения — для офлайн-доступа к заметкам и удобства.
Можно ли распознать английскую речь? Да, 30+ языков. Автоопределение или ручной выбор.
Сохраняется ли моя запись? По умолчанию — нет. После распознавания аудио удаляется с серверов. Можно включить хранение в настройках.
Можно ли распознать видео? Да, MP4 / MOV / AVI / MKV — извлечём звуковую дорожку автоматически.
Попробовать
Распознать речь онлайн бесплатно
Без карты. Вход по email-коду для сохранения заметок.