Распознавание речи в текст на GigaAM v3

GigaAM v3 превращает речь в текст. Для русского языка используем лучшую модель: точность >95% на чистой записи. Работает в браузере, без установки и без карты.

Распознать речь →

Что такое распознавание речи

Распознавание речи (speech-to-text, ASR) — технология, которая превращает звуковую речь в письменный текст. Современные модели на нейросетях понимают:

Естественную речь (с паузами, оговорками, словами-паразитами — «эээ», «ну», «короче»)
Несколько говорящих (с разделением)
Шум на фоне
Акценты и диалекты
Терминологию

AI Заметки использует GigaAM v3 — лучшую модель для русского языка в нашем пайплайне распознавания речи.

Два режима распознавания

Реальное время

Говорите в микрофон — текст появляется на экране сразу же. Подходит для голосового ввода в заметку или другое приложение.

Из файла

Загружаете готовый MP3 / M4A / WAV / OGG / видео — получаете расшифровку через 1–3 минуты. Подходит для расшифровки длинных записей: лекций, встреч, интервью.

Точность по типам речи

Тип записи	Точность
Чистая речь, один говорящий	>95%
Речь с фоном (улица, кафе)	88–93%
Несколько говорящих, перебивают друг друга	80–88%
Шёпот, очень тихая речь	70–80%
Сильный акцент / диалект	80–90%
Профессиональные термины	88–95% (зависит от области)
Песни, стихи с фоновой музыкой	60–75%

Для повышения точности можно подсказать тематику («медицина», «юриспруденция», «IT») — модель адаптируется к лексике.

Поддерживаемые языки

Русский — основной. Также:

🇬🇧 английский · 🇨🇳 китайский · 🇪🇸 испанский · 🇩🇪 немецкий · 🇫🇷 французский · 🇮🇹 итальянский · 🇵🇹 португальский · 🇯🇵 японский · 🇰🇷 корейский · 🇰🇿 казахский · 🇺🇿 узбекский · 🇹🇷 турецкий · 🇦🇪 арабский · 🇮🇳 хинди · 🇻🇳 вьетнамский · 🇹🇭 тайский · 🇮🇩 индонезийский · 🇺🇦 украинский · 🇧🇾 белорусский · и ещё 15+

Автоопределение языка работает с 2 секунд речи.

Сравнение программ распознавания речи

	AI Заметки	Yandex SpeechKit	Google Speech-to-Text	Whisper (локально)
Модель для русского	GigaAM v3	Yandex SpeechKit	Google Speech-to-Text	Whisper
Точность на русском	>95%	~90%	~85%	~92%
Бесплатно для пользователя	600 мин/мес	API платный	$0.006/15 сек	бесплатно, но локально
Без установки	Да	через API	через API	Нет
Длинные записи	до 5 ч	Да	Да	Да, но медленно
Диаризация (кто говорит)	Да	платно	платно	сторонние решения
Серверы в РФ	Да	Да	Нет	локально
Готовый интерфейс	Да	только API	только API	нужен код

Где применяется распознавание речи

Голосовой ввод текста — печатаете голосом
Транскрибация записей — встречи, лекции, интервью
Субтитры к видео — авторасшифровка с таймкодами для YouTube / VK Видео
Диктофоны с расшифровкой — журналисты, врачи, юристы
Голосовые ассистенты — встроенные в умные колонки
Контакт-центры — анализ звонков, контроль качества
Доступная среда — для людей с нарушением слуха

Как использовать

1. Онлайн в браузере

Откройте aizametki.ru/app/ → нажмите микрофон → говорите. Текст появится в реальном времени.

2. На телефоне

Скачайте приложение AI Заметки → новая заметка → микрофон. Работает на iOS 14+ и Android 8+.

3. Через API

Для разработчиков — есть REST API. Документация: docs.aizametki.ru/api. 1000 минут/мес бесплатно для разработки.

FAQ

Это бесплатно? Да, 600 минут распознавания в месяц — бесплатно навсегда. Без карты, без триала.

Какая точность распознавания на русском?

GigaAM v3 даёт 95% на чистой речи. На записях с шумом — 88–93%.

Нужно ли что-то скачивать? Нет, работает прямо в браузере. Но есть и приложения — для офлайн-доступа к заметкам и удобства.

Можно ли распознать английскую речь? Да, 30+ языков. Автоопределение или ручной выбор.

Сохраняется ли моя запись? По умолчанию — нет. После распознавания аудио удаляется с серверов. Можно включить хранение в настройках.

Можно ли распознать видео? Да, MP4 / MOV / AVI / MKV — извлечём звуковую дорожку автоматически.

Все ответы →

Попробовать

Распознать речь онлайн бесплатно

Без карты. Вход по email-коду для сохранения заметок.