Бот который переводит голос в текст
Перейти к содержимому

Бот который переводит голос в текст

  • автор:

Telegram-бот Silero бесплатно переводит речь в текст

header

Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины (несколько минут).

Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об ошибках выводиться не будут). Более подробно об ограничениях и особенностях работы можно узнать в методах /help и /faq .

Основная UX фишка работы бота — проработанный и удобный формат чтения и навигации по распознанным сообщениям и заметкам (а не стена текста).

Как воспользоваться

Нужно просто пройти по ссылке или просто открыть страницу бота @silero_audio_bot в Телеграме. Затем:

  • Введите команду /start для старта;
  • /help и /faq помогут понять основные допущения и ограничения в работе;

Мы тщательно протестировали основные ограничения и свели список основных проблем и краевых кейсов в вышеописанные команды. Если вы найдете новые краевые кейсы, там указаны прямые контакты, можете написать нам. Мы не прячемся и не кусаемся.

Ключевые особенности и отличия от существующих решений

Сразу чтобы вы понимали — мы разрабатываем алгоритмы, а не просто перекладываем ваши персональные данные в «джейсончики» в АПИ корпораций. Все алгоритмы и разработки, участвующие в работе бота, наши собственные.

Мы гордимся тем, что:

  • Бот работает на основе наших систем детекции речи (кстати ее скоро ждет огромное обновление!), распознавания речи, простановки знаков препинания и заглавных букв;
  • Наша система распознавания как минимум не уступает решениям корпораций (вопрос дискуссионный, по нашим исследованиям на примерно 20 разных доменах наша система была лучшей на большинстве из них, кроме ряда ярких исключений, типа звонков в банки);
  • Бот «пытается» быть максимально удобным с точки зрения UX и читабельности в рамках возможностей Телеграма;

Мы НЕ делаем следующих вещей:

  • Мы НЕ собираем данные о пользователях;
  • Мы НЕ занимаемся «продажей аудитории» инвесторам или третьим лицам;
  • Мы НЕ шлем ваши данные в АПИ корпораций или компаний, аффилированных с олигархическими структурами;
  • Мы НЕ присваиваем себе чужих достижений, все наработки наши собственные;

Безопасность и ограничения

Ограничение 20 мегабайт на файл для Телеграма мы не стали снимать, потому что в нормальном аудио формате в 20 мегабайт можно уместить достаточно длинное аудио для данного UX-сценария и повторюсь, что есть отдельный сервис для «длинных» аудио, который будет развиваться отдельно. С точки зрения удобства пользователя странно в мессенджере решать десктопные юзкейсы.

У каждого пользователя есть лимит, мы блокируем ботов и пресекаем нецелевое использование доступными нам методами.

Мы полностью шифруем весь трафик и данные. Мы не «дарим» ваши персональные данные корпорациям или олигархическим (или аффилированным с ними) структурам.

Дальнейшее развитие

Так же, как и наше решение для транскрибации длинных файлов, мы будем развивать и улучшать наше решение, если оно будет полезно народу. В каком-то смысле судьба бота и наличие независимого инструмента в ваших руках.

Мы постарались сделать все по красоте, но если будут какие-то баги и проблемы, мы будем благодарны комьюнити за помощь. В первое время возможны небольшие перебои с работой при раскатке фиксов, но мы надеемся, что мы уже отладили 95% всех краевых случаев, а оставшиеся 5% можно будет быстро поправить или понять и простить.

Обновления по горячим следам

  • FAQ с самыми актуальными вопросами для тех, но не нашел его в самом телеграме — https://habr.com/ru/post/591563/#comment_23749573
  • Важно — я настроил вроде бота, чтобы его не нужно было делать админом в группе (пишите в комментариях или в личку про свой опыт)
  • Важное обновление — баг с «затором» в боте пофикшен
  • Остался баг с пересылкой файлов с мобильных клиентов и / или из вотсаппа и / или из музыкальной библиотеки телеграма.

Обновления по горячим следам 2

  • Баг с пересылкой файлов пофиксили, все оказалось проще — дело было в отсутствующем MIME-типе;
  • Еще раз пофиксили баги с заторами, вроде дело было в том, что если ответить 500 телеге, то она начинает копить сообщения, и потом это приводит к затору;
  • Навесили try/catch в несколько ключевых мест;
  • telegram
  • распознавание речи
  • silero
  • телеграм
  • телеграм-бот
  • speech recognition
  • Мессенджеры
  • Машинное обучение
  • Развитие стартапа
  • Искусственный интеллект
  • Голосовые интерфейсы

Удобный Telegram-бот для распознавания речи в голосовых и видео сообщениях

Telegram-бот Voix переводит аудио в текст и может выполнять расшифровку даже длинных голосовых сообщений. Конвертация аудио и видео в текст происходит моментально.

2.4K показов
26K открытий
22 комментария
Написать комментарий.

Не хватает разбивки по голосам в диалогах. Когда реплики разных людей сливаются в единый текст, становится трудно читать.

Развернуть ветку

Ценное замечание! Можно попробовать осуществить такую разбивку.

Развернуть ветку
Развернуть ветку

Спасибо за отзыв!

Развернуть ветку
Развернуть ветку
Развернуть ветку
Развернуть ветку

Нет пока решения классической задачи — расстановки знаков препинания. Неужели чатгпт, не сможет помочь их расставить ?

Еще не решили задачу расстановки ударений.

Развернуть ветку

Есть решение, с расстановкой знаков препинания. Попробуйте распознавание голоса от Lingvanex. Демки в открытом доступе нет, но если им написать, дадут. Проверено — дают и расстановка знаков на топ уровне!

Развернуть ветку

Тут бесплатно и просить никого не надо.

Развернуть ветку

Чувствуете разницу между сервисом и ботом?

Развернуть ветку

Знаете разницу между business и biznes ?

Развернуть ветку

Вам знакомо понятие бренд? Не смешите людей и не стройте из себя клоуна.

Развернуть ветку

Смесь нижегородского с французским мне знакома. И попытка спросить про разницу между мягким и теплым тоже известна давно.

Развернуть ветку

Можно ли пригласить его в беседу?

Развернуть ветку

Данный бот предназначен только для личных сообщений, добавление в групповые чаты не предусмотрено.

Развернуть ветку

Автору респект за проделанную работу. Но, есть пара моментов:

1. Направленные боту голосовые или видео сообщения нигде не хранятся и удаляются сразу же после распознавания речи.

☝️ вот тут не согласен, от слова совсем.

2. А для чего нужно переводить голосовые или видео сообщения в текст?

Не совсем понятен профит работы с ботом для клиента. Просто побаловаться?
@Just Butterfly напиши, пожалуйста, в личку — есть что обсудить.

Развернуть ветку

Все файлы, направляемые боту, автоматически удаляются сразу же после исполнения запроса пользователя, даже в случае возникновения каких-либо ошибок.
Если вы имеете в виду серверы Telegram, то там какое-то время хранится все, что вы отправляете через него, и это касается не только ботов.

Развернуть ветку

Да, именно о серверах тг я и говорил. А к чему? Желательно в описании указывать это все, так как могут и точно найдутся умники, которые будут предъявлять за такие неточности. Мол — вы говорили что все удаляется, а на самом деле нет. Вы вводите нас в заблуждение и так далее.

Развернуть ветку

Хранение загружаемых файлов на серверах Telegram — общеизвестный факт. Это прописано в условиях использования, с которыми соглашается каждый пользователь при регистрации. Поэтому дублировать политику конфиденциальности Telegram в описании к боту не имеет смысла.

Развернуть ветку

бот не работает. Отправила видео, длится меньше чем 6 минут, объем меньше 20 мб. Текст не выдается уже в течении часа!

Развернуть ветку

Был сбой на стороне сервера. Сейчас бот снова работает!

Бесплатный Telegram-бот для расшифровки аудио. Рассказываем кратко, как мы его сделали

Команда SberDevices запустила бесплатный бот в Telegram, который конвертирует русскоязычные голосовые сообщения и аудиофайлы в текстовый формат. Бот работает на основе технологии распознавания речи SmartSpeech и станет удобным инструментом для журналистов, копирайтеров, переводчиков и представителей других профессий, которые работают с текстами. Он позволит сэкономить часы работы, сократить рутину и значительно повысит эффективность при производстве контента. Также бот незаменим в ситуациях, когда у пользователя нет возможности прослушать голосовое сообщение: на встрече или в общественном транспорте. Бот можно использовать как в личной переписке, так и добавлять в групповые чаты. Он обеспечивает расшифровку голосовых сообщений и загруженных одноканальных аудиофайлов до 20 Мб в кодировках MP3, WAV (8-96 кГц), FLAC и OggOpus.

Что под капотом

При создании Telegram-бота мы использовали особую модель распознавания речи. Она очень похожа на ту, которая используется в работе виртуальных ассистентов Салют — как по архитектуре, так и по количеству параметров. Однако у этой модели есть существенное отличие — оно в обучающих данных.

Главной задачей наших моделей, используемых виртуальными ассистентами, является распознавание запроса: команды или вопроса (“Салют, включи спокойную музыку”, “Джой, сколько сейчас градусов”). Обычно это очень короткие фразы. Кроме того, важная особенность таких моделей — игнорирование фоновой речи и речи, не обращённой непосредственно к виртуальному ассистенту.

Когда мы попробовали использовать существующие модели для распознавания аудиосообщений, очевидно, не получили необходимого качества: аудиосообщения зачастую длинные, а распознавать нужно весь запрос, не пропуская ни одного слова.

Отлично. Проблема найдена, переходим к решению.

Сначала мы собрали из различных открытых источников длинные монологи, от нескольких десятков секунд до нескольких часов, порезали на короткие куски длиной не более 25 секунд и с помощью краудсорсинга получили для них транскрипции. А также перестали игнорировать фоновую речь.

Основная проблема такого подхода — трата большого количества времени на получение транскрипций. Процесс это долгий, и достаточное количество данных быстро таким образом не собрать. Пришлось прибегнуть к трюку.

На самом деле, модель, обученная не пропускать фоновую речь, у нас уже была – это модель, которая используется для распознавания телефонных разговоров. Однако для её обучения использовался принципиально другой звук: частота дискретизации 8кГц, а для голосовых сообщений мы взяли за основу 16кГц.

Напрямую, без потери информации, использовать её было нельзя, но с её помощью нам удалось расширить обучающую выборку. Мы взяли короткие куски монологов, для которых у нас ещё не было транскрипций, понизили их частоту до 8 кГц и сделали псевдоразметку: распознали записи с помощью модели для телефонии. Дальше просто привязали полученные транскрипции к исходному звуку с качеством 16 кГц.

Кроме того, для формирования обучающей выборки мы использовали полученные ранее аудиозаписи с транскрипциями, на которых обучалась модель телефонии, повысив частоту дискретизации.

Таким образом, нам удалось значительно увеличить обучающую выборку, перестать игнорировать фоновую речь, и, как следствие, улучшить качество распознавания аудиосообщений в нашем Telegram-боте.

Пунктуация

Бот способен расставлять знаки пунктуации и делить текст на предложения. Это довольно простая seq2seq-модель 4-классовой классификации (пустота, точка, запятая, знак вопроса), обученная на открытых данных общения из интернета. В отличие от большинства моделей, наша не анализирует текст полностью, а учитывает паузы между словами для разбиения текста на значимые части, которые анализируются независимо. Это позволяет распознавать быстрее. А ещё мы не ставим точку в конце единичного предложения — так же, как и вы при общении в мессенджере.

Топ 8 нейросетей для перевода речи в текст

Привет! Эта подборка для вас, если вам нужно преобразовать устную речь в текст. Это может быть полезно для тех, кто хочет записать свои мысли, идеи, лекции, подкасты или интервью в текстовом формате. Вы можете также генерировать субтитры к видео или надиктовать сообщение для отправки текстом. Кроме того, это может помочь людям с нарушениями слуха или речи, а также тем, кто изучает иностранные языки. В этой статье я расскажу вам о топ нейросетях для для транскрибации речи в текст, которые работают с русским языком и доступны онлайн. Я попробую каждый из них и поделюсь своим мнением о их качестве, скорости и удобстве. Поехали!

Простой и бесплатный сервис. С ходу всё понятно. Он основан на технологии Google и может распознавать и переводить речь в реальном времени, а также расшифровывать аудиозаписи. Для работы с ним нужно просто зайти на сайт и нажать на большую круглую кнопку с микрофоном. Вы можете выбрать язык, скорость и тональность речи, а также редактировать текст, если нужно. Вы можете сохранить текст в формате TXT или DOC, отправить его по электронной почте или распечатать.

Из минусов: печальный интерфейс, поддерживает не все форматы аудио и видео, поэтому иногда приходится конвертировать файлы перед загрузкой. Может пропускать знаки препинания.

Это еще один бесплатный сервис. Он также работает на основе Google и может расшифровывать аудио- и видеозаписи, а также голосовой ввод. Имеет встроенный редактор для правок и настроек. Для использования сервиса нужно зайти на сайт и нажать на кнопку “включить запись”. Затем можно говорить в микрофон. Сервис будет показывать текст на экране, который можно редактировать, сохранять, отправлять или печатать.

Минусы: тоже интерфейс не понравился, не всегда точен в распознавании речи. Кроме того, он имеет ограничение на размер файла в 50 МБ, поэтому иногда приходится разбивать файлы на части.

Это еще один простой и бесплатный инструмент со знакомой уже кнопкой записи. Это та же разработка Google. Но интересно, что у каждого из сервисов свои ошибки. У этого их было больше, чем у предыдущих двух.

Есть еще платные сервисы. Они более удобные и функциональные. Но больше подходят для профессионального использования.

Это для более глобальных задач. Платный сервис от Яндекса, который предоставляет API для распознавания и синтеза речи. Он поддерживает более 20 языков и диалектов, а также учитывает контекст и специфику речи. Он может расшифровывать аудио- и видеозаписи, а также голосовой ввод. Он также может переводить речь на другие языки, а также генерировать речь из текста, подбирая разные голоса для каждого персонажа. Для работы с ним нужно зарегистрироваться на сайте и получить ключ API. Подобный сервис есть и у Сбера — SaluteSpeech.

Как мы можем использовать транскрибатор Яндекса бесплатно? Можно установить Яндекс Клавиатуру на свой смартфон и надиктовывать текст, когда хотите что-то записать… ��

Яндекс Клавиатура: можно надиктовать заметку или сообщение.

  • DeepScribe.ai. Это платный сервис для медицинских специалистов, которые хотят автоматизировать свою документацию. Он использует искусственный интеллект, чтобы распознавать и транскрибировать речь в реальном времени, записывать аудио, захватывать слайды, извлекать ключевые моменты и генерировать сводки встреч. А еще переводит с других языков.
  • Rev AI. Это платный сервис, который предлагает высокоточное и быстрое транскрибирование речи в текст и наборот. Он может расшифровывать аудио- и видеозаписи. Он поддерживает более 30 языков и диалектов, а также учитывает контекст и специфику речи. И может переводить.
  • Happy Scribe — универсальная платформа транскрипции и субтитров. Преобразует аудио в текст. Добавляет субтитры к видео. Затем их можно перевести на другие языки.
  • TranscribeMe — Это платный сервис, который предлагает высокую точность расшифровки речи в текст и обратно. Он использует комбинацию нейросетей и профессиональных транскрибаторов, чтобы обеспечить качественный результат. Специалисты — это фрилансеры из разных стран, говорящие на разных языках, которые проходят специальное обучение. Сервис учитывает специфику речи в разных областях, таких как бизнес, маркетинг, исследования и т.д. Может переводить на другие языки.

В этой статье я рассказала о 8 самых популярных и эффективных нейросетях для перевода речи в текст, которые работают с русским языком и доступны онлайн. Все они справляются со своей задачей. Как видите, каждый сервис имеет свои преимущества и недостатки, поэтому выбор зависит от ваших целей и предпочтений.

На этом работа не заканчивается. Как правило, готовый текст нужно привести в порядок: проверить на ошибки, улучшить его читабельность и довести до соответствия требованиям. Для этого вам пригодятся такие сервисы, как:

  • Retext. AI — нейросеть для перефразирования и проверки пунктуации.
  • Главред — сервис для проверки стилистики текста
  • Content-Watch — проверка качества контента. И многие другие полезные сервисы можно найти в моей статье “Топ 13 сервисов и нейросетей для текстов в 2023 году: генерация и перефраз, проверка пунктуации, SEO-анализ”.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *