Это обычная практика среди разработчиков голосовых ассистентов, так как «человеческий» анализ аудиозаписей — один из основных способов обучить машину правильно понимать людей.
11 апреля издание Bloomberg опубликовало расследование о команде людей в Amazon, которые слушают записи разговоров пользователей с голосовым помощником Alexa и помогают устройству правильно распознавать и обрабатывать их запросы. Об этом рассказало семь анонимных сотрудников Amazon.
На самом деле сотрудники Amazon, Google, Apple и «Яндекса» могут анализировать лишь мизерную часть записей, а доказательств того, что все разговоры непрерывно отправляются на сервера компаний в полном виде не существует.
Коротко о расследовании Bloomberg
-Несколько тысяч сотрудников Amazon по всему миру прослушивают записи пользователей голосового помощника — транскрибируют аудио, разделяют на смысловые блоки, расставляют аннотации и возвращают в устройство. Таким образом команда Alexa улучшает качество распознавания речевых команд.
-Команды сотрудников находятся в Бостоне, Румынии и Коста-Рике, за 9-часовой рабочий день они прослушивают около тысячи аудиозаписей. Они подписывают NDA (соглашение о неразглашении) и выступают как независимые подрядчики, а не сотрудники компании. Опознавательных знаков Amazon в арендованных офисах также нет.
-Большая часть работы рутинная. Например, один из сотрудников отслеживал упоминания Тейлор Свифт и расставлял пояснения в записях о том, что пользователь имел ввиду певицу. Также сотрудники Amazon проверяют качество автоматической транскрибации запроса Alexa и оценивают качество взаимодействия между машиной и человеком: что спросил пользователь и насколько эффективный ответ он получил от Alexa.
-Иногда сотрудникам попадается личная информация людей: номера банковских карт, счетов, телефонов или адреса. Такие записи маркируются как «критические». Также сотрудникам попадаются случайно сделанные записи, без команды вызова Alexa — их тоже нужно промаркировать.
-Если на записи были слышны звуки, похожие на преступные действия или сексуальное домогательство, Amazon старается не вмешиваться в это, но иногда сотрудничает с властями.
-У сотрудников есть специальные чаты, в которых они консультируются по поводу непонятных записей и обмениваются смешными аудио, например, в которых плохо поют в душе.
-Сотрудники Amazon не получают персональных данных клиентов, но видят серийные номера устройств, имена и номера учетных записей. В Google и Apple в схожих отделах данные полностью обезличены, а звук может быть частично искажен.
По мнению Bloomberg, корпорации часто упускают роль человека в процессе машинного обучения: например, в маркетинговых материалах Amazon говорит, что Alexa «живёт в облаке и постоянно становится умнее», а пользователи расценивают это как полностью автоматический «искусственный интеллект», который обучается без участия человека.
Пользователи не знают о том, что их могут прослушивать, но опасаются этого, спрашивая: «Alexa, кто-то ещё нас слушает? Ты работаешь на АНБ?», пишет Bloomberg.
Почему «умные» устройства сохраняют записи разговоров пользователей
«Умные» устройства технически всегда «слышат», но не «слушают» разговоры пользователей. Они постоянно записывают короткие фрагменты аудио, чтобы услышать активирующее слово — «Alexa», «Привет, Siri», «Слушай, Алиса», «Ок, Google». Если активирующее слово найдено — запись сохраняется и отправляется в службу распознавания голоса, начинается диалог с голосовым ассистентом.
Если активирующее слово не обнаружено в кусочке аудио, оно не сохраняется и, по информации BBC, пока не было обнаружено доказательств того, что все разговоры непрерывно отправляются на сервера компаний в полном виде.
Ошибки случаются. Например, два самых популярных активирующих слова Alexa — «Echo» и «Alexa», могут неверно распознаваться на некоторых языках. На французском языке сочетание слов «avec sa» («с ним» или «с ней»), а на испанском Hecho («факт») могут спровоцировать активацию голосового помощника и отправку записи на сервера Amazon.
Зачем компании анализируют запросы вручную
Разработчики всех голосовых ассистентов вручную транскрибируют небольшие объемы анонимизированных звуковых данных, чтобы улучшить качество распознавания речи. Такой способ является одним из основным для сокращения числа ошибок голосовых помощников и применяется, чтобы учесть диалекты, акценты и неразборчивую речь собеседника, а также региональные и искаженные выражения.
Разработчики получают базу для дальнейшего самостоятельного обучения голосовых ассистентов на основе полученных знаний. Это называется «активным обучением», пишет Wired. Система определяет области знаний, в которых нуждается в человеке-эксперте, получает у него корректный ответ на запрос и учится у него.
Реакция Amazon и политики конфиденциальности компаний-разработчиков голосовых помощников
Amazon
В правилах и условиях использования Alexa указано, что запись голоса используется для «ответов на вопросы, выполнения запросов и улучшения вашего взаимодействия и наших сервисов». Прямым образом анализ аудиозаписей людьми не указывается.
В заявлении Amazon для Bloomberg говорится, что только очень небольшое число записей прослушивается сотрудниками, а компания очень серьезно следит за конфиденциальностью и безопасности данных. Сотрудники не могут воспользоваться полученными записями и каким-то образом идентифицировать пользователей.
«Эта информация помогает нам обучить наши системы распознавания речи и понимания естественного языка, чтобы Alexa лучше понимала запросы и обеспечивала качественный сервис для всех. У Amazon строгие технические и эксплуатационные меры безопасности, а также политика нулевой терпимости в отношении злоупотребления нашей системой».
Корпорация также призналась, что сотрудники могут анализировать аудиозаписей из взаимодействия с «Google Ассистентом», который встроен в Android-смартфоны и «умные» колонки Home. Google заявляет, что перед анализом искажает звук для маскировки голоса пользователя и удаляет всю персональную информацию.
Также в устройствах Google Home есть физическая кнопка отключения микрофона.
Apple
Компания использует людей-помощников, которые оценивают качество обработки голосовых запросов голосовым ассистентом Siri. Согласно политике конфиденциальности Apple, записи голоса не содержат личной информации и связаны со случайным идентификационным номером, который сбрасывается при каждом отключении Siri.
Голосовые записи хранятся шесть месяцев со случайным идентификатором, затем из них удаляют идентификатор, но продолжают хранить для «улучшения распознавания голоса».
«Яндекс»
В условиях использования голосового помощника «Алиса» также есть пункт об обработке голосовых записей в обезличенном виде:
Обезличенные голосовые записи включают в себя реплики пользователей, обращённые к голосовому помощнику после его активации. Данные записи передаются на сервер «Яндекса» в целях распознания запрашиваемой команды и последующего осуществления требуемой функции голосового помощника.
Записи передаются на сервер в обезличенном виде без привязки к конкретному пользователю и его иным данным и могут быть использованы также в целях развития и совершенствования сервиса и его отдельных функций. Все данные, передаваемые в связи с использованием сервиса, сохраняются и обрабатываются в соответствии с политикой конфиденциальности.
По словам представителя «Яндекса» Матвея Киреева, сотрудники компании не получают больше одного сообщения от пользователя, а общее число обрабатываемых запросов «крайне мало» по сравнению с общим числом обращений к «Алисе».
«Современное машинное обучение устроено таким образом, что на некоторых этапах требует помощи человека – благодаря этому, в частности, мы сегодня можем общаться с голосовыми помощниками, а они нас понимают и умеют хорошо отвечать.
Например, если «Алиса» неправильно что-то распознает и дает некорректный ответ, наши сотрудники могут посмотреть на отдельно взятый запрос, чтобы помочь обучить «Алису» в будущем не повторять ошибок. Такие сотрудники получают не больше одного сообщения от пользователя, и у них нет возможности понять, какой именно человек сказал ту или иную фразу. Общее количество запросов, которые рассматриваются подобным образом, крайне мало по сравнению с миллионами обращений к «Алисе» в день».
Мы серьезно относимся к безопасности данных наших пользователей. Вся информация, которую мы получаем от людей, общающихся с «Алисой», шифруется и хранится в обезличенном виде. Мы не имеем никакой возможности слышать, что человек говорит «Алисе» до того, как он активирует ее голосом или кнопкой»,- Матвей Киреев, представитель«Яндекса.
Одним из инструментов обработки голосовых записей «Яндекса» — краудсорсинговый сервис «Яндекс.Толока». Среди заданий можно встретить проверку аудиозаписей на корректность, транскрибацию слов и оценку качества ответа «Алисы».
Как избежать записи разговоров с голосовыми ассистентами
Amazon
Настройки конфиденциальности Alexa не позволяют полностью отказаться от записи и анализа голосовых сообщений, но можно остановить их использование для «разработки новых функций». Также можно прослушивать и удалять предыдущие голосовые записи.
Компания позволяет прослушивать и удалять голосовые записи на странице «Моя активность». Также можно отключить запись разговоров с «Ассистентом» в «Истории голосового управления».
Apple
Корпорация не предоставляет возможности слушать записи разговоров с Siri, так как они обезличены и не привязаны идентификатором или Apple ID к пользователю. Чтобы удалить голосовые записи, созданные Siri на устройстве, нужно в настройках перейти в меню Siri и отключить её, а затем отключить голосовой ввод в настройках клавиатуры.
«Яндекс»
В настройках приложения «Яндекс» можно отключить голосовую активацию помощника по команде. Также у «Яндекс.Станции» есть механическая кнопка отключения микрофона, чтобы избежать прослушивания в режиме ожидания.
ИСТОЧНИК: VC