Опознание по голосу и речи: тактика проведения, оценка результатов
Опознание по голосу, а точнее, по звучащей речи представляет собой сложный психологический процесс. Опознающий мысленно сравнивает запечатленный в его памяти образ ранее услышанной речи с образами, формируемыми при прослушивании предъявленных ему фонограмм или «живой» речи, и делает логический вывод об их тождестве, сходстве или различии.
Значение для расследования и возможные риски
Устная речь объективно была, есть и будет основным и самым оперативным средством обмена информацией во всех областях человеческой деятельности. Неслучайно уже в XV веке в Англии предпринимались попытки получения доказательственной информации с использованием процедуры опознания по голосу1. В современной России «по значительной группе дел (кражи, грабежи, разбойные нападения и др.), около 31% от общего числа изученных дел, в показаниях потерпевших либо свидетелей содержались указания на то, что они слышали и запомнили голос и речь преступника»2.
Несмотря на то что в России получение доказательственной информации с помощью опознания по голосу не предусмотрено процессуальным законом, прецеденты использования такого вида опознания не единичны. Так, по данным исследования Т. А. Вольской, органы расследования использовали опознание по признакам голоса и речи в 4,5% от всего количества изученных уголовных дел, в которых применялось опознание личности.
С несколькими подобными случаями пришлось столкнуться и авторам. Наиболее показателен следующий случай.
Из практики. Приговором суда В. был признан виновным в совершении 04.10.2003 по предварительному сговору группой лиц нападения на Е. и К., с угрозой применения насилия, опасного для жизни и здоровья, с применением оружия, в целях завладения имуществом в крупном размере и завладения денежными средствами. В качестве одного из доказательств виновности В. суд принял результаты его опознания по голосу потерпевшей Е. При этом опознание проводилось через 10 лет после совершения преступления. Суд отметил, что «проверенные судом протоколы опознания потерпевшей осужденного по голосу и по внешнему виду рук составлены в соответствии с требованиями УПК. Допрошенные на следствии и в суде лица, принимавшие участие в опознании в качестве потерпевших и статистов, также подтвердили, что опознание было проведено в соответствии с требованиями уголовно-процессуального закона, и показали, что в результате опознания потерпевшая опознала В. как лицо, совершившее на нее разбойное нападение. Доводы осужденного и его защитников о том, что опознания по голосу и по внешнему виду рук были проведены с нарушением уголовно-процессуального закона, являются несостоятельными. Все требования закона при проведении опознания были выполнены» (апелляционное определение Санкт-Петербургского городского суда от 04.08.2015 по делу 22–4851/2015).
При этом суд не принял во внимание суждения привлеченных защитой специалистов в области психологии и судебной фоноскопии. Они высказали научно обоснованные сомнения в достоверности результатов подобного опознания, проведенного через 10 лет после того, как пострадавшая под угрозой применения огнестрельного оружия услышала всего несколько слов, сказанных преступником.
Поскольку мы не ставим перед собой задачу правовой оценки решения суда, приведем еще несколько примеров, демонстрирующих риски применения данного вида опознания, которые обусловлены объективными факторами.
В 1992 году канадец Гай Пол Морин был приговорен к пожизненному заключению за изнасилование и убийство девятилетней девочки на основе утверждения матери жертвы о том, что она узнала голос Морина. Три года спустя анализ ДНК позволил установить непричастность Морина к данному преступлению3.
В 2009 году после захвата грузового судна «Арктик Си» один из преступников вел переговоры по радиоканалу на неродном языке с использованием электронного устройства, изменяющего звучание голоса. «Исказитель» работал так, что голоса разных людей, использующих его, звучат очень похоже, отличаясь при этом от голоса первоисточника. Очевидно, что опознание по голосу в рассматриваемом случае или невозможно, или неизбежно приведет к неадекватным результатам. Даже авторам, привлеченным в качестве экспертов, пришлось приложить немало усилий, чтобы разобраться в алгоритме работы исказителя голоса при проведении судебной экспертизы с применением инструментальных средств исследования.
Рассмотренные случаи демонстрируют, что следователи, применяющие опознание по голосу для получения доказательств, и суды, оценивающие результаты опознания, не принимают во внимание отличие данной процедуры от опознания по признакам внешности и не в полной мере осознают все сложности его проведения и риски использования результатов.
Результаты научных экспериментов
При оценке достоверности опознания по голосу особый интерес представляют результаты научных экспериментов, которые проводились с целью оценки способностей человека к распознаванию дикторов4.
Так, в аналитическом обзоре «Распознавание личности по голосу» приводятся следующие данные о вероятности верного распознавания диктора по пятисекундной фразе (при попарном сравнении): «53% правильного распознавания фонетистами, которым было разрешено пользоваться любыми техническими средствами, и 46% — не фонетистами. В других тестах диапазон составлял 38–76%. Вероятность ошибки идентификации в экспериментах, где требовалось определить, принадлежат ли два предложения одному и тому же диктору, в среднем по дикторам оказалась близкой к 22%, то есть около 78% правильной идентификации»5.
Несмотря на то что авторы обзора ссылаются на данные о надежности распознавания дикторов 17-летней давности (2000 год), они не отличаются кардинальным образом от результатов тестирования Human Assisted Speaker Recognition (HASR), проведенного Национальным институтом стандартов США (NIST) в 2010 году6.
Что влияет на достоверность опознания
Современный уровень развития научных знаний в области голосовой биометрии, психологии слуха и криминалистики позволяет сформулировать ключевые факторы, которые влияют на достоверность результатов опознания по голосу.
Продолжительность речевых сообщений, по которым производится опознание. В общем случае чем больше продолжительность звучащей речи неизвестного и опознаваемого диктора, тем ниже вероятность ошибки опознания.
Сопоставимость вида и стилей речи. Вероятность ложноотрицательного вывода по результатам опознания существенно возрастает, если опознающему приходится опознавать неизвестного диктора не по спонтанной речи, которую он использовал при вербальном контакте с опознающим, а по «подготовленной» — в форме чтения или произнесения заученного текста.
Качество речевых сигналов. Качество записанных (если для опознания предъявляется записанная, а не «живая» речь) или передаваемых по каналам голосовой связи речевых сигналов — комплексная характеристика. Она отражает степень сохранности идентифицирующих характеристик голоса диктора и уровень их маскировки помехами и искажениями различной природы. В каналах подвижной цифровой телефонной связи (GSM) при кодировании (сжатии) речевого сигнала идентификационно значимые признаки могут быть утрачены или искажены7 в случае звучания одновременно с речью целевого диктора речевых сигналов сопоставимого уровня от других дикторов или мультитональной помехи.
Сопоставимость технических характеристик речевых сигналов. Речь идет о таких характеристиках, как уровень и частотный диапазон; отношение сигнал/шум; характер и степень проявления искажений, обусловленных нелинейностью АЧХ8 или недостаточным динамическим диапазоном каналов записи-воспроизведения (если для опознания предъявляется записанная, а не «живая» речь) или голосовой связи (если опознающий слышал неизвестного диктора по телефону). В общем случае вероятность ложноотрицательного вывода по результатам опознания существенно возрастает, если опознающий слышал неизвестного диктора, например, по телефону, а опознает по «живой» речи или наоборот.
Сопоставимость эмоционального состояния. Очевидно, что опознающему крайне сложно установить принадлежность, например, криков с угрозами, которые он слышал от неизвестного диктора, спокойно говорящему или читающему человеку, участвующему в опознании.
Сопоставимость акустических условий прослушивания. Эти условия определяются акустическими характеристиками помещения или места, где находится диктор и слушатель, а также взаимным расположением последних. Звучание голоса участвующего в опознании диктора, находящегося в небольшом служебном помещении, может существенно отличаться от звучания его же голоса в окруженном высотными домами дворе или на лестничном пролете многоэтажного дома, или в салоне легкового автомобиля.
Ограниченность «задержки идентификации». Речь идет об интервале времени между моментом, когда опознающий слышал неизвестного диктора, и процедурой опознания. По результатам эксперимента, поставленного еще в 1937 году9 с целью определения, насколько хорошо неподготовленные слушатели (в данном случае студенты) способны идентифицировать незнакомые голоса10 после продолжительных периодов времени, было установлено следующее. Среди тех, кто опознавал диктора11 через один день, ошиблись 17%; через две недели — 31%; через пять месяцев — 87%! В ходе других экспериментов резкое увеличение ошибки опознания наблюдалось при «задержках идентификации», составляющих 10 минут и более и после двух недель (ошибались в 52% случаев). При «задержках идентификации», исчисляемых годами, идентификация может стать невозможной по причинам, связанным с ограниченностью идентификационного периода. Наличие идентификационного периода обусловлено как возможными, так и неизбежными изменениями идентификационно значимых параметров голоса и речи. Изменения голоса могут быть связаны с взрослением или старением человека, изменением состояния его здоровья, приобретением или, напротив, отказом от вредных привычек, сменой места формирования речевых навыков (места длительного проживания и круга общения) и т. д. В качестве ориентира можно указать следующие идентификационные периоды: для подростка — два-три года; для взрослого человека — порядка 10 лет12.
Сопоставимость акцентов или диалектов звучащей речи. Выполнить данное условие крайне сложно, а зачастую и невозможно. Даже судебные эксперты и профессиональные лингвисты не способны знать особенности всех территориальных диалектов языка и отличить признаки определенного диалекта от индивидуализирующих признаков конкретного диктора, если сравнение производится один к одному.
Способность опознающего адекватно воспринимать особенности голоса и речи опознаваемого. На слух опознающего могут оказывать влияние: особенности строения слухового аппарата; натренированность слуха или его дефекты; заболевания и физическое состояние в момент прослушивания, а также технические характеристики устройств, образующих каналы передачи и воспроизведения фонограммы, и т. п.
На результат опознания может оказать влияние количество дикторов, участвующих в опознании, а также порядок их предъявления для опознания.
Как снизить риски ошибки опознания
Анализ перечисленных выше факторов позволяет сформулировать условия, которые обеспечивают наименьший и наибольший уровень ошибки.
Наименьшая ошибка опознания диктора достигается при выполнении следующих условий.
1. Опознающий слышал речь неизвестного диктора несколько раз, в течение длительного периода времени, в различных условиях и при разных обстоятельствах речевой деятельности.
2. Во время вербального контакта речь неизвестного диктора содержала важную для опознающего информацию. При этом действия диктора не создавали непосредственной угрозы для жизни или имущества потерпевшего (потерпевшие и свидетели, как правило, запоминают те признаки внешности и поведения преступника, в которых находит свое выражение опасность посягательства).
3. На этапе предварительного допроса опознающий способен дать максимально детализованное словесное описание признаков голоса и речи опознаваемого диктора (перечень приводится ниже), а также условий их восприятия. Кроме получения данных, необходимых для объективизации процедуры опознания, вербализация мысленного образа позволяет систематизировать запоминание, сделать его более четким и длительным, мобилизует имеющиеся возможности памяти и тем самым способствует успешному опознанию.
Какие признаки необходимо установить:
— пол и возрастная категория: мужчина или женщина; ребенок; подросток; молодой; взрослый (среднего возраста); пожилой (старый);
— высота, громкость и сила голоса. При этом не следует пытаться охарактеризовать отличительные особенности на уровне: сопрано/меццо-сопрано, бас/баритон, дискант/тенор;
— характер речи: медленная/быстрая; спокойная/возбужденная, связная/отрывистая; внятная-невнятная (дикция);
— стиль и форма речи: официально-деловой; разговорный; монолог/диалог; короткое, заранее подготовленное сообщение и т. п.;
— темп речи: быстрый/медленный;
— использование жаргонизмов и профессионализмов и других, характерных для опознаваемого диктора слов и выражений;
— наличие дефектов произношения (заикание, шепелявость, картавость и др.);
— наличие признаков национального акцента или территориального диалекта и степень их проявления (сильная/слабая/ средняя).
Для «оживления» образа неизвестного диктора может быть полезным использование сравнения с общеизвестными людьми или героями фильмов и ассоциативных образов, например: «звучал, как из бочки», «звучал, как колокол»; «писклявый»; «прокуренный» и т. п.
В большинстве случаев опознающие могут дать только общее описание голоса и речи неизвестного, которое позволяет установить его групповую принадлежность, а непосредственно во время опознания опираются на признаки, которые не способны выразить словами или которые «всплывают» в памяти уже во время звучания голоса одного из опознаваемых дикторов.
4. Обеспечивается сопоставимость вида и стиля устной речи, физического состояния говорящего, акустических условий прослушивания, а также технических характеристик сравниваемых речевых сигналов.
5. Сравнительно небольшая (от нескольких часов до нескольких дней) «задержка идентификации».
6. Участие в процедуре опознания нескольких дикторов (или фонограмм их речи) с близкими характеристиками, для установления которых не требуются специальные знания в области лингвистики. При отборе дикторов следует учитывать, что на степень близости голосов и речи существенно влияет сходство или различие следующих характеристик:
— пол и возраст (возрастная группа);
— антропометрические характеристики. В первую очередь размеры головы и ее частей (верхней и нижней челюсти, носа), шеи и грудной клетки;
— физическое и эмоциональное состояние участвующих в опознании дикторов, наличие/отсутствие заболеваний дыхательных путей;
— национальность и родной язык (место рождения и формирования речевых навыков, место длительного проживания);
— социальный статус (уровень образования, профессия, место работы, семейное положение, наличие криминального опыта).
7. По завершении процедуры опознания опознающий способен указать признаки голоса и речи, которые позволили ему опознать объект.
Оценка результатов
Вероятность ложноположительного опознания ниже, а ложноотрицательного соответственно выше, если опознание проводится на основе сравнения речевых сигналов, несопоставимых по виду, стилю, акустическим условиям записи и техническим характеристикам, а также в случае использования неизвестным и/или опознаваемым диктором средств, искажающих звучание голоса. В последнем случае это могут быть: специальные электронные устройства, включаемые в канал передачи-записи; изменение физических характеристик речеобразующего тракта, в том числе посредством помещения в ротовую полость или носовые пазухи различных предметов, изменяющих объем резонансных полостей речевого тракта.
В общем случае вероятность ложноположительного опознания выше, а ложноотрицательного соответственно ниже, если:
— объектом опознания являются дети или подростки;
— в речи неизвестного и опознаваемого дикторов присутствуют признаки акцента/диалекта или дефекты речи (акцент и дефекты речи маскируют другие индивидуализирующие признаки дикторов, притом что дать объективную оценку степени проявления акцента неспециалист не способен).
Последний фактор крайне важен, так как опознающий зачастую ориентируется только на отдельные, наиболее ярко выраженные признаки голоса и речи. Судебные эксперты нередко ошибаются, принимая, например, характеристики незнакомого им диалекта за признаки, присущие конкретному человеку.
Наибольший уровень ошибок опознания возможен в случаях:
— опознания неизвестного диктора по речевому сообщению малой продолжительности (одна фраза из нескольких слов), независимо от содержания и продолжительности речи диктора, участвующего в опознании, или искаженному с помощью специального устройства, компьютерной программы или иным способом;
— опознания неизвестного диктора по заранее подготовленной монологической речи небольшой продолжительности;
— наличия продолжительного «идентификационного периода».
С позиций современного уровня знаний в области голосовой биометрии результаты подобных опознаний не могут считаться сколь-нибудь достоверными.
Отдельно стоит остановиться на опознании «известных» дикторов, которые находятся в близких отношениях с опознающим. Вероятность правильного опознания таких дикторов может достигать 89%. Примечательно и то, что ошибки ложноположительного опознания в отношении хорошо знакомых дикторов совершаются в шесть раз реже (6%), чем в отношении незнакомых дикторов (36%)13. Поэтому вероятность верного опознания высока, если, например, продавец узнает в грабителе, скрывающем лицо под балаклавой, постоянного покупателя своего магазина.
Следует отметить, что ввиду сложности оценки достоверности результатов опознания по голосу и высокой вероятности ошибки, например, в полиции Великобритании «слуховая (или аудитивная) идентификация» проводится только после «визуальной идентификации» — по признакам внешности14.
Заключение
Эффективность использования процедуры опознания по голосу и звучащей речи, как правило, не соответствует основанным на бытовом опыте завышенным ожиданиям участников процесса, не обладающих соответствующими специальными знаниями.
Опознание по голосу и звучащей речи — задача более сложная по сравнению с опознанием по признакам внешности. Голос отличается широкой внутридикторской вариативностью, а опознающий, в свою очередь, может легко ошибиться в оценке уникальности признаков голоса, которые ему удалось запомнить.
По этим причинам при оценке достоверности результатов процессуального опознания личности по фонограммам или «живой» речи следует учитывать, что даже при благоприятных условиях величины вероятностей верного и ошибочного опознания могут быть сопоставимы. В связи с этим опознание по голосу целесообразно проводить только после опознания по чертам внешности и в условиях отсутствия визуального контакта между опознающим и опознаваемым или использовать результаты опознания для установления принадлежности неизвестного и опознаваемого диктора к одной идентификационной группе, характеризующейся определенным набором признаков.
Для установления соответствия особенностей, обнаруженных опознающим в голосе опознаваемого диктора, действительным, а также для отбора дикторов (или фонограмм) с близкими по звучанию голосами для участия в опознании целесообразно привлекать специалиста в области лингвистики, психологии слухового восприятия или судебной фоноскопии.
Для обеспечения эффективного применения в уголовном процессе процедуры опознания по голосу и звучащей речи необходимы разъяснения высших судов, детализирующие процессуальный порядок проведения подобного опознания, основанные на современных достижениях в области голосовой биометрии и опыте применения данной процедуры в мире.
1. Greenberg, Craig S., Martin, Alvin F., Przybocki, Mark A. Human Assisted Speaker Recognition [Электронный ресурс] / National Institute of Standards and Technology, Information Technology Laboratory, Information Access Division / www.nist.gov.
2. Solan, Lawrence, Tiersma, Peter. Hearing Voices: Speaker Identification in Court / Hastings Law Journal. 2003. — Vol. 54. — P. 373–435.
3. Sherrin, Christophe. Earwitness Evidence: The Reliability of Voice Identifications (2015) [Электронный ресурс] / Osgoode Legal Studies Research Paper Series. Paper 101 / digitalcommons.osgoode.yorku.ca.
4. Voice Analysis Should Be Used with Caution in Court [Электронный ресурс] / Michele Catanzaro, Elisabetta Tola, Philipp Hummel, Astrid Viciano on January 25, 2017. Scientific American / www.scientificamerican.com.
5. Вольская, Т. А. Процессуальные и тактические аспекты предъявления для опознания лиц по голосу и речи: автореф. дис. … канд. юрид. наук: 12.00.09. — Воронеж, 2006. — 22 с.
6. Галяшина, Е.И. К вопросу о достоверности криминалистической идентификации личности по цифровым фонограммам устной речи / Известия ТулГУ. Экономические и юридические науки. Вып. 3. Ч. II. Юридические науки. — Тула: Изд-во ТулГУ, 2016. — С. 19–25.
7. Зубов, Г.Н., Зубова, П. И. Идентификационный период [Электронный ресурс] / Образцы устной речи для сравнительного исследования // Официальный интернет-сайт АНО «КЛАД»: www.klad.media.
8. Ищенко, Е.П., Топорков, А. А. Криминалистика. Учебник / Под ред. Е. П. Ищенко. 2-е изд., испр., доп. и перераб. — М.: Контракт, ИНФРА-М, 2010. — 784 с.
9. Сорокин, В.Н., Вьюгин, В.В., Тананыкин, А. А. Распознавание личности по голосу: Аналитический обзор // Информационные процессы. М.: РАН, 2012. Т. 12. № 1. C. 1–30.
- Следователи и суды часто не принимают во внимание отличие процедуры опознания по речи от опознания по признакам внешности и не в полной мере осознают риски использования результатов первого
- Опознание по голосу целесообразно проводить только после опознания по чертам внешности и в условиях отсутствия визуального контакта между опознающим и опознаваемым

Запомним