مع تقدم تكنولوجيا استنساخ الصوت باستخدام الذكاء الاصطناعي، يجد المحتالون أنه من الأسهل تقليد أصوات أحبائكم أو الأفراد الموثوق بهم، بهدف خداعكم لإرسال أموال أو معلومات شخصية.
وأحدث الذكاء الاصطناعي ثورة في جوانب الحياة المختلفة، كالتشخيص الطبي، والتنبؤ بالطقس، واستكشاف الفضاء، وحتى المهام اليومية، مثل كتابة رسائل البريد الإلكتروني، والبحث في الإنترنت.
لكن مع زيادة الكفاءات والدقة الحسابية، ظهرت مشاكل جديدة مثل تزييف الفيديوهات والصوت في المكالمات الهاتفية، فقد أصبح من الممكن الآن استنساخ صوت أي شخص وجعله يقول أي شيء تريد.
لمحة تاريخية
إن الروبوتات التي تقلد الأصوات البشرية ليست جديدة بالطبع، ففي عام 1984، أصبح كمبيوتر أبل واحدًا من أول أجهزة الكمبيوتر التي يمكنها قراءة ملف نصي بصوت آلي.
وفي عام 2011، أصدرت شركة أبل مساعدها “سيري”، المستوحى من أجهزة الكمبيوتر الناطقة، والذي يستطيع تفسير أوامر دقيقة والاستجابة بمفردات محدودة.
وبعد ثلاثة أعوام، أطلقت أمازون مساعدها الصوتي “أليكسا”، وبدأت الأصوات المركبة تتعايش معنا.
وحتى أعوام قليلة مضت، كان التقدم في الأصوات الاصطناعية مستقرًّا، إذ لم تكن هذه الأصوات مقنعة تمامًا، وكانت تبدو كأنها نصف إنسان ونصف روبوت، كما كان تقليد صوت معين أصعب.
واستمرت الجهود والاختراقات في البرمجيات الأساسية المستخدمة لتوليد الكلام، إلى أن أتت ثمارها في عام 2019، مع شركة “A.I” ومقرها تورونتو، حيث قامت باستنساخ صوت مذيع البودكاست جو روغان، الأمر الذي تطلب الكثير من المال ومئات الساعات من صوت روغان لتنفيذ العملية.
وفي عام 2022، كشفت شركة “ElevenLabs” ومقرها نيويورك عن خدمة أنتجت نسخًا مثيرة للإعجاب من أي صوت تقريبًا، مع دمج أصوات التنفس، وفي أكثر من 20 لغة مختلفة.
في سياق مشابه، استخدم مصممو برنامج الاستنساخ “Vall-E” التابع لشركة مايكروسوفت، 60 ألف ساعة من سرد الكتب الصوتية باللغة الإنجليزية لأكثر من 7 آلاف متحدث.
ويقال إن “Vall-E” غير المتاح للجمهور، يمكنه تقليد الصوت والبيئة الصوتية للمتحدث بعينه لمدة 3 ثوانٍ فقط.
سوء الاستخدام
ومما لا شك فيه أن تكنولوجيا استنساخ الصوت قد حسنت حياة بعض الناس، فمن خلالها يمكن الآن حفظ أصوات أولئك الذين يعانون من أمراض الحرمان من الصوت، مثل مرض التصلب الجانبي الضموري، ومرض باركنسون، وسرطان الحنجرة، حتى يتمكنوا لاحقًا من الاستمرار في التحدث بأصواتهم من خلال الرسائل النصية.
لكن للأسف، في كثير من الأحيان، يبدو أن التكنولوجيا تُستخدم لأغراض شائنة، مثل: الاحتيال، وأصبح هذا أسهل الآن مع وسائل التواصل الاجتماعي وتوفر فيديوهات لا نهاية لها لأشخاص عاديين يتحدثون.
كذلك، أصبحت تقنية تقليد الصوت متاحة الآن على نطاق واسع، إذ يمكنك فقط الانتقال إلى أحد التطبيقات، وتغذيته بـ 45 ثانية من صوت شخص ما، ثم استنساخ هذا الصوت.
هذه السهولة في تقليد الأصوات، جعلت المجرمين الإلكترونيين يستخدمون الأصوات في الاتصالات الهاتفية لخداع الأشخاص.
وعلى سبيل المثال، يمكن أن تتلقى اتصالًا بصوت شخص قريب يدّعي أنه في ورطة ويحتاج إلى المال، بينما في الواقع هذا الشخص القريب لا دراية له بما يحدث.