شاسوسا

من می خواهم برگردم به دوران خلوت خودم. من نمی خواهم دیگر کسی برای من چنگ و دندان نشان بدهد. یعنی راستش حوصله آزار دیدن را ندارم

شاسوسا

ادراک گفتار / دکتر محمدرضا باطنی

دکتر محمد رضا باطنی

در آواشناسی‌، هنگام‌ بحث‌ از صداهای‌ زبان‌، گفته‌ می‌شود که‌ صداهای‌ زبان‌ به‌ وسیلة‌ اندام‌های‌ گویایی‌ (مانند تارهای‌ صوتی‌، لب‌ها و غیره‌) تولید می‌شوند. ولی‌ باید به‌ یاد داشته‌ باشیم‌ که‌ واقعیّت‌ امر چنین‌ نیست‌. توضیح‌ اینکه‌ اندام‌های‌ گویایی‌ ما صدا تولید نمی‌کنند، بلکه‌ ذرات‌ هوا را طبق‌ الگوهای‌ خاصی‌ به‌ هم‌ می‌زنند، یا به‌ بیان‌ دقیق‌تر، در آنها ایجاد ارتعاش‌ می‌کنند. این‌ ارتعاش‌ها، محرک‌ صوت‌ هستند، نه‌ خود صوت‌. ادراک‌ صوت‌، ویژگی‌ دستگاه‌ شنوایی‌ ما است‌، بدین‌ معنی‌ که‌ دستگاه‌ شنوایی‌ ما آنچنان‌ ساخته‌ شده‌ و سازمان‌ یافته‌ است‌ که‌ این‌ ارتعاش‌ها را به‌ صورت‌ صوت‌ ادراک‌ می‌کند، وگرنه‌ در جهان‌ خارج‌ صوت‌ یا صدا وجود ندارد. آنچه‌ وجود دارد تموّج‌ انرژی‌ در ذرات‌ هواست‌. با این‌ همه‌، ما می‌توانیم‌ همچنان‌ از تولید صدا به‌ وسیلة‌ اندام‌های‌ گویایی‌ صحبت‌ کنیم‌ به‌ شرط‌ اینکه‌ فراموش‌ نکنیم‌ که‌ این‌ کار متّکی‌ بر نوعی‌ تسامح‌ است‌، تسامحی‌ که‌ کار ما را در بحث‌ از صداهای‌ زبان‌ آسان‌ می‌سازد. یک‌ هشدار دیگر را نیز نمی‌توان‌ نادیده‌ گرفت‌: اگر ادراک‌ صوت‌، و از جمله‌ صداهای‌ زبان‌، ناشی‌ از ویژگی‌ یا ویژگی‌های‌ دستگاه‌ شنوایی‌ ما است‌، پس‌ هنگام‌ بحث‌ از صداهای‌ زبان‌، و در سطحی‌ بالاتر، هنگام‌ بحث‌ از زنجیرة‌ گفتار، نمی‌توان‌ از توجه‌ به‌ ساخت‌ و کار این‌ دستگاه‌ به‌کلی‌ غافل‌ بود.

بسیاری‌ از درس‌خوانده‌ها، تحت‌ تأثیر آشنایی‌ خود با خط‌ و نوشته‌، چنین‌ می‌پندارند که‌ صداهای‌ زبان‌ در هنگام‌ گفتار، همانند حروف‌ در نوشتار، یکی‌ پس‌ از دیگری‌ ادا می‌شوند، بدین‌ معنی‌ که‌ اندام‌های‌ گویایی‌ نخست‌ صدایی‌ را تلفظ‌ می‌کنند و پس‌ از فراغت‌ یافتن‌ از آن‌ به‌ تلفظ‌ صداهای‌ دوم‌ و سوم‌ می‌پردازند و این‌ کار را تا پایان‌ زنجیرة‌ گفتار ادامه‌ می‌دهند، به‌ طوری‌ که‌ هر صدا منفک‌ و مجزا از صدای‌ قبل‌ و بعد آن‌ قابل‌ تمیز و تشخیص‌ است‌. این‌ تصور به‌ کلی‌ نادرست‌ است‌: صداهای‌ زبان‌ در زنجیرة‌ گفتار نه‌ چنین‌ تلفظ‌ می‌شوند و نه‌ دستگاه‌ شنوایی‌ ما آنها را به‌ این‌ صورت‌ ادراک‌ می‌کند.

اندام‌های‌ گفتار را به‌ رقاص‌ ماهری‌ تشبیه‌ کرده‌اند که‌ در همان‌ حال‌ که‌ مشغول‌ انجام‌ دادن‌ حرکتی‌ است‌ خود را برای‌ حرکت‌ بعدی‌ آماده‌ می‌کند و از این‌رو حرکات‌ او موزون‌ و هم‌آهنگ‌ جلوه‌ می‌کند. وقتی‌ به‌ تلفظ‌ صداهای‌ زبان‌ توجه‌ می‌کنیم‌ می‌بینیم‌ که‌ این‌ تشبیه‌ چندان‌ بی‌مورد نیست‌. فرض‌ کنید که‌ ما می‌خواهیم‌ واژة‌ تک‌هجایی‌ «بید» را تلفظ‌ کنیم‌. اولین‌ صدای‌ این‌ کلمه‌ /b/، دومین‌ صدای‌ آن‌ /i/ و صدای‌ پایانی‌ آن‌ نیز /d/ است‌. برای‌ تلفظ‌ /b/ باید دو لب‌ نخست‌ بسته‌ و سپس‌ باز شوند و برای‌ تلفظ‌ /i/ نیز زبان‌ باید در وضع‌ خاصی‌ قرار گیرد. آنچه‌ مسلم‌ است‌ ما این‌ دو عمل‌ را مجزا و منفک‌ از یکدیگر انجام‌ نمی‌دهیم‌، بلکه‌ آنها را تواماً انجام‌ می‌دهیم‌، بدین‌ معنی‌ که‌ در همان‌ هنگام‌ که‌ لب‌ها را برای‌ تلفظ‌ /b/ می‌بندیم‌ زبان‌ را نیز در وضعی‌ قرار می‌دهیم‌ که‌ تلفظ‌ /i/ ایجاب‌ می‌کند. نتیجة‌ این‌ کار این‌ است‌ که‌ تقریباً همزمان‌ با گشوده‌ شدن‌ لب‌ها و رها شدن‌ هوایی‌ که‌ در پشت‌ آنها فشرده‌ شده‌ تلفظ‌ /i/ نیز آغاز شده‌ است‌. این‌ بدان‌ معنا است‌ که‌ اساساً مرزی‌ وجود ندارد که‌ بتوان‌ گفت‌ در اینجا تلفظ‌ /b/ پایان‌ می‌یابد و تلفظ‌ /i/ آغاز می‌شود. حاصل‌ این‌ درهمتنیدگی‌ این‌ است‌ که‌ مقداری‌ از اطلاعات‌ آکوستیکی‌ که‌ برای‌ شناسایی‌ /b/ لازم‌ است‌ در درون /i/ و مقداری‌ از اطلاعات‌ آکوستیکی‌ که‌ برای‌ شناسایی /i/ لازم‌ است‌ در درون /b/ قرار می‌گیرد، یا به‌ زبان‌ غیرفنی‌، رد پای‌ /b/ در /i/ و رد پای‌ /i/ در /b/ نمایان‌ می‌گردد. همین‌ وضع‌ نیز در مورد صدای‌ پایانی‌ کلمه‌ یعنی‌ /d/ پیش‌ می‌آید. در اینجا نیز پیش‌ از آنکه‌ تلفظ /i/ پایان‌ یابد، محفظة‌ دهان‌ برای‌ تلفظ‌ /d/ آماده‌ می‌شود، به‌طوری‌که‌ بخشی‌ از تلفظ‌ /d/ با /i/ همزمان‌ می‌گردد. در اینجا نیز مرز مشخصی‌ وجود ندارد که‌ بتوان‌ گفت‌ تلفظ‌ /i/ در اینجا پایان‌ یافته‌ و تلفظ‌ /d/ آغاز شده‌ است‌. در واقع‌ کلمة‌ «بید» در تلفظ‌، از یک‌ زنجیرة‌ آوایی‌ به‌ هم‌ تنیده‌ و تجزیه‌ناپذیر تشکیل‌ شده‌ است‌. تجزیه‌ و تحلیل‌ آزمایشگاهی‌ گفتار نیز مشاهدات‌ بالا را تأیید می‌کند. طیف‌نگاشت‌های‌ صوتی‌ نشان‌ می‌دهند که‌ ویژگی‌های‌ آکوستیکی‌ صداهای‌ زبان‌ در زنجیرة‌ گفتار در قلمرو یکدیگر وارد می‌شوند و روی‌ هم‌ به‌ شدت‌ تأثیر می‌گذارند.

بد نیست‌ به‌ مثالی‌ از نوع‌ دیگر توجه‌ کنیم‌. این‌ بار تلفظ‌ دو کلمة‌ تک‌هجایی‌ «کی‌» /ki/ و «کو» /ku/ را مقایسه‌ می‌کنیم‌. در سطح‌ واجشناسی‌ می‌توان‌ گفت‌ که‌ این‌ دو کلمه‌ هر دو با صامت‌ /k/ آغاز می‌شوند و با دو مصوت‌ متفاوت‌ پایان‌ می‌یابند. واج‌نویسی‌ آنها نیز به‌ همین‌ صورت‌ خواهد بود. ولی‌ هنگام‌ تلفظ‌، کیفیّت‌ آکوستیکی‌ /k/ در آغاز «کی‌» با کیفیّت‌ آکوستیکی /k/ در آغاز «کو» تقریباً همان‌ اندازه‌ متفاوت‌ است‌ که‌ کیفیّت‌ آکوستیکی‌ مصوت‌هایی‌ که‌ به‌ دنبال‌ آنها می‌آیند. برای‌ تلفظ /k/ در هر دو مورد عقب‌ زبان‌ بالا می‌آید و به‌ نرم‌کام‌ می‌چسبد و راه‌ خروج‌ هوا را سد می‌کند و در نتیجه‌، هوا در پشت‌ این‌ مانع‌ انباشته‌ می‌شود. ولی‌ در مورد «کی‌» همزمان‌ با متراکم‌ شدن‌ هوا در پشت‌ این‌ مانع‌، حفرة‌ دهان‌ خود را برای‌ تلفظ‌ /i/ آماده‌ می‌کند، در حالی‌ که‌ در مورد «کو» حفرة‌ دهان‌ برای‌ تلفظ‌ /u/ آماده‌ می‌شود. در نتیجه‌، هوایی‌ که‌ در پشت‌ زبان‌ متراکم‌ شده‌ در دو محفظة‌ تشدید که‌ شکل‌ متفاوتی‌ دارند تخلیه‌ می‌شود و همین‌ باعث‌ می‌شود که‌ صدای‌ انفجار خفیفی‌ که‌ از رها شدن‌ هوا ایجاد می‌شود هر بار کیفیّت‌ آکوستیکی‌ متفاوتی‌ پیدا کند و دو صدای‌ متفاوت‌ با دو /k/ متفاوت‌ تولید شود. پاسخ‌ این‌ سؤال‌ که‌ پس‌ چرا ما فقط‌ یک‌ صدای /k/ می‌شنویم‌ دیگر به‌ تولید گفتار مربوط‌ نمی‌شود بلکه‌ به‌ ادراک‌ گفتار مربوط‌ می‌شود. در این‌ مورد، پاسخ‌ سؤال‌ این‌ است‌: چون‌ تفاوت‌ آکوستیکی‌ میان‌ دو صدای‌ /k/ در نظام‌ آوایی‌ (یا فونولوژی‌) زبان‌ ما نقشی‌ به‌ عهده‌ ندارد دستگاه‌ شنوایی‌ ما نسبت‌ به‌ تفاوت‌ آنها بی‌اعتنا است‌ و در نتیجه‌، آن‌ دو صدای‌ متفاوت‌ یک‌ صدا ادراک‌ می‌شوند.

شواهد زیادی‌ در دست‌ است‌ که‌ نشان‌ می‌دهند دستگاه‌های‌ گفتار و شنیدار ما با یکدیگر سخت‌ هم‌آهنگ‌ شده‌اند. از مطالعات‌ آزمایشگاهی‌ که‌ روی‌ ادراک‌ گفتار صورت‌ گرفته‌ چنین‌ برمی‌آید که‌ دستگاه‌ شنوایی‌ ما نسبت‌ به‌ رد پایی‌ که‌ صداهای‌ زبان‌ روی‌ یکدیگر می‌گذارند بسیار حساس‌ است‌، تا جایی‌ که‌ به‌ کمک‌ همین‌ تأثیرات‌ آکوستیکی‌ جانبی‌ است‌ که‌ می‌تواند صداهای‌ زبان‌ را در زنجیرة‌ گفتار از هم‌ باز شناسد. بنابراین‌، درهم‌تنیدگی‌ صداهای‌ گفتار نه‌ تنها مانعی‌ در راه‌ شناسایی‌ و ادراک‌ صداها نیست‌، بلکه‌ خود کمکی‌ در این‌ راه‌ است‌. مثلاً از شواهد آزمایشگاهی‌ چنین‌ برمی‌آید که‌ صامت‌های‌ انسدادی‌ و واکبر/g,d,b/ تنها از روی‌ تأثیری‌ که‌ روی‌ مصوت‌ بعد از خود می‌گذارند شناخته‌ و ادراک‌ می‌شوند. اگر سه‌ هجای‌ gâ, dâ, bâ را در نظر بگیریم‌ مشاهده‌ می‌شود که‌ وجود /g, d, b/ در آغاز هجا، روی‌ فورمان‌ دوم‌ مصوت‌ /â/ اثر می‌گذارد، به‌ این‌ نحو که‌ آغاز فورمان‌ دوم‌ پس‌ از /b/ رو به‌ بالا خیز برمی‌دارد، پس‌ از /d/ تغییر محسوسی‌ نمی‌کند یا خیزشی‌ اندک‌ نشان‌ می‌دهد، ولی‌ پس‌ از /g/ به‌ شدت‌ فرو می‌افتد. با دستکاری‌های‌ آزمایشگاهی‌ می‌توان‌ این‌ سه‌ آغاز متفاوت‌ را برید و جداگانه‌ به‌ آنها گوش‌ داد. در این‌ صورت‌ دیگر صدای /g, d, b/ شنیده‌ نمی‌شود، بلکه‌ صداهای‌ غیرزبانی‌ شنیده‌ می‌شود که‌ زیر و بمی‌ آنها نسبت‌ به‌ هم‌ تغییر می‌کند. ولی‌ پس‌ از اینکه‌ این‌ قطعاتِ بریده‌ شده‌ در جای‌ خود قرار گیرند دوباره‌ هجاهای gâ, dâ, bâ شنیده‌ می‌شوند. شواهدی‌ از این‌ دست‌، دانشمندان‌ گفتارشناس‌ را به‌ سوی‌ این‌ نظریه‌ کشانده‌ است‌ که‌ کوچکترین‌ واحد ادراک‌ گفتار هجا است‌ و نه‌ صداهای‌ منفرد.

دلایل‌ و شواهد دیگری‌ نیز در جهت‌ تأیید این‌ نظریه‌ ارائه‌ شده‌اند. مثلاً محاسبه‌ شده‌ که‌ در گفتار عادی‌، ما در ثانیه‌ ۲۵ تا ۳۰ صدا را دریافت‌ و ادراک‌ می‌کنیم‌. حال‌ اگر این‌ تعداد صدا بدون‌ هیچگونه‌ همپوشانی‌ زنجیروار به‌ دنبال‌ هم‌ قرار گیرند و به‌ گوش‌ ما رسانده‌ شوند، دیگر گوش‌ ما گفتار نخواهد شنید، بلکه‌ یک‌ صدای‌ واحد «ویز» مانند خواهد شنید، زیرا دستگاه‌ شنوایی‌ ما توانایی‌ این‌ را ندارد که‌ مرز این‌ تعداد صدا در ثانیه‌ را تشخیص‌ دهد و در نتیجه‌ ما آنها را یکپارچه‌ و به‌ صورت‌ صدای‌ واحدی‌ می‌شنویم‌، همانگونه‌ که‌ دستگاه‌ بینایی‌ ما هم‌ توانایی‌ این‌ را ندارد که‌ بین‌ این‌ تعداد تصویر متفاوت‌ در ثانیه‌ تمایز قایل‌ شود و در نتیجه‌ آنها را به‌ صورت‌ یک‌ تصویر پیوسته‌ ادراک‌ می‌کند. اگر ما می‌توانیم‌ ۲۵ تا ۳۰ صدای‌ گفتار را در ثانیه‌ ادراک‌ کنیم‌ و بین‌ آنها تمایز بگذاریم‌ به‌ این‌ دلیل‌ است‌ که‌ صداهای‌ گفتار همپوشانی‌ دارند و به‌ صورت‌ بسته‌هایی‌ که‌ هر یک‌ یک‌ هجا هستند به‌ گوش‌ عرضه‌ می‌شوند. بنابراین‌، معیار اندازه‌گیری‌ قدرت‌ پردازش‌ دستگاه‌ شنوایی‌ ما تعداد صداهایی‌ نیست‌ که‌ در مدتی‌ معین‌، مثلاً یک‌ ثانیه‌، دریافت‌ می‌شوند بلکه‌ تعداد هجاهایی‌ است‌ که‌ در این‌ مدت‌ می‌توانند ادراک‌ شوند. علاوه‌ بر شواهد آزمایشگاهی‌، شواهد رفتاری‌ نیز می‌توان‌ در تأیید این‌ نظریه‌ ارائه‌ کرد. دیده‌ می‌شود که‌ کودکان‌ شش‌ ساله‌ در کلاس‌ اول‌ دبستان‌ به‌ سختی‌ می‌توانند بفهمند که‌ یک‌ کلمه‌ از چند صدا ترکیب‌ شده‌ است‌، در حالیکه‌ با اندکی‌ راهنمایی‌ می‌توانند کلمه‌ را به‌ هجاهای‌ سازندة‌ آن‌ بخش‌ کنند. همچنین‌ افراد بی‌سواد نمی‌توانند بگویند یک‌ کلمه‌ از چند صدا تشکیل‌ شده‌ است‌، ولی‌ با اندکی‌ آموزش‌ می‌توانند از عهدة‌ تقطیعِ هجایی‌ کلمات‌ برآیند، بدون‌ اینکه‌ بتوانند عمل‌ خود را توجیه‌ کنند. این‌ شواهد همه‌ بر این‌ دلالت‌ دارند که‌ دستگاه‌ شنوایی‌ ما طوری‌ ساخته‌ شده‌ که‌ می‌تواند هجاهای‌ زبان‌ را به‌ آسانی‌ ادراک‌ کند، در حالی‌ که‌ ادراک‌ صداهای‌ مجزای‌ زبان‌ برای‌ آن‌ دشوار و گاهی‌ غیرممکن‌ است‌.

پژوهش‌های‌ اخیر دربارة‌ ادراک‌ گفتار ما را از این‌ نیز فراتر می‌برند. گفته‌ می‌شود که‌ دستگاه‌ شنوایی‌ انسان‌ طوری‌ تکامل‌ یافته‌ که‌ نه‌تنها صداهای‌ گفتار را از صداهای‌ دیگر تشخیص‌ می‌دهد، بلکه‌ آنها را در قسمت‌های‌ مختلف‌ مغز پردازش‌ می‌کند. پیش‌ از آنکه‌ به‌ ذکر آزمایش‌ جالبی‌ که‌ در جهت‌ تأیید این‌ نظریه‌ صورت‌ گرفته‌ بپردازیم‌ باید دو نکته‌ را یادآور شویم‌. یکی‌ اینکه‌ امروز بین‌ اهل‌ فن‌ قبول‌ عام‌ یافته‌ که‌ مراکز تولید و ادراک‌ گفتار در اکثریت‌ قریب‌ به‌ اتفاق‌ مردم‌ در نیمکرة‌ چپ‌ مغز قرار گرفته‌ است‌. دیگر اینکه‌ رشته‌های‌ عصب‌ شنوایی‌ از هر گوش‌ به‌ هر دو نیمکرة‌ مغز می‌روند، ولی‌ تعداد رشته‌های‌ عصبی‌ که‌ از گوش‌ راست‌ به‌ نیمکرة‌ چپ‌ می‌روند بسیار بیشتر از رشته‌های‌ عصبی‌ است‌ که‌ از گوش‌ راست‌ به‌ نیمکرة‌ راست‌ می‌روند؛ همچنین‌ تعداد رشته‌های‌ عصبی‌ که‌ از گوش‌ چپ‌ به‌ نیمکرة‌ راست‌ می‌روند بسیار بیشتر از رشته‌های‌ عصبی‌ است‌ که‌ از گوش‌ چپ‌ به‌ نیمکرة‌ چپ‌ می‌روند. در آزمایش‌ مزبور، زوج‌هایی‌ از هجاهای‌ بی‌معنا و متفاوت‌، مانند ta و ga ، را انتخاب‌ کردند و هر یک‌ از دو هجای‌ یک‌ جفت‌ را به‌طور همزمان‌ به‌ کمک‌ دستگاه‌ مخصوص‌ در یکی‌ از دو گوش‌ وارد کردند. نتیجة‌ آزمایش‌ نشان‌ داد که‌ هجاهایی‌ که‌ درست‌ تشخیص‌ داده‌ شدند بیشتر آنهایی‌ بودند که‌ به‌ گوش‌ راست‌ وارد شده‌ بودند. تا اینجا نتیجة‌ آزمایش‌ همان‌ چیزی‌ بود که‌ از پیش‌ انتظار می‌رفت‌، زیرا تعداد رشته‌های‌ عصبی‌ که‌ از گوش‌ راست‌ به‌ نیمکرة‌ چپ‌، یعنی‌ مرکز تکلّم‌، می‌روند بسیار بیشتر است‌. ولی‌ وقتی‌ به‌ جای‌ هجاهای‌ گفتار، ملودی‌های‌ ساده‌ یا نت‌های‌ موسیقایی‌ انتخاب‌ شد و به‌ همان‌ نحو همزمان‌ در دو گوش‌ نواخته‌ شد، نتیجه‌ برعکس‌ بود. این‌ بار نتهایی‌ که‌ درست‌ تشخیص‌ داده‌ شدند بیشتر آنهایی‌ بودند که‌ در گوش‌ چپ‌ نواخته‌ شده‌ بودند. این‌ نتیجه‌، نشان‌ داد که‌ صداهای‌ موسیقایی‌، برخلاف‌ صداهای‌ گفتار، کلاً یا عمدتاً در نیمکرة‌ راست‌ پردازش‌ می‌شوند. از کل‌ این‌ آزمایش‌ می‌توان‌ نتیجه‌ گرفت‌ که‌ دستگاه‌ شنوایی‌ انسان‌ بین‌ صداهای‌ گفتار و دیگر صداها تمایز قایل‌ می‌شود و آنها را در مراکز متفاوتی‌ در مغز پردازش‌ می‌کند.

شواهد دیگری‌ نیز عرضه‌ شده‌اند که‌ نشان‌ می‌دهند صداهای‌ گفتار صداهای‌ خاصی‌ هستند و دستگاه‌ شنوایی‌ ما برای‌ ادراک‌ یا پردازش‌ این‌ صداها از استراتژی‌ خاصی‌ استفاده‌ می‌کند. این‌ موقعی‌ به‌ خوبی‌ آشکار می‌شود که‌ سعی‌ شود صداهای‌ غیرگفتاری‌ را جانشین‌ صداهای‌ گفتار کنند. یکی‌ از این‌ موارد، تلاش‌ برای‌ ساختن‌ دستگاهی‌ است‌ که‌ بتواند حروف‌ چاپی‌ را به‌ صدا، ولی‌ نه‌ صداهای‌ گفتار، تبدیل‌ کند تا نابینایان‌ به‌ جای‌ دیدنِ نوشته‌ صدا بشنوند. بیش‌ از هفتاد سال‌ از تاریخ‌ اولین‌ تلاش‌ برای‌ ساختن‌ چنین‌ دستگاهی‌ می‌گذرد، و در این‌ مدت‌ الفباهای‌ صوتی‌ متفاوتی‌ مورد آزمایش‌ قرار گرفته‌اند. ولی‌ در عمل‌ معلوم‌ شده‌ که‌ هیچکدام‌ از اینها به‌ کارایی‌ الفبای‌ صوتی‌ مورس‌ نیستند. الفبای‌ مورس‌، که‌ در مخابره‌ تلگرافی‌ به‌ کار می‌رود، صوتی‌ است‌، ولی‌ صداهای‌ آن‌ صداهای‌ گفتار نیستند. به‌ همین‌ دلیل‌ مشاهده‌ می‌شود که‌ دستگاه‌ شنوایی‌ انسان‌ پس‌ از سال‌ها آموزش‌ و تمرین‌ می‌تواند صداهای‌ مورس‌ را ادراک‌ کند، آن‌ هم‌ با سرعتی‌ که‌ به‌ سختی‌ به‌ یک‌دهم‌ سرعت‌ ادراک‌ گفتار می‌رسد، در حالیکه‌ صداهای‌ زبان‌ بدون‌ هیچگونه‌ آموزش‌ و تمرینی‌ به‌ سهولت‌ ادراک‌ می‌شوند.

مطالعاتی‌ از اینگونه‌ بعضی‌ از دانشمندان‌ گفتارشناس‌ را بر آن‌ داشته‌ است‌ که‌ ادعا کنند دستگاه‌ شنوایی‌ ما پردازشگر خاصی‌ برای‌ صداهای‌ گفتار دارد. این‌ پردازشگر می‌تواند صداهای‌ گفتار را حتی‌ در شرایط‌ آکوستیکی‌ نامساعد تشخیص‌ دهد و ارتباط‌ گفتاری‌ را امکان‌پذیر سازد. مطالعات‌ آزمایشگاهی‌ نشان‌ داده‌ است‌ که‌ اگر انرژی‌ موجود در صداهای‌ مخل‌ به‌ اندازة‌ انرژی‌ موجود در گفتار باشد مکالمه‌ به‌ راحتی‌ صورت‌ می‌گیرد. اگر انرژی‌ موجود در صداهای‌ مخل‌ بر انرژی‌ موجود در گفتار بیشی‌ گیرد باز هم‌ گفتار قابل‌ درک‌ است‌؛ تنها موقعی‌ ادراک‌ گفتار با اشکالِ جدی‌ مواجه‌ می‌شود که‌ نسبت‌ انرژی‌ صداهای‌ مخل‌ به‌ انرژی‌ گفتار به‌ مرز چهار به‌ یک‌ برسد. دستکاری‌های‌ آزمایشگاهی‌ در خصوصیات‌ آکوستیکی‌ گفتار ممکن‌ است‌ طبیعی‌ بودنِ گفتار را خدشه‌دار کنند یا به‌کلی‌ از بین‌ ببرند، ولی‌ الزاماً به‌ ادراک‌پذیری‌ آن‌ لطمه‌ای‌ وارد نمی‌کنند. در واقع‌ یکی‌ از کشف‌های‌ مهم‌ این‌ بوده‌ است‌ که‌ طبیعی‌ بودنِ گفتار و ادراک‌پذیری‌ آن‌ از یک‌ مقوله‌ نیستند. خصوصیات‌ آکوستیکی‌ که‌ به‌ گفتار حالت‌ طبیعی‌ می‌دهند متعدد و متنوع‌اند، ولی‌ همة‌ آنها برای‌ ادراکِ گفتار ضروری‌ نیستند. مثلاً طیف‌نگاشت‌ صوتی‌ نشان‌ می‌دهد که‌ مصوت‌ها، سه‌ و گاهی‌ چهار فورمان‌ دارند، ولی‌ فقط‌ فورمان‌ اول‌ و دوم‌ برای‌ ایجاد تمایز و ادراک‌ مصوت‌ کافی‌ است‌. مصوتی‌ که‌ دارای‌ سه‌ فورمان‌ باشد طبیعی‌تر به‌ گوش‌ می‌رسد، ولی‌ حذف‌ فورمان‌ سوم‌ تأثیری‌ در ادراک‌ مصوت‌ ندارد. بنابراین‌، تا زمانی‌ که‌ مؤلفه‌های‌ آکوستیکی‌ اساسی‌ در گفتار محفوظ‌ بمانند، گفتار قابل‌ درک‌ خواهد بود، و این‌ در حالی‌ است‌ که‌ به‌ علت‌ حذف‌ مؤلفه‌های‌ جانبی‌، طنین‌ آن‌ ممکن‌ است‌ کاملاً غیرطبیعی‌ شده‌ باشد. همچنین‌ مشاهده‌ شده‌ که‌ قطع‌ و وصل‌های‌ سریع‌ در زنجیرة‌ گفتار و نیز پژواک‌، گرچه‌ آزارنده‌ هستند، ولی‌ در ادراک‌ گفتار تأثیر چندانی‌ ندارند. دوبرابرکردن‌ یا نصف‌کردن‌ سرعت‌ گفتار نیز در ادراک‌ آن‌ بی‌تأثیر است‌. شدت‌ یا بلندی‌ گفتار فقط‌ تا جایی‌ ضروری‌ است‌ که‌ گفتار را قابل‌ شنیدن‌ سازد؛ از این‌ حد که‌ بگذرد، افزایش‌ شدت‌ یا بلندی‌ گفتار در ادراک‌ آن‌ بی‌تأثیر خواهد بود.

یکی‌ از زمینه‌هایی‌ که‌ به‌ فهم‌ ما از ادراک‌ گفتار کمک‌ کرده‌ است‌ تلاش‌ برای‌ مجهزکردن‌ کامپیوتر به‌ نرم‌افزاری‌ است‌ که‌ بتواند گفتار انسان‌ را درک‌ کند. در کامپیوترهای‌ معمولی‌ که‌ فعلاً در دسترس‌ هستند و مورد استفاده‌ قرار می‌گیرند، تماس‌ انسان‌ با کامپیوتر از راه‌ صفحه‌ کلید است‌. این‌ بدان‌ معنا است‌ که‌ درون‌داد از طریق‌ نوشتار یا علائم‌ نوشتاری‌ به‌ کامپیوتر داده‌ می‌شود و برون‌داد یا پاسخِ کامپیوتر نیز از طریق‌ نوشتار یا علائم‌ نوشتاری‌ از کامپیوتر گرفته‌ می‌شود. هدف‌ ایده‌آل‌ این‌ است‌ که‌ صفحه‌ کلید از میان‌ برداشته‌ شود و انسان‌ بتواند ارتباط‌ گفتاری‌ مستقیم‌ با کامپیوتر برقرار کند. این‌ ارتباطِ گفتاری‌ را نباید با تماس‌ تلفنی‌ اشتباه‌ کرد. در تماس‌ تلفنی‌ حداقل‌ دو انسان‌ شرکت‌ دارند و خط‌ تلفن‌ و دستگاه‌های‌ وابسته‌ به‌ آن‌ مجرای‌ انتقال‌ پیام‌ هستند، ولی‌ در ارتباط‌ گفتاری‌ مستقیم‌ با کامپیوتر، هدف‌ این‌ است‌ که‌ کامپیوتر نقش‌ یکی‌ از آن‌ دو انسان‌ را به‌ عهده‌ بگیرد. ارتباط‌ گفتاری‌ مستقیم‌ با کامپیوتر بدین‌ معنا است‌ که‌ کاربر، به‌ جای‌ استفاده‌ از صفحه‌ کلید، مستقیماً در میکروفنی‌ که‌ به‌ کامپیوتری‌ متصل‌ است‌ صحبت‌ کند و پاسخ‌ خود را نیز بی‌واسطه‌ از بلندگوی‌ کامپیوتر بشنود. البته‌ این‌ مانع‌ از آن‌ نیست‌ که‌ یکی‌ از دو قطب‌، گفتاری‌ و دیگری‌ نوشتاری‌ باشد. مثلاً کاربر در میکروفن‌ کامپیوتر صحبت‌ کند و از کامپیوتر بخواهد گفته‌های‌ او را تایپ‌ کند، که‌ در این‌ صورت‌ درون‌داد گفتاری‌ و برون‌داد نوشتاری‌ است‌؛ یا برعکس‌ متنی‌ نوشته‌ به‌ کامپیوتر داده‌ شود و از آن‌ خواسته‌ شود که‌ متن‌ را بخواند، که‌ در این‌ صورت‌ درون‌داد نوشتاری‌ و برون‌داد گفتاری‌ است‌. به‌ هر حال‌، ارتباط‌ گفتاری‌ با کامپیوتر پای‌ دو فرایند بسیار پیچیده‌ را به‌ میان‌ می‌کشد: یکی‌ شناخت‌ گفتار (speech recognition) و دیگری‌ ترکیب‌ گفتار (speech synthesis). شناخت‌ گفتار مستلزم‌ این‌ است‌ که‌ کامپیوتر به‌ نرم‌افزاری‌ مجهز باشد که‌ به‌ آن‌ امکان‌ دهد عناصر سازنده‌ گفتار را شناسایی‌ کند و پیام‌ را از آنها بیرون‌ بکشد، در حالیکه‌ ترکیب‌ گفتار مستلزم‌ آن‌ است‌ که‌ نرم‌افزار طوری‌ ساخته‌ شده‌ باشد که‌ کامپیوتر بتواند مؤلفه‌های‌ آکوستیکی‌ لازم‌ را با هم‌ ترکیب‌ کند و پاسخ‌ خود را به‌ صورت‌ گفتار مصنوعی‌ ارائه‌ دهد. در اینجا مجال‌ آن‌ نیست‌ که‌ به‌ جنبه‌های‌ فنّی‌ این‌ فرایندها پرداخته‌ شود، ناچار فقط‌ به‌ نکاتی‌ اشاره‌ خواهد شد که‌ بتوانند پرتو تازه‌ای‌ روی‌ بحث‌ اصلی‌ ما، یعنی‌ ادراک‌ گفتار به‌وسیلة‌ انسان‌، بیندازد.

از این‌ دو فرایند، ترکیب‌ گفتار ساده‌تر از شناخت‌ گفتار از آب‌ درآمده‌ است‌، به‌طوری‌ که‌ امروز کامپیوتر می‌تواند به‌ صورت‌ برون‌داد نوعی‌ گفتار مصنوعی‌ عرضه‌ کند که‌ به‌ گفتار طبیعی‌ بسیار نزدیک‌ است‌ و به‌ همین‌ دلیل‌ از لحاظ‌ تجاری‌ مورد قبول‌ قرار گرفته‌ و کاربردهایی‌ پیدا کرده‌ است‌، ولی‌ در شناخت‌ گفتار، که‌ قرینة‌ ادراک‌ گفتار در انسان‌ است‌، پیشرفت‌ چندانی‌ حاصل‌ نشده‌ است‌. یکی‌ از علل‌ مهم‌ این‌ ناکامی‌ این‌ است‌ که‌ زنجیرة‌ گفتار را نمی‌توان‌ به‌ راحتی‌ به‌ صداهای‌ ترکیب‌کنندة‌ آن‌ تقطیع‌ کرد و واج‌های‌ آن‌ را شناسایی‌ نمود، زیرا همانگونه‌ که‌ قبلاً گفته‌ شد، در هنگام‌ تلفظ‌، صداهای‌ زبان‌ درهم‌ تنیده‌ می‌شوند به‌طوری‌ که‌ هر قطعه‌ کوچکی‌ از زنجیرة‌ گفتار، حاوی‌ اطلاعات‌ آکوستیکی‌ دربارة‌ دو و گاهی‌ سه‌ واج‌ است‌ که‌ درهم‌ فرو رفته‌ و با هم‌ همپوشانی‌ یافته‌اند. علاوه‌ بر این‌، تغییرات‌ واج‌ها در بافت‌های‌ آوایی‌ متفاوت‌، هویت‌ آنها را دستخوش‌ نوسان‌ می‌کند، و همین‌ امر، که‌ برای‌ دستگاه‌ شنوایی‌ انسان‌ بسیار بی‌اهمیت‌ و غیرقابل‌ اعتنا است‌، یکی‌ از موانع‌ بزرگ‌ در راه‌ شناخت‌ گفتار به‌وسیلة‌ کامپیوتر است‌. نخستین‌ سیستمی‌ که‌ براساس‌ تقطیع‌ واجی‌ زنجیرة‌ گفتار برای‌ کامپیوتر طراحی‌ شده‌ در دهة‌ ۱۹۵۰ به‌وجود آمد، ولی‌ ناتوانی‌ این‌ سیستم‌ به‌ زودی‌ آشکار شد و به‌ دست‌ فراموشی‌ سپرده‌ شد. از آن‌ زمان‌ به‌ بعد، این‌ رویکرد نسبت‌ به‌ شناخت‌ گفتار به‌کلی‌ کنار گذارده‌ شده‌ است‌.

امروز سیستم‌هایی‌ که‌ برای‌ شناسایی‌ گفتار طراحی‌ می‌شوند، از الگو (template) استفاده‌ می‌کنند، بدین‌ معنی‌ که‌ ویژگی‌های‌ اکوستیکی‌ کل‌ کلمه‌، و نه‌ واج‌های‌ سازنده‌ آن‌، را به‌ زبان‌ ریاضی‌ در حافظة‌ کامپیوتر نگهداری‌ می‌کنند. بعضی‌ از سیستم‌ها نیز هجا را به‌ عنوان‌ الگو انتخاب‌ کرده‌اند. غرض‌ ما از طرح‌ این‌ مسأله‌ تشریح‌ چگونگی‌ شناخت‌ گفتار نیست‌، بلکه‌ می‌خواهیم‌ نتیجه‌ای‌ بگیریم‌ که‌ گفته‌های‌ قبلی‌ در این‌ مقاله‌ را تأیید می‌کند: مهندسان‌ کامپیوتر نیز به‌ این‌ نتیجه‌ رسیده‌اند که‌ واج‌ها یا صداهای‌ منفرد گفتار، واحد ادراک‌ نیستند، بلکه‌ کوچکترین‌ واحد ادراکِ گفتار احتمالاً هجا است‌.

اکنون‌ که‌ سخن‌ به‌ اینجا رسید بد نیست‌ مطلب‌ دیگری‌ را نیز یادآور شویم‌. امروز در میان‌ زبانشناسان‌ و روانشناسان‌ قبول‌ عام‌ یافته‌ که‌ گفتار صورت‌ طبیعیِ ارتباط‌ در انسان‌ است‌، در حالی‌ که‌ نوشتار امری‌ ثانوی‌ و عرضی‌ است‌. به‌ همین‌ دلیل‌، تولید و ادراک‌ گفتار برای‌ انسان‌ بسیار ساده‌ است‌ و فراگیری‌ آن‌ نیازی‌ به‌ آموزش‌ ندارد. اما خط‌ و نگارش‌ را باید یاد گرفت‌ و یادگیری‌ آن‌ احتیاج‌ به‌ سال‌ها ممارست‌ و تمرین‌ دارد. اما وقتی‌ به‌ نحوة‌ کار کامپیوتر نگاه‌ می‌کنیم‌ وضع‌ را کاملاً برعکس‌ می‌بینیم‌: شناخت‌ نوشتار و کار کردن‌ با نوشتار برای‌ کامپیوتر بسیار آسان‌تر از گفتار است‌. شاید ذکر مثالی‌ این‌ موضوع‌ را روشن‌تر کند. نگهداری‌ صورت‌ نوشتاری‌ کلمه‌ای‌ که‌ از پنج‌ حرف‌ ترکیب‌ شده‌ است‌، مثلاً کلمة‌ «میزان‌»، پنج‌ بایت‌ یا چهل‌ بیت‌ حافظة‌ کامپیوتر را اشغال‌ می‌کند، در حالیکه‌ نگهداری‌ الگوی‌ آوایی‌ این‌ کلمه‌ با کیفیّت‌ متوسط‌ به‌ بیش‌ از ۰۰۰/۲۰ بیت‌ حافظه‌ نیاز دارد، و اگر قرار باشد با کیفیّت‌ آکوستیکی‌ عالی‌ نگهداری‌ شود به‌ بیش‌ از ۰۰۰/۴۰ بیت‌ حافظه‌ نیاز خواهد داشت‌. تفاوت‌ بین‌ ۴۰ و ۰۰۰/۴۰ بیت‌ رقمی‌ نیست‌ که‌ به‌ سادگی‌ قابل‌ اغماض‌ باشد. البته‌ برای‌ صرفه‌جویی‌ در حافظه‌ باید این‌ انبوه‌ اطلاعات‌ را به‌ نحوی‌ فشرده‌ کنند. این‌ کار با روشی‌ که‌ ال‌پی‌سی‌ (LPC= linear predictive coding) نامیده‌ می‌شود انجام‌ می‌گیرد.

خلاصه‌ بحث‌

همانگونه‌ که‌ اندام‌های‌ گویایی‌ و، هماهنگ‌ با آنها، دستگاه‌ عصبی‌ ما برای‌ تولید صداهای‌ زبان‌ تکامل‌ یافته‌اند، همانگونه‌ نیز دستگاه‌ شنوایی‌ ما برای‌ دریافت‌ و تشخیص‌ صداهای‌ زبان‌ تکامل‌ یافته‌ و مجهز شده‌ است‌. شواهد موجود بعضی‌ از دانشمندان‌ را به‌ این‌ نظریه‌ سوق‌ داده‌ است‌ که‌ دستگاه‌ شنوایی‌ ما صداهای‌ زبان‌ را به‌ نحوی‌ متفاوت‌ از صداهای‌ دیگر پردازش‌ می‌کند؛ یا به‌ بیان‌ دقیق‌تر، بخشی‌ از مغز انسان‌ بالغ‌ برای‌ پردازش‌ صداهای‌ زبان‌ تخصصی‌ شده‌ است‌. هنگام‌ تلفظ‌، یا تولید گفتار، صداهای‌ زبان‌ منفک‌ و مجزا از یکدیگر تلفظ‌ نمی‌شوند، بلکه در زنجیرة‌ گفتار روی‌ خواص‌ آکوستیکی‌ یکدیگر اثر می‌گذارند. شواهدی‌ ارائه‌ شد که‌ بر این‌ دلالت‌ داشت‌ که‌ دستگاه‌ شنوایی‌ ما طوری‌ سازمان‌ یافته‌ است‌ که‌ به‌ این‌ ردّ صوتی‌ که‌ صداهای‌ زبان‌ بر یکدیگر می‌گذارند بسیار حساس‌ است‌ و همین‌ حساسیت‌ باعث‌ سهولت‌ و سرعت‌ در پردازش‌ زنجیرة‌ گفتار می‌گردد، در حالی‌ که‌ همین‌ ویژگی‌، یعنی‌ درهم‌ تنیده‌ شدن‌ صداها در هنگام‌ تولید، یکی‌ از موانع‌ بزرگ‌ در راه‌ «شناخت‌ گفتار» به‌وسیلة‌ کامپیوتراست‌. همچنین‌ شواهدی‌ ارائه‌ شد که‌ بر این‌ دلالت‌ داشت‌ که‌ هجا کوچکترین‌ واحدِ ادراک‌ گفتار است

منبع:

http://bukharamag.com

مهدی 1389/12/16 ساعت 15:11

نظرات 1 + ارسال نظر

امیرحسین

1390/03/19 ساعت 11:43 http://hame4you.blogfa.com

سپاس از اینکه به ما سر زنید.

منتظر نظرات بعدی بنده باشید...
سعی میکنم تا جاییکه بتونم مقالاتتون رو بخونم

فقط ممکن دیر به دیر سر بزنم...
خوشحال میشم که شما هم فراموش نکنید ما را