تشخیص خودکار زبان[1]
زهرا بختیاری مرغانلو، کارشناس کتابداری
مجید دوبحریان، کارشناس مترجمیزبان انگلیسی
چکیده
تشخیص خودکار زبان (LID)، فرآیند تشخیص زبان گفتاری یا متون نوشتاری بصورت خودکار است. LID بدلیل کاربردش در زمینههای پژوهشی مهم و رویاهای الهام بخش در علوم کامپیوتر از جمله ترجمه ماشینی (MT)، تشخیص گفتار (SR) و دادهکاوی، مورد توجه گستردهای قرار گرفته است. افزایش قابل توجه حجم دادهها و دسترسی به آنها، نه تنها توسط کارشناسان، بلکه توسط کاربران عادی سرتاسر اینترنت، موجب توسعه رویکردهای متنوع در حوزه LID ( تشخیص خودکار زبان) – برای ایجاد سیستمهای کارآمدتر – و همچنین چالشهای اساسی و مورد بحث در این حوزه شده است.
با وجود این واقعیت که رویکردهای موجود موفقیتهای قابل توجهی بدست آوردهاند، پژوهشهای آتی به برخی از موضوعات باقی مانده در این حوزه میپردازند. هدف این مقاله بررسی پیشینه تاریخی این بحث مطالعاتی نیست، بلکه ارائۀ یک دیدگاه کلی از سیستمهای LID و همچنین طبقهبندی رویکردهایی است که این سیستمها را ایجاد کردهاتد. سیستمهای LID پیشرفت نمودهاند و دائماً در حال تکامل هستند. بعضی از موضوعاتی که نیاز به توجه خاص و توسعه دارند عبارتند از: معناشناسی، تشخیص گویشهای متنوع و زبانهای مختلف، تشخیص خطاهای املایی، بازیابی دادهها، اسناد چند زبانه، MT (ترجمه ماشینی) و ترجمه گفتار به گفتار. متدهایی که تا امروز بکار رفتهاند از دیدگاه فنی مناسبند، اما از دیدگاه معناشناسی خیر.
واژگان مهم: فناوری زبانهای بشر، تشخیص خودکار زبان (LID)، دادهکاوی (DM)، تشخیص خودکار زبان گفتاری (SLID)، تشخیص خودکار زبان نوشتاری (WLID).
مقدمه
تشخیص خودکار زبان (LID)، فرآیند تشخیص زبان گفتاری و یا متون نوشتاری بصورت خودکار میباشد (امینه و همکاران، 95). LID بدلیل کاربردش در زمینههای پژوهشی مهم و رویاهای الهام بخش در علوم کامپیوتر از جمله ترجمه ماشینی (MT)، تشخیص گفتار (SR) و دادهکاوی مورد توجه گستردهای قرار گرفته است. افزایش قابل توجه حجم دادهها و دسترسی به آنها، نه تنها توسط کارشناسان بلکه توسط کاربران عادی سرتاسر اینترنت، موجب توسعه رویکردهای متنوع در حوزه LID –برای ایجاد سیستمهای کارآمدتر– و همچنین چالشهای اساسی و مورد بحث در این حوزه شده است. امروزه، سیستمهای LID در ارتباط با زمینههای مختلفی بکار برده میشود، در حالیکه رویکرد بنیادین اولیه که در دهه 1990 معرفی و توسعه یافته بود، هنوز مورد استفاده قرار میگیرد. با وجود این واقعیت که رویکردهای موجود موفقیتهای قابل توجهی بدست آوردهاند، پژوهشهای آتی به بعضی از موضوعات –مخصوصاً اضافه نمودن محتوای معنایی در سیستمهای LID– میپردازند. موضوع LID به دهه 1970 بر میگردد و شمار قابل توجهی از متدها به منظور بهبود آن توسعه یافتهاند. به علت مقتضیات پروژهای که در اینجا ارائه میشود، هدف این مقاله بررسی پیشینه تاریخی این بحث مطالعاتی نیست؛ بلکه ارائۀ یک دیدگاه کلی از سیستمهای LID و همچنین طبقهبندی رویکردهایی است که این سیستمها را ایجاد کردهاتد.
LID (تشخیص خودکار زبان) گفتاری و نوشتاری
با عنایت به این واقعیت که اطلاعات گفتاری و نوشتاری بعنوان ورودیهای سیستم LID عمل میکنند، تعدادی اختلافات ابتدایی باید ایجاد شود. هرچند باید اشاره نمود که متدهایی که برای انجام LID استفاده شدند، لزوماً در ماهیتشان با یکدیگر تفاوت ندارند –با لحاظ چند استثنا. به بیان دیگر، رویکردهای استفاده شده در اساس، مشابه هم هستند. تفاوتها، در مرحلۀ ابتدایی معماری مربوط به تفاوتهای کلی سیتمهای LID است.
LID گفتاری
LID گفتاری (SLID) اساساً در دو گام انجام میشود: تمرین و تشخیص (زیتزمن، 118). در ابتدا نمونههای گفتاری از زبانهای مختلف به سیستم داده میشود. این نمونهها، مواد اولیه جهت تمرین و همان پیکرۀ اصلی بوده که بعنوان اطلاعات پسزمینهای عمل میکنند. این اطلاعات تحلیل شده و خصوصیات آن، معمولاً بصورت بردار استخراج میشود. با بهکار بردن این اطلاعات، مدلهای زبانی تولید میشوند تا بعداً با زبان گفتاری (بعنوان ورودی) مقایسه شوند. مدلی که بیشترین شباهت را با ورودی داشته باشد، توسط سیستم انتخاب میشود (زیتزمن: 121-118). چندیدن تکنیک وجود دارند که بطور خاص بر SLID تمرکز دارند. شباهتهای بین مدل زبانی و گفتار ورودی، در ابتدا از نظر طیفهای مشابه اندازه گیری میشدند. هرچند، رویکردهای بعدی، اقدام به قطعهبندی سیگنالهای گفتار ورودی کردند: مقایسه، بر مبنای این قطعههای کوچکتر و عمل تشخیص نیز با استفاده از شبکههای عصبی مصنوعی (ANN) انجام شد (زیتزمن:121). رویکرد دیگر استفاده از محدودیت واجها بود که عبارت است از مجموعه ای از محدودیتهای زبانی که با توجه به واجهای میتواند یا نمیتواند در یک متن اتفاق بیافتد (زیتزمن:122-121). این متد معمولا در ترکیب با تشخیصدهندۀ آوا (PR) برای هر زبانی استفاده میشود. تشخیصدهندههای آوایی غالباً بر پایه n گرم هستند یا در غیر این صورت با مدلهای آمیخته گاوسی (GMM) یا مدلهای پنهان مارکوف (HMM) ترکیب میشوند که در LID (تشخیص خودکار زبان) نوشتاری نیز کاربرد دارد و به آن خواهیم پرداخت.
LID نوشتاری
مانند SLID، تشخیص خودکار زبان نوشتاری (WLID) دارای مرحله تمرین میباشد که در آن پیکره اصلی جمعآوری و تحلیل میشود و مرحله تشخیص نیز دارد که در آن جا مدلها قبل از مقایسه شدن با ورودی نوشتاری جدید تولید میشوند (رهورک و کولکوس: 358-357). بعضی از رویکردها فقط مخصوص SLID هستند، اما از آنجا که محبوبیت و کارآمدی متدهای آماری به اندازه کافی در سالهای میانی دهه 1990 بیان شده بودند، از آنها برای هر دو نوع دادههای ورودی استفاده میشد: پس از استخراج ویژگیهای مربوطه، داده بصورت رشته در دسترسی قرار میگیرد و پس از آن با رویکردهای مشابه بصورت آماری تحلیل میشود.
رویکردهای LID
رویکردهای استفاده شده در LID را میتوان بصورت زیر دسته بندی نمود: آنهایی که از دانش زبان استفاده میکنند و آنهایی که از متدهای آماری استفاده میکنند. همانطور که قبلا گفته شد، بعضی از آنها بطور خاص در مورد SLID هستند. میتوان به تعدادی از موارد رایج، با وجود تفاوتهایشان، اشاره کرد: تا حد امکان جدا نمودن فعالیتهای LID از دانش زبان، به منظور مقابله با خطاها، مانند کلمات با غلط املایی و تا حد امکان موثر، به منظور مقابله با متون چند زبانه، تا از کمترین میزان ذخیرهسازی و زمان، بدون از دست دادن کارایی، بهره برد.
مقایسه پیکرۀ اصلی
این رویکرد برای ورودیهای گفتاری بکار میرود. فرآیند اصلی شامل استفاده از نمونههای گفتاری در تقریبا 10 msec از یک یا چند زبان و استخراج ویژگیهای مربوطه است. با این ویژگیها، رونوشتهای املایی یا واجی ایجاد شده و تمام این دادهها بعنوان پیکره پس زمینه استفاده میشود. فرآیندی مشابه نیز در مورد دادههای ورودی اتفاق میافتد. تمام این دادههای تمرینی بعداً برای عمل شناسایی بکار میروند و درنتیجه ورودی گفتاری جدید با دادههای ذخیره شده مقایسه شده و زبانی که بیشترین شباهت با آن را دارد، انتخاب میشود (زیتزمن:121-120).
قطعهبندی و ANN (شبکههای عصبی مصنوعی)
این روش مشابه روشهای قبلی است و برای SLID نیز استفاده میشود و شامل یک مرحله تمرینی بر مبنای نمونههای گفتاری است. هرچند از قطعهبندی برای بدست آوردن ویژگیهای منحصر بفرد هر زبان در زمینههای نوای گفتار، گام صدا، مدت زمان و دامنه، ویژگیهای طیفی در صامتها و مصوتها و دیگر موارد، در قطعات کوچکتر نمونه و ورودی، استفاده میشود. سپس داده تمرینی مورد مقایسه قرار میگیرد و زبانی که بیشترین درجه شباهت را دارد، انتخاب میشود (موتوسامی:4). سپس، هر قطعه ورودی با استفاده از ANN با مجموعهای از دادههای ذخیره شده مطابقت داده میشود (موتوسامی:67-53).
قوانین واجآرایی و PR (تشخیصدهندههای آوا)
هر زبانی محدودیتهایی خاصی در استفادۀ واجها در متون دارد. این محدودیتها برای فعالیتهای SLID بکار رفتهاند. PR در ابتدا دادهها را نشانهگذاری میکند و روشهایی که برای WLID استفاده شد از جمله n گرم، GMM و HMM را اعمال میکند.
LID بر پایه کلمات کوچک
رویکردی پایهای وابسته به زبان در خصوص LID، استفاده از کلمات کوچک یا رایج است که معمولاً وابستههای پیشرو، حروف ربط و حروف اضافه هستند (گرفنستیت:3). فرآیند اصلی این رویکرد، نسبتاً ساده است بطوریکه در ابتدا دادههای تمرینی و ورودی نشانهگذاری (توکنسازی) شده و سپس به هر نشانه (توکن)، مقدار احتمال، تخصیص داده میشود که نمایندههای کلمات کوچک هستند. در انتها، آمار حاصل شده مورد مقایسه قرار میگیرند تا زبان متن داده شده را تعیین کنند. ایدۀ دیگر، استفاده از واژگان پالایشی (stop words) بر مبنای قانون زیف است: این قوانین اساساً بیان میدارند همیشه مجموعهای از کلمات در یک زبان وجود دارند که شامل کلماتی هستند که نسبت به بقیه بیشتر استفاده میشوند. تفکر بنیادین در پس این متد این است که مردم برای مشخص کردن زبان یک متن فقط به مقدار کمی اطلاعات نیاز دارند و برای اینکار حتی نیاز نیست که آنها در آن زبان تبحر زیادی داشته باشند.
این متد نیازی به بهرهگیری از قوانین پیچیده زبانی مانند نحو و معناشناسی ندارد. با اینکه این روش هنوز هم کاربرد دارد، اما بعداً توضیح داده میشود که سهولت آن، کار را برای سیستم LID با چنین ماهیتی برای استفاده در متون چند زبانه و حتی متونی که خطای املایی دارند، سخت میکند زیرا کلمهای که اشتباه املایی دارد از نتایج آماری کنار گذاشته میشود. علاوه بر این سیستمیکه از این متد استفاده میکند، ممکن است در مواجهه با متون کوچک به مشکل برخورد کند، زیرا در آنها واژگان پالایشی استفاده شده به منظور تهیه یک آمار قابل توجه، کم هستند. برای از بین بردن این مشکل، رویکردهای موفقتر و کارآمدتری توسعه داده شدند.
LID بر پایه n گرم
n گرم یک برش n کاراکتری از رشتهای است که ابتدا یا انتهای آن خالی است تا بتوان آن را بصورت کلمه n گرمی ابتدایی یا انتهایی دستهبندی کرد. این سیستم در ابتدا در ادبیات توسعه پیدا کرد و در دهه 1990 مورد آزمایش قرار گرفت و بعنوان یک رویکرد مفید و آزموده شده در LID باقی مانده است. سیستم اساساً بصورت زیر کار میکند:
مجموعهای از متون بعنوان منابع مورد استفاده قرار میگیرند تا یک مدل را بسازند؛
این متون نشانهگذاری (با توکن) و اعداد و علامتهای نگارشی کنار گذاشته میشوند؛
توکنها اسکن شده و تا جایی که ممکن باشد n گرم تولید میشود؛
یک رتبهبندی بر مبنای بیشترین n گرمها انجام میشود.
مثال 1: نمونه انواع مختلف n گرم از کلمه “text”
مثال 2: نمونه n گرمیتولید شده از رشته “John Kissed Mary”
Joh 2
ohn 2
hn 2
n k 2
ki 2
kis 2
iss 2
sse 2
sed 2
ed 2
d M 1
Ma 1
Mar 1
ary 1
- 1
- 1
.J 1
نتیجه این چهار گام اساسی در تولید یک پروفایل یا مدل زبانی بر مبنای متن ارائه شده در زبان ارائه شده، بعداً مورد مقایسه قرار میگیرد و متعاقباً زبانی که متن با آن نوشته شده مشخص میشود. از آنجایی که مدلهای زبانی فقط با فرض اینکه n گرمها توالیهای بایتی هستند، مشتق شدهاند، هیچ پیش پردازش زبانی خاصی نیاز نیست. دانینگ (1995) بدلیل محبوبیت HMM، استفاده از آن را بهعنوان روشی برای محاسبه احتمال توالی رشتهها معرفی کرد. با اضافه نمودن قاعده تصمیم بیز، وقتی سیستم با دو احتمال روبروست، محتملترین علت را انتخاب میکند. این کار موجب میشود وقتی با سیستم مختلف روبروست، غیرقطعی عمل کرده و پویایی بیشتری داشته باشد.
این متد مزایای خاصی دارد که عبارتست از:
این متد جایگزینی است برای تولید آمار بر مبنای تمام کلمات، زیرا رویکرد تولید آمار بر مبنای تمام کلمات، وقتی با متونی روبرو میشود که از منابع پرسروصدا میآید، نتیجۀ رضایتبخشی ندارد و متعاقباً خطاها و مشکلاتی مانند کلمات با غلط املایی، واژههای عاریتی و … را شامل میشود.
آمار بر مبنای تمام کلمات، به منظور نتیجه بخشی نیاز به متون بزرگتر دارد که این مشکل تا حدی توسط سیستمهای بر پایه n گرم حل شده است.
این متد همچنین جایگزینی است برای سیستمهایی که نیاز به ساختن لغتنامه یا استفاده از مجموعه قوانین فرآیند واژهشناسی دارند، مانند ریشهیابی که باید اطلاعات پیکره متون و موضوعات مربوط به LID را در بر داشته باشند.
نه تنها این امکان وجود دارد که بتوان زبان متون را شناسایی نمود، بلکه میتوان آن را بر اساس موضوعش دستهبندی کرد که اینکار با اندازهگیری n گرمهایی انجام میپذیرد که در متن و با توجه به شباهت به موضوع، بیشتر استفاده شدهاند.
اضافه نمودن مدل مارکوف، امکان دستکاری ریاضیاتی در الگوریتم را به ما میدهد تا بتوانیم توالی n گرمها را راحتتر مشخص نمائیم.
HMM، GMM و SVM
این سه روش آماری تقریباً در ادغام با تمام رویکردهای اشاره شد مورد استفاده قرار گرفتهاند، که بدلیل قابلیت کاربرد آنها هم در SLID و هم در WLID است. مزایای پایهای آنها عبارتند از سریعتر و کارآمدتر بودن فعالیت LID و مصرف کمتر از فضای ذخیرهسازی. همانطور که قبلاً نیز گفته شد، آنها را میتوان به راحتی بصورت ریاضیاتی دستکاری کرد.
HMM یک مدل تصادفی است که شامل تجزیه دادههای تمرینی و متن ورودی میشود. وقتی گرهها تولید شدند، احتمالات انتقال بین هر یک از این گرهها تعیین میشوند. از یک گره به گره دیگر، سیستم، احتمالات انتقال را تنها بر اساس حالت فعلی تعیین میکند.
GMM روشی است که در آن خوشهبندی زیرجمعیتها با اجرای مکرر الگوریتم روی دادههای ورودی انجام میشود (گفتاری و نوشتاری). این روش اساساً بصورت زیر عمل میکند: مراکز خوشهها در دادههای ورودی تعیین میشوند، تکرارهای زیادی روی این مراکز تخمینی اولیه رخ میدهد تا نتایج اولیه به حداکثر رسیده و خوشههای تعریف شده واضحتری بدست آید، در انتها خوشهها مشخص میکنند که دادهها متعلق به کدام زبان مفروض است.
ماشینهای برداری حمایتی (SVMs)، بیشتر در SLID استفاده میشوند و همچنین برای رسیدن به بیشترین درجه خوشهبندی به کار میروند. کاربرد SPM، تعیین الگوها در ورودی و تطبیق دادن آنها با دادههای تمرینی است.
سیستمهای آنتروپی متقاطع
سیستمهایی که از آنتروپی استفاده میکنند معمولاً با روش n گرم ادغام شده و بعنوان کمکی برای الگوریتمهای GMM و HMM اقدام میکنند. تلفیق این مفهوم، سعی میکند به سیستم در مواقعی کمک کند که با موارد متفرقه روبرو میشود تا از تکنیکی محتمل برای پیشبینی توالی رشتهها استفاده کند. مفهوم آنتروپی متقاطع، شامل درجه عدم اطمینان موجود در هنگام انتخاب نماد میشود: هر چقدر آنتروپی قابل توجهتر باشد، عدم اطمینان بیشتری در انتخاب نماد داده شده دارد. علاوه بر این فرآیند، همانطور که در بالا توضیح داده شد، استفاده از آنتروپی به این مورد اشاره دارد که از احتمالات مرتبط با یک حرف مورد نظر که بعد از یک حرف در گذشته آمده است، استفاده میشود تا پیشبینی شود چه حرفی در موقعیتهای بعدی با خصوصیات مشابه خواهد آمد.
روش فرهنگ لغت
رهورک و کولکوس، یک توسعه فراتر را در زمینه رویکرد کلمه محور و وابسته به زبان ارائه دادند. این ایده تنها استفاده مداوم از واژگان پالایشی در یکی زبان مورد نظر نیست، بلکه پیادهسازی یک الگوریتم است برای شناسایی اینکه کلمات در حالت درجهبندی شده غیر باینری، چقدر با هم تناسب دارند. درنتیجه، این رویکرد، از فهم زبانی بهره میجوید و از معادله دقت و بازیابی بکار رفته توسط سیستمهای بازیابی اطلاعات استفاده میکند تا زبان متن را شناسایی کند. الگوریتم پایهای شامل مفهموم زیر میباشد:
در این الگوریتم، W نماینده تمام کلمات موجود در دادههای پس زمینه و تمرینی بوده و L نیز مجموعه زبانهای در نظرگرفته شده است. مفهموم rel نیز مقدار تناسب کلمات است.
اپلیکیشنها
دو دسته اصلی از اپلیکیشنها وجود دارد که در آن از فرآیند LID استفاده میشود: در یک سو اپلیکیشنهای مبتنی بر گفتار و در سوی دیگر اپلیکیشنهای مبتنی بر متن.
LID گفتاری
SLID (تشخیص خودکار زبان گفتاری) در بسیاری از اپلیکیشنها کاربرد دارد و با اینکه بصورت گسترده مورد استفاده قرار میگیرد، با مشکلات زیادی روبرو است، خصوصاً زمانی که با تفاوتهای گویشی، تشخیص لهجه و تفاوتهای بین یک گوینده با گوینده دیگر (جنسیت، سن، پسزمینههای اجتماعی و …) سر و کار داشته باشد.
ترجمه گفتار به گفتار
LID در همان مراحل اولیه، در ترجمه گفتار به گفتار قابل استفاده است. صحبت گفته شده را دریافت کرده، که در اینجا زبان منبع است، آن را شناسایی میکند، سپس سیستم ترجمه کننده آن را به زبان مقصد تبدیل میکند.
تشخیص گویش و لهجه
وظیفه تشخیص گویش و لهجه، تشخیص گویش و لهجه با استفاده از نمونههای زبانهای ورودی است. بررسی یک گویش یا لهجه غیر بومی، به علم زبانشناسی حقوقی نیز کمک میکند. زبان اصلی یک گوینده و متعاقباً ملیت او را میتوان با تحلیل خصوصیات معرفی شده در گفتار گوینده غیر بومی شناسایی کرد.
گفتار تلفنی
شرکتها از اپلیکیشنهای مبتنی بر تلفن برای کاهش هزینههای مربوط به استخدام نیروهای انسانی استفاده میکنند. هدف این سیستمها، شناسایی زبان تماس گیرنده و در صورت امکان، اتصال تماس به فردی مناسب است که در آن زبان تسلط کافی دارد. موسسات بانکی و شرکتهای هواپیمایی معمولا از این سیستمها استفاده میکنند.
LID نوشتاری
با توجه به افزایش میزان دادههای نوشتاری، برای تشخیص و دستهبندی آنها، سیستمهای SLID مورد نیاز است. علاوه بر آن، این دادهها در زبانهای مختلفی وجود دارند که ممکن است ایراداتی از جمله اشباهات تایپی، غلطهای املایی و… داشته باشد. همانند SLID، WLID باید با این مشکلات و چالشها دست و پنجه نرم کند.
دادهکاوی
در این مورد، هدف سیستمهای LID، تشخیص زبانها در مقادیر زیاد دادهها و پشتیبانی از تشخیص متون چندزبانه، متونی که از منابع میآیند مانند سیستمهای تشخیص بصری حروف (OCR) و حتی متون دستنویس است. به عنوان مثال، گوگل از LID برای تشخیص زبان یک صفحه وب استفاده میکند و اگر زبان آن صفحه با IP کاربر فرق داشته باشد، گوگل پیشنهاد ترجمه خودکار را میدهد. علاوه بر این، دادهها را میتوان طبق موضوع و ژانر، گروهبندی و زیرگروهبندی کرد.
ترجمۀ ماشینی
LID در ابتدای فرآیند ترجمۀ ماشینی (MT) برای تشخیص زبان متن و حتی تشخیص تکههای چندزبانه بکار میرود.
مالکیت یک تالیف
مولفان مختلف سبکها و خصوصیات آماری مختلفی دارند که مخصوص به خودشان است. با تحلیل نوشتههای یک مولف تا حد امکان، این خصوصیات آماری تهیه شده و میتوان تالیف را مشخص نمود. از این کار میتوان برای کشف سرقتهای ادبی و حتی شناسایی مولفان استفاده کرد.
بررسی املایی و اصلاح
LID در سیستمهای بررسی املایی و اصلاح برای ویرایش متون مفید بوده و یک جزء ضروری به حساب میآید. هدف آن، شناسایی زبان بدون در نظر گرفتن اشتباهات موجود در متن بوده و به کاربر نیز پیشنهاد اصلاح آن را میدهد. این اشتباهات ممکن است به علت متون تهیه شده از منابع پرسروصدا مانند OCR (تشخیص بصری حروف) باشد.
قطعهبندی کلمات
قطعهبندی کلمات، به تشخیص اینکه کلمه در کجا شروع و در کجا تمام میشود، مربوط میشود. یکی از چالشهای اصلی سیستمهای LID در این حوزه زمانی است که با زبانهایی مانند زبانهای آسیایی سروکار داریم که دارای مرزهای صریحی نیستند. قطعهبندی کلمات برای سیستمهای بازیابی اطلاعات حائز اهمیت است.
شناسه دست خط
یکی از مزایای سیستمهای LID دست خطی، فراهم نمودن منابع بیشتر برای بازیابی دادهها و یافتن ویژگیهایی است که در نویسنده مدنظر وجود دارد. از آنجایی که دست خطهای نویسندگان متفاوت است و به این دلیل که ما یک حرف مشخص را همیشه مشابه هم نمینویسیم، ایجاد یک سیستم تشخیص عمومی و قابل اتکا بسیار چالشبرانگیز است. ویژگیهای رایج استفاده شده در تشخیص حروف عبارتند از: ویژگیهای منطقهای، ویژگیهای ساختاری، ویژگیهای جهتدار، نقاط و خطوط متقاطع.
LID آنلاین
سیستمهای LID بصورت آنلاین نیز مورد استفاده قرار میگیرند (مثالهای بعدی از «وضعیت هنر» را ببینید. کاربران میتوانند در یک صفحه اینترنت تایپ نموده یا متنی را کپی کنند و سیستم LID زبانی را که متن به آن نوشته شده است، شناسایی میکند. یک تکنیک دیگر LID، توسط Google Translate بکار میرود و زبان منبع را (بین 80 زبانی که پشتیبانی میکند) در صورتیکه کاربر آن زبان را نداند، تشخیص میدهد و سپس توسط ترجمه ماشینی (TM) فرآیند ترجمه را انجام میدهد.
بهترین فناوری روز
از ابتدای تحقیق و توسعه LID، اپلیکیشنهای زیادی تولید شده است. امروزه، افزایش تعداد کاربران کامپیوتر و موبایل، موجب ایجاد تمایلی روزافزون برای توسعه اپلیکیشنهایی شده است تا نیاز آنها را تامین نماید. همانطور که قبلا نیز گفته شد، سیستمهای آنلاین LID را میتوان به راحتی در اینترنت دید. اینترنت، با درجات متنوعی از پیچیدگی و دقت، به مردم بصورت کاربرپسند ارائه شده و حتی وبسایتها و شرکتهایی را پیشنهاد میدهد که میتوان بصورت آنلاین پیدا کرد:
سیستمهای LID در گسترهای پایینتر، برای موبایلها نیز در دسترس هستند. یک نمونه، اپلیکیشن تشخیص زبان است که بیش از 50 زبان را پشتیبانی میکند. اپلیکیشن محبوب دیگر Google Translate است. همانطو که قبلا نیز گفته شد، هر دو نسخه موبایل و آنلاین قادرند ورودیهای زبان نادرست را تشخیص دهند. علاوه بر این، اپلیکیشن موبایل قادر است این کار را در مورد دست خطها نیز بصورت کاملاً دقیق انجام دهد. همچنین، اپلیکیشنهای موبایل که از تکنولوژی LID بهره میبرند، این قابلیت را در کیبورد خود دارند. یک نمونه، کیبورد قابل شخصیسازی شرکت بلکبری است که زبانی را که کاربر با آن در حال تایپ کردن است، در لحظه تشخیص میدهد. نمونهای دیگر adaptxt برای کاربران اندروید است: کاربر این اپلیکیشن و زبانهایی را که میخواهد این برنامه پشتیبانی میکند، دانلود مینماید. سپس کاربر میتواند آزادانه به آن زبانها تایپ کند. به عنوان مثال، اگر کاربر یک زبان از میان زبانهای دانلودی را به عنوان زبان ورودی انتخاب کند و بخواهد به زبان دیگری از مجموعه زبانهای دانلودیاش تایپ کند، این اپلیکیشن میتواند آن زبان را پیشبینی کرده و حروف و دایرۀ واژگان مربوط به آن زبان را پیشنهاد دهد.
یکی از موارد مهم در این حوزه، فرآیند پیام دادن است. شرکت اپل در این خصوص یک توسعه با تمرکز بر اسناد چند زبانه ارائه داده است. با بکارگیری تشخیص دهنده خودکار زبان، کاربر میتواند در یک متن با زبانهای مختلف تایپ کند، بدون اینکه نیاز باشد تنظیمات را عوض کند. این کار نه تنها باعث میشود که عمل پردازش کلمات بسیار پویاتر باشد، بلکه همچنین عمل بررسی املای کلمات با محدودیت کمتری مواجه میشود که این کار میتواند بصورت خودکار یا با درخواست کاربر انجام شود.
با تمرکز بیشتر شرکتها بر روی علایق مخاطبینشان، اکنون برای کاربران باتجربهتر این امکان وجود دارد که به زبان کد مربوط به تشخیص زبان، دسترسی داشته باشند تا بتوانند نرمافزار خودشان را بسازند یا نرمافزارهای موجود را ارتقاء دهند. ابزار تشخیص زبان فشرده گوگل و کد تشخیص زبان پایتون برای کاربران در دسترس نیست، پس میتوان نتایج را شاهد بود.
همانطور که قبلا نیز گفته شد، دادهکاوی (DM) یکی دیگر از حوزههای بسیار مهم و چالش برانگیز است. اسناد چند زبانه در مرکز تحقیقات LID هستند و NER (تشخیص موجودیتهای نامدار) اخیراً مورد توجه توسعهدهندگان و محققان قرار گرفته است. تکنیکهای استفاده شده اساساً آماری هستند اما دادهکاوی به تلفیق محتوای معنایی بیشتری نیاز دارد. برای بهبود افزایش این محتوا و تمرکز بر تفاوتهای فرهنگی، بعضی از سیستمهای LID از تحلیل دادههای عمومیدر دسترس بهره میبرند (مانند توییتر و ویکی پدیا).
آینده
سیستمهای LID پیشرفت کردهاند و در حال تکامل نیز هستند. بعضی از موضوعاتی که نیاز به توجه خاص و توسعه دارند عبارتند از: معناشناسی، تشخیص گویشهای متنوع و زبانهای مختلف، تشخیص خطاهای املایی، بازیابی دادهها، اسناد چند زبانه، MT (ترجمه ماشینی) و ترجمه گفتار به گفتار.
معناشناسی یکی از موضوعات اصلی است که نیاز به توجه ویژه در زمینه سیستمهای LID دارد. به منظور تشخیص یک زبان، غالباً تحلیل زمینه و محتوای اطلاعات تهیه شده ضرورت دارد. تکنیکهای بکار رفته تا امروز از دیدگاه فنی مناسب بودهاند، اما از نظر معناشناسی نه. کدگزینی، نه تنها از دیدگاه ماهیت چند زبانه بودنش بلکه از دیدگاه پیچیدگی معناشناسیاش چالش ایجاد میکند: در یک متن، در یک پست شبکه اجتماعی یا در یک گفتار، مردم ممکن است کد ارتباطیشان را بنا به دلایل اجتماعی مانند گونۀ کاربردی، استانداردهای اجتماعی و متن، سبک و … تغییر دهند.
با افزایش استفاده از شبکههای اجتماعی (توییتر، فیسبوک، لینکدین (LinkedIn) و …)، گویندگان چندزبانه در محیطهای آنلاین زبانهایشان را تغییر میدهند و در نتیجه نیاز روزافزونی به LID در مجموعه دادههای بزرگتر بجای مجموعه دادههای کوچکتر است، که میتوانند برای ساختن منابع زبان برای زبانهای اقلیت مفید باشند.
علاوه بر این، املاهای بسیار رسمی، خطاهای دستوری، متن ویرایش نشده توسط مردم عادی و موجودیتهای نامدار، چالشهایی را برای سیستمهای LID ایجاد میکند. در نتیجه کاری که محققان سعی در انجامش دارند، ارتقاء توانایی سیستم برای مقابله با نوشتار غیررسمی، متون چندزبانه، کدگزینی، متون بسیار کوتاه و دادههای نامتوازن است.
دادهکاوی نیز در خصوص تعدادی از موضوعاتی فنیاش مانند خوشهبندی، خلاصهسازی دادهها، طبقهبندی، یافتن شبکههای وابسته، تحلیل تغییرات و تشخیص ناهنجاریها و همچنین موضوعات غیر فنیاش، چالشی جدی برای سیستمهای LID ایجاد میکند. با توجه به افزایش تولید دادههای ایجاد شده توسط کاربران در شبکههای اجتماعی مانند توییتر، فیسبوک، ویکیپدیا، لینکدین، و مشابه آنها، برای سیستمهای LID ضروری است که با محتوای معناشناسی، خطاهای دستوری، املای غیررسمی، تنوع گویشها، زبانهای در اقلیت و زبانهایی که به هم شباهت دارند یا از یک ریشه هستند و وام واژهها مقابله کند. این نکته حائز اهمیت است که اطلاعات تولیدی توسط کاربران، یک منبع غنی است که محققان و توسعهدهندگان میتوانند زمانی که اطلاعات در مورد یک زبان خاص محدود است، از آن استفاده کنند.
شناسه دست خط، اسناد تشخیص بصری حروف (OCR) و طبقهبندی، حوزههایی مهم برای تحقیق هستند. عمل تشخیص، رونویسی خودکار اسناد چندزبانه و جستجو برای اسنادی را که دست خطهای خاصی دارند، آسان نموده است. امروزه، سیستمهای LID با دشواریهایی در شناسایی اطلاعاتی که از این منابع بدست میآیند، روبروست که دلیل آن سبکهای نوشتاری، اندازه حروف، شکلها، فونتها، فاصله بین خطوط و خود کلمات از یک سو و خطاها و ایرادات تایپی از سوی دیگر است که منتج به نتایج غیر قابل اطمینان میشود. سیستمهای موجود عملکرد خوبی نشان دادهاند، اما قطعاً جا برای کارهای بعدی وجود دارد. برای اینکه فرآیند تشخیص موفق و کارآمد تلقی شود، باید علیرغم خطاهای متنی و کیفیت اسناد دست نوشته و OCR، بتواند نتایج قابل اعتماد نشان دهد و همچنین کمترین فضای ذخیرهسازی و زمان انجام فرآیند را داشته باشد. علاوه بر این، یکی دیگر از حوزههای اصلی قابل ارتقاء، توسعه روشی برای تشخیص خطوط متن در یک سند است که میتوان آن را برای بخشهای یک صفحه نیز گسترش داد. همچنین برای سیستمهای LID موجود، بهبود میزان بهرهوری در زمانی که زبان اولیه یک متن منبع را مشخص میکند، موضوعی مهم است.
تشخیص موجودیتهای نام دار (NER) یکی دیگر از اپلیکیشنهایی است که هنوز نیاز به گسترش دارد. هدف از این کار، کمک به کامپیوتر برای تشخیص موجودیتهای نامدار (NE)ها و دستهبندی آنها از طریق قوانین متنی و اطلاعات نحوی در دستههایی مانند فرد، سازمان، مکان، مخفف، مقیاس، عدد، اصطلاح، تاریخ و زمان و … است. سیستمهای NER فعلی میتوانند از پس موجودیتهای چند نشانی (چند توکنی) برآیند اما نمیتوانند مرزهای موجودیتها را شناسایی کنند.
علاوه بر اینها، حوزههای دیگر در زمینه سیستمهای LID که نیاز به توسعه دارند ترجمه ماشینی و ترجمه گفتار به گفتار هستند: هدف از این کار تشخیص موفقیتآمیز زبانها، گویشها، زیرگویشها یا تنوعهای گویشی، اصطلاحات خاص، اسامیثابت و … و پس از آن پیشبرد فرآیند ترجمه میباشد و در خصوص ترجمه گفتار به گفتار نیز انجام دادن مواردی از جمله: گفتگوهای آنی در محیطهای مختلف مانند گفتگوها در گردهماییها، از طریق لپتاپ یا موبایل، کنفرانسهای تحت وب، وبینارها، دورههای آموزشی، اطلاعات توریستی در هتلها و فرودگاهها و … مدنظر است.
[1] . Qafmolla, M.A.Nejla (2017), Automatic Language Identification. European Journal of Language and Literature Studies, V.3, Issue 1, Pages 140 to 149.