تشخیص خودکار زبان

 

تشخیص خودکار زبان[1]

زهرا بختیاری مرغانلو، کارشناس کتابداری

مجید دوبحریان، کارشناس مترجمی‌زبان انگلیسی

 

 

چکیده

تشخیص خودکار زبان (LID)، فرآیند تشخیص زبان گفتاری یا متون نوشتاری بصورت خودکار است. LID بدلیل کاربردش در زمینه‌های پژوهشی مهم و رویاهای الهام بخش در علوم کامپیوتر از جمله ترجمه ماشینی (MT)، تشخیص گفتار (SR) و داده‌کاوی، مورد توجه گسترده‌ای قرار گرفته است. افزایش قابل توجه حجم داده‌ها و دسترسی به آنها، نه تنها توسط کارشناسان، بلکه توسط کاربران عادی سرتاسر اینترنت، موجب توسعه رویکردهای متنوع در حوزه LID ( تشخیص خودکار زبان) – برای ایجاد سیستم‌های کارآمدتر – و همچنین چالش‌های اساسی و مورد بحث در این حوزه شده است.

با وجود این واقعیت که رویکردهای موجود موفقیت‌های قابل توجهی بدست آورده‌اند، پژوهش‌های آتی به برخی از موضوعات باقی مانده در این حوزه می‌پردازند. هدف این مقاله بررسی پیشینه تاریخی این بحث مطالعاتی نیست، بلکه ارائۀ یک دیدگاه کلی از سیستم‌های LID و همچنین طبقه‌بندی رویکردهایی است که این سیستم‌ها را ایجاد کرده‌اتد. سیستم‌های LID پیشرفت نموده‌اند و دائماً در حال تکامل هستند. بعضی از موضوعاتی که نیاز به توجه خاص و توسعه دارند عبارتند از: معناشناسی، تشخیص گویش‌های متنوع و زبان‌های مختلف، تشخیص خطاهای املایی، بازیابی داده‌ها، اسناد چند زبانه، MT (ترجمه ماشینی) و ترجمه گفتار به گفتار. متدهایی که تا امروز بکار رفته‌اند از دیدگاه فنی مناسبند، اما از دیدگاه معناشناسی خیر.

واژگان مهم: فناوری زبان‌های بشر، تشخیص خودکار زبان (LID)، داده‌کاوی (DM)، تشخیص خودکار زبان گفتاری (SLID)، تشخیص خودکار زبان نوشتاری (WLID).

 

مقدمه

تشخیص خودکار زبان (LID)، فرآیند تشخیص زبان گفتاری و یا متون نوشتاری بصورت خودکار می‌باشد (امینه و همکاران، 95). LID بدلیل کاربردش در زمینه‌های پژوهشی مهم و رویاهای الهام بخش در علوم کامپیوتر از جمله ترجمه ماشینی (MT)، تشخیص گفتار (SR) و داده‌کاوی مورد توجه گسترده‌ای قرار گرفته است. افزایش قابل توجه حجم داده‌ها و دسترسی به آنها، نه تنها توسط کارشناسان بلکه توسط کاربران عادی سرتاسر اینترنت، موجب توسعه رویکردهای متنوع در حوزه LID –برای ایجاد سیستم‌های کارآمدتر– و همچنین چالش‌های اساسی و مورد بحث در این حوزه شده است. امروزه، سیستم‌های LID در ارتباط با زمینه‌های مختلفی بکار برده می‌شود، در حالیکه رویکرد بنیادین اولیه که در دهه 1990 معرفی و توسعه یافته بود، هنوز مورد استفاده قرار می‌گیرد. با وجود این واقعیت که رویکردهای موجود موفقیت‌های قابل توجهی بدست آورده‌اند، پژوهش‌های آتی به بعضی از موضوعات –مخصوصاً اضافه نمودن محتوای معنایی در سیستم‌های LID– می‌پردازند. موضوع LID به دهه 1970 بر می‌گردد و شمار قابل توجهی از متدها به منظور بهبود آن توسعه یافته‌اند. به علت مقتضیات پروژه‌ای که در اینجا ارائه می‌شود، هدف این مقاله بررسی پیشینه تاریخی این بحث مطالعاتی نیست؛ بلکه ارائۀ یک دیدگاه کلی از سیستم‌های LID و همچنین طبقه‌بندی رویکردهایی است که این سیستم‌ها را ایجاد کرده‌اتد.

LID (تشخیص خودکار زبان) گفتاری و نوشتاری

با عنایت به این واقعیت که اطلاعات گفتاری و نوشتاری بعنوان ورودی‌های سیستم LID عمل می‌کنند، تعدادی اختلافات ابتدایی باید ایجاد شود. هرچند باید اشاره نمود که متدهایی که برای انجام LID استفاده شدند، لزوماً در ماهیت‌شان با یکدیگر تفاوت ندارند –با لحاظ چند استثنا. به بیان دیگر، رویکردهای استفاده شده در اساس، مشابه هم هستند. تفاوت‌ها، در مرحلۀ ابتدایی معماری مربوط به تفاوت‌های کلی سیتم‌های LID است.

LID گفتاری

LID گفتاری (SLID) اساساً در دو گام انجام می‌شود: تمرین و تشخیص (زیتزمن، 118). در ابتدا نمونه‌های گفتاری از زبان‌های مختلف به سیستم داده می‌شود. این نمونه‌ها، مواد اولیه جهت تمرین و همان پیکرۀ اصلی بوده که بعنوان اطلاعات پس‌زمینه‌ای عمل می‌کنند. این اطلاعات تحلیل شده و خصوصیات آن، معمولاً بصورت بردار استخراج می‌شود. با به‌کار بردن این اطلاعات، مدل‌های زبانی تولید می‌شوند تا بعداً با زبان گفتاری (بعنوان ورودی) مقایسه شوند. مدلی که بیشترین شباهت را با ورودی داشته باشد، توسط سیستم انتخاب می‌شود (زیتزمن: 121-118). چندیدن تکنیک وجود دارند که بطور خاص بر SLID تمرکز دارند. شباهت‌های بین مدل زبانی و گفتار ورودی، در ابتدا از نظر طیف‌های مشابه اندازه گیری می‌شدند. هرچند، رویکردهای بعدی، اقدام به قطعه‌بندی سیگنال‌های گفتار ورودی کردند: مقایسه، بر مبنای این قطعه‌های کوچکتر و عمل تشخیص نیز با استفاده از شبکه‌های عصبی مصنوعی (ANN) انجام شد (زیتزمن:121). رویکرد دیگر استفاده از محدودیت واج‌ها بود که عبارت است از مجموعه ای از محدودیت‌های زبانی که با توجه به واج‌های می‌تواند یا نمی‌تواند در یک متن اتفاق بیافتد (زیتزمن:122-121). این متد معمولا در ترکیب با تشخیص‌دهندۀ آوا (PR) برای هر زبانی استفاده می‌شود. تشخیص‌دهنده‌های آوایی غالباً بر پایه n گرم هستند یا در غیر این صورت با مدل‌های آمیخته گاوسی (GMM) یا مدل‌های پنهان مارکوف (HMM) ترکیب می‌شوند که در LID (تشخیص خودکار زبان) نوشتاری نیز کاربرد دارد و به آن خواهیم پرداخت.

LID نوشتاری

مانند SLID، تشخیص خودکار زبان نوشتاری (WLID) دارای مرحله تمرین می‌باشد که در آن پیکره اصلی جمع‌آوری و تحلیل می‌شود و مرحله تشخیص نیز دارد که در آن جا مدل‌ها قبل از مقایسه شدن با ورودی نوشتاری جدید تولید می‌شوند (رهورک و کولکوس: 358-357). بعضی از رویکردها فقط مخصوص SLID هستند، اما از آنجا که محبوبیت و کارآمدی متدهای آماری به اندازه کافی در سال‌های میانی دهه 1990 بیان شده بودند، از آنها برای هر دو نوع داده‌های ورودی استفاده می‌شد: پس از استخراج ویژگی‌های مربوطه، داده بصورت رشته در دسترسی قرار می‌گیرد و پس از آن با رویکردهای مشابه بصورت آماری تحلیل می‌شود.

رویکردهای LID

رویکردهای استفاده شده در LID را می‌توان بصورت زیر دسته بندی نمود: آنهایی که از دانش زبان استفاده می‌کنند و آنهایی که از متدهای آماری استفاده می‌کنند. همانطور که قبلا گفته شد، بعضی از آنها بطور خاص در مورد SLID هستند. می‌توان به تعدادی از موارد رایج، با وجود تفاوت‌هایشان، اشاره کرد: تا حد امکان جدا نمودن فعالیت‌های LID از دانش زبان، به منظور مقابله با خطاها، مانند کلمات با غلط املایی و تا حد امکان موثر، به منظور مقابله با متون چند زبانه، تا از کمترین میزان ذخیره‌سازی و زمان، بدون از دست دادن کارایی، بهره برد.

مقایسه پیکرۀ اصلی

این رویکرد برای ورودی‌های گفتاری بکار می‌رود. فرآیند اصلی شامل استفاده از نمونه‌های گفتاری در تقریبا 10 msec از یک یا چند زبان و استخراج ویژگی‌های مربوطه است. با این ویژگی‌ها، رونوشت‌های املایی یا واجی ایجاد شده و تمام این داده‌ها بعنوان پیکره پس زمینه استفاده می‌شود. فرآیندی مشابه نیز در مورد داده‌های ورودی اتفاق می‌افتد. تمام این داده‌های تمرینی بعداً برای عمل شناسایی بکار می‌روند و درنتیجه ورودی گفتاری جدید با داده‌های ذخیره شده مقایسه شده و زبانی که بیشترین شباهت با آن را دارد، انتخاب می‌شود (زیتزمن:121-120).

قطعه‌بندی و ANN (شبکه‌های عصبی مصنوعی)

این روش مشابه روش‌های قبلی است و برای SLID نیز استفاده می‌شود و شامل یک مرحله تمرینی بر مبنای نمونه‌های گفتاری است. هرچند از قطعه‌بندی برای بدست آوردن ویژگی‌های منحصر بفرد هر زبان در زمینه‌های نوای گفتار، گام صدا، مدت زمان و دامنه، ویژگی‌های طیفی در صامت‌ها و مصوت‌ها و دیگر موارد، در قطعات کوچکتر نمونه و ورودی، استفاده می‌شود. سپس داده تمرینی مورد مقایسه قرار می‌گیرد و زبانی که بیشترین درجه شباهت را دارد، انتخاب می‌شود (موتوسامی:4). سپس، هر قطعه ورودی با استفاده از ANN با مجموعه‌ای از داده‌های ذخیره شده مطابقت داده می‌شود (موتوسامی:67-53).

قوانین واج‌آرایی و PR (تشخیص‌دهنده‌های آوا)

هر زبانی محدودیت‌هایی خاصی در استفادۀ واج‌ها در متون دارد. این محدودیت‌ها برای فعالیت‌های SLID بکار رفته‌اند. PR در ابتدا داده‌ها را نشانه‌گذاری می‌کند و روش‌هایی که برای WLID استفاده شد از جمله n گرم، GMM و HMM را اعمال می‌کند.

LID بر پایه کلمات کوچک

رویکردی پایه‌ای وابسته به زبان در خصوص LID، استفاده از کلمات کوچک یا رایج است که معمولاً وابسته‌های پیشرو، حروف ربط و حروف اضافه هستند (گرفنستیت:3). فرآیند اصلی این رویکرد، نسبتاً ساده است بطوریکه در ابتدا داده‌های تمرینی و ورودی نشانه‌گذاری (توکن‌سازی) شده و سپس به هر نشانه (توکن)، مقدار احتمال، تخصیص داده می‌شود که نماینده‌های کلمات کوچک هستند. در انتها، آمار حاصل شده مورد مقایسه قرار می‌گیرند تا زبان متن داده شده را تعیین کنند. ایدۀ دیگر، استفاده از واژگان پالایشی (stop words) بر مبنای قانون زیف است: این قوانین اساساً بیان می‌دارند همیشه مجموعه‌ای از کلمات در یک زبان وجود دارند که شامل کلماتی هستند که نسبت به بقیه بیشتر استفاده می‌شوند. تفکر بنیادین در پس این متد این است که مردم برای مشخص کردن زبان یک متن فقط به مقدار کمی ‌اطلاعات نیاز دارند و برای اینکار حتی نیاز نیست که آنها در آن زبان تبحر زیادی داشته باشند.

این متد نیازی به بهره‌گیری از قوانین پیچیده زبانی مانند نحو و معناشناسی ندارد. با اینکه این روش هنوز هم کاربرد دارد، اما بعداً توضیح داده می‌شود که سهولت آن، کار را برای سیستم LID با چنین ماهیتی برای استفاده در متون چند زبانه و حتی متونی که خطای املایی دارند، سخت می‌کند زیرا کلمه‌ای که اشتباه املایی دارد از نتایج آماری کنار گذاشته می‌شود. علاوه بر این سیستمی‌که از این متد استفاده می‌کند، ممکن است در مواجهه با متون کوچک به مشکل برخورد کند، زیرا در آنها واژگان پالایشی استفاده شده به منظور تهیه یک آمار قابل توجه، کم هستند. برای از بین بردن این مشکل، رویکردهای موفق‌تر و کارآمدتری توسعه داده شدند.

LID بر پایه n گرم

n گرم یک برش n کاراکتری از رشته‌ای است که ابتدا یا انتهای آن خالی است تا بتوان آن را بصورت کلمه n گرمی‌ ابتدایی یا انتهایی دسته‌بندی کرد. این سیستم در ابتدا در ادبیات توسعه پیدا کرد و در دهه 1990 مورد آزمایش قرار گرفت و بعنوان یک رویکرد مفید و آزموده شده در LID باقی مانده است. سیستم اساساً بصورت زیر کار می‌کند:

مجموعه‌ای از متون بعنوان منابع مورد استفاده قرار می‌گیرند تا یک مدل را بسازند؛

این متون نشانه‌گذاری (با توکن) و اعداد و علامت‌های نگارشی کنار گذاشته می‌شوند؛

توکن‌ها اسکن شده و تا جایی که ممکن باشد n گرم تولید می‌شود؛

یک رتبه‌بندی بر مبنای بیشترین n گرم‌ها انجام می‌شود.

مثال 1: نمونه انواع مختلف n گرم از کلمه “text”

bakhtiari1

مثال 2: نمونه n گرمی‌تولید شده از رشته “John Kissed Mary”

Joh 2

ohn 2

hn 2

n k 2

ki 2

kis 2

iss 2

sse 2

sed 2

ed 2

d M 1

Ma 1

Mar 1

ary 1

  1. 1
  2. 1

.J 1

 نتیجه این چهار گام اساسی در تولید یک پروفایل یا مدل زبانی بر مبنای متن ارائه شده در زبان ارائه شده، بعداً مورد مقایسه قرار می‌گیرد و متعاقباً زبانی که متن با آن نوشته شده مشخص می‌شود. از آنجایی که مدل‌های زبانی فقط با فرض اینکه n گرم‌ها توالی‌های بایتی هستند، مشتق شده‌اند، هیچ پیش پردازش زبانی خاصی نیاز نیست. دانینگ (1995) بدلیل محبوبیت HMM، استفاده از آن را به‌عنوان روشی برای محاسبه احتمال توالی رشته‌ها معرفی کرد. با اضافه نمودن قاعده تصمیم بیز، وقتی سیستم با دو احتمال روبروست، محتمل‌ترین علت را انتخاب می‌کند. این کار موجب می‌شود وقتی با سیستم مختلف روبروست، غیرقطعی عمل کرده و پویایی بیشتری داشته باشد.

این متد مزایای خاصی دارد که عبارتست از:

این متد جایگزینی است برای تولید آمار بر مبنای تمام کلمات، زیرا رویکرد تولید آمار بر مبنای تمام کلمات، وقتی با متونی روبرو می‌شود که از منابع پرسروصدا می‌آید، نتیجۀ رضایت‌بخشی ندارد و متعاقباً خطاها و مشکلاتی مانند کلمات با غلط املایی، واژه‌های عاریتی و … را شامل می‌شود.

آمار بر مبنای تمام کلمات، به منظور نتیجه بخشی نیاز به متون بزرگتر دارد که این مشکل تا حدی توسط سیستم‌های بر پایه n گرم حل شده است.

این متد همچنین جایگزینی است برای سیستم‌هایی که نیاز به ساختن لغت‌نامه یا استفاده از مجموعه قوانین فرآیند واژه‌شناسی دارند، مانند ریشه‌یابی که باید اطلاعات پیکره متون و موضوعات مربوط به LID را در بر داشته باشند.

نه تنها این امکان وجود دارد که بتوان زبان متون را شناسایی نمود، بلکه می‌توان آن را بر اساس موضوعش دسته‌بندی کرد که اینکار با اندازه‌گیری n گرم‌هایی انجام می‌پذیرد که در متن و با توجه به شباهت به موضوع، بیشتر استفاده شده‌اند.

اضافه نمودن مدل مارکوف، امکان دستکاری ریاضیاتی در الگوریتم را به ما می‌دهد تا بتوانیم توالی n گرم‌ها را راحت‌تر مشخص نمائیم.

HMM، GMM و SVM

این سه روش آماری تقریباً در ادغام با تمام رویکردهای اشاره شد مورد استفاده قرار گرفته‌اند، که بدلیل قابلیت کاربرد آنها هم در SLID و هم در WLID است. مزایای پایه‌ای آنها عبارتند از سریعتر و کارآمدتر بودن فعالیت LID و مصرف کمتر از فضای ذخیره‌سازی. همانطور که قبلاً نیز گفته شد، آنها را می‌توان به راحتی بصورت ریاضیاتی دستکاری کرد.

HMM یک مدل تصادفی است که شامل تجزیه داده‌های تمرینی و متن ورودی می‌شود. وقتی گره‌ها تولید شدند، احتمالات انتقال بین هر یک از این گره‌ها تعیین می‌شوند. از یک گره به گره دیگر، سیستم، احتمالات انتقال را تنها بر اساس حالت فعلی تعیین می‌کند.

GMM روشی است که در آن خوشه‌بندی زیرجمعیت‌ها با اجرای مکرر الگوریتم روی داده‌های ورودی انجام می‌شود (گفتاری و نوشتاری). این روش اساساً بصورت زیر عمل می‌کند: مراکز خوشه‌ها در داده‌های ورودی تعیین می‌شوند، تکرارهای زیادی روی این مراکز تخمینی اولیه رخ می‌دهد تا نتایج اولیه به حداکثر رسیده و خوشه‌های تعریف شده واضح‌تری بدست آید، در انتها خوشه‌ها مشخص می‌کنند که داده‌ها متعلق به کدام زبان مفروض است.

ماشین‌های برداری حمایتی (SVMs)، بیشتر در SLID استفاده می‌شوند و همچنین برای رسیدن به بیشترین درجه خوشه‌بندی به کار می‌روند. کاربرد SPM، تعیین الگوها در ورودی و تطبیق دادن آنها با داده‌های تمرینی است.

سیستم‌های آنتروپی متقاطع

سیستم‌هایی که از آنتروپی استفاده می‌کنند معمولاً با روش n گرم ادغام شده و بعنوان کمکی برای الگوریتم‌های GMM و HMM اقدام می‌کنند. تلفیق این مفهوم، سعی می‌کند به سیستم در مواقعی کمک کند که با موارد متفرقه روبرو می‌شود تا از تکنیکی محتمل برای پیش‌بینی توالی رشته‌ها استفاده کند. مفهوم آنتروپی متقاطع، شامل درجه عدم اطمینان موجود در هنگام انتخاب نماد می‌شود: هر چقدر آنتروپی قابل توجه‌تر باشد، عدم اطمینان بیشتری در انتخاب نماد داده شده دارد. علاوه بر این فرآیند، همانطور که در بالا توضیح داده شد، استفاده از آنتروپی به این مورد اشاره دارد که از احتمالات مرتبط با یک حرف مورد نظر که بعد از یک حرف در گذشته آمده است، استفاده می‌شود تا پیش‌بینی شود چه حرفی در موقعیت‌های بعدی با خصوصیات مشابه خواهد آمد.

روش فرهنگ لغت

رهورک و کولکوس، یک توسعه فراتر را در زمینه رویکرد کلمه محور و وابسته به زبان ارائه دادند. این ایده تنها استفاده مداوم از واژگان پالایشی در یکی زبان مورد نظر نیست، بلکه پیاده‌سازی یک الگوریتم است برای شناسایی اینکه کلمات در حالت درجه‌بندی شده غیر باینری، چقدر با هم تناسب دارند. درنتیجه، این رویکرد، از فهم زبانی بهره می‌جوید و از معادله دقت و بازیابی بکار رفته توسط سیستم‌های بازیابی اطلاعات استفاده می‌کند تا زبان متن را شناسایی کند. الگوریتم پایه‌ای شامل مفهموم زیر می‌باشد:

bakhtiari2

در این الگوریتم، W نماینده تمام کلمات موجود در داده‌های پس زمینه و تمرینی بوده و L نیز مجموعه زبان‌های در نظرگرفته شده است. مفهموم rel نیز مقدار تناسب کلمات است.

اپلیکیشن‌ها

دو دسته اصلی از اپلیکیشن‌ها وجود دارد که در آن از فرآیند LID استفاده می‌شود: در یک سو اپلیکیشن‌های مبتنی بر گفتار و در سوی دیگر اپلیکیشن‌های مبتنی بر متن.

LID گفتاری

SLID (تشخیص خودکار زبان گفتاری) در بسیاری از اپلیکیشن‌ها کاربرد دارد و با اینکه بصورت گسترده مورد استفاده قرار می‌گیرد، با مشکلات زیادی روبرو است، خصوصاً زمانی که با تفاوت‌های گویشی، تشخیص لهجه و تفاوت‌های بین یک گوینده با گوینده دیگر (جنسیت، سن، پس‌زمینه‌های اجتماعی و …) سر و کار داشته باشد.

ترجمه گفتار به گفتار

LID در همان مراحل اولیه، در ترجمه گفتار به گفتار قابل استفاده است. صحبت گفته شده را دریافت کرده، که در اینجا زبان منبع است، آن را شناسایی می‌کند، سپس سیستم ترجمه کننده آن را به زبان مقصد تبدیل می‌کند.

تشخیص گویش و لهجه

وظیفه تشخیص گویش و لهجه، تشخیص گویش و لهجه با استفاده از نمونه‌های زبان‌های ورودی است. بررسی یک گویش یا لهجه غیر بومی، به علم زبان‌شناسی حقوقی نیز کمک می‌کند. زبان اصلی یک گوینده و متعاقباً ملیت او را می‌توان با تحلیل خصوصیات معرفی شده در گفتار گوینده غیر بومی شناسایی کرد.

گفتار تلفنی

شرکت‌ها از اپلیکیشن‌های مبتنی بر تلفن برای کاهش هزینه‌های مربوط به استخدام نیروهای انسانی استفاده می‌کنند. هدف این سیستم‌ها، شناسایی زبان تماس گیرنده و در صورت امکان، اتصال تماس به فردی مناسب است که در آن زبان تسلط کافی دارد. موسسات بانکی و شرکت‌های هواپیمایی معمولا از این سیستم‌ها استفاده می‌کنند.

LID نوشتاری

با توجه به افزایش میزان داده‌های نوشتاری، برای تشخیص و دسته‌بندی آنها، سیستم‌های SLID مورد نیاز است. علاوه بر آن، این داده‌ها در زبان‌های مختلفی وجود دارند که ممکن است ایراداتی از جمله اشباهات تایپی، غلط‌های املایی و… داشته باشد. همانند SLID، WLID باید با این مشکلات و چالش‌ها دست و پنجه نرم کند.

داده‌کاوی

در این مورد، هدف سیستم‌های LID، تشخیص زبان‌ها در مقادیر زیاد داده‌ها و پشتیبانی از تشخیص متون چندزبانه، متونی که از منابع می‌آیند مانند سیستم‌های تشخیص بصری حروف (OCR) و حتی متون دست‌نویس است. به عنوان مثال، گوگل از LID برای تشخیص زبان یک صفحه وب استفاده می‌کند و اگر زبان آن صفحه با IP کاربر فرق داشته باشد، گوگل پیشنهاد ترجمه خودکار را می‌دهد. علاوه بر این، داده‌ها را می‌توان طبق موضوع و ژانر، گروه‌بندی و زیرگروه‌بندی کرد.

ترجمۀ ماشینی

LID در ابتدای فرآیند ترجمۀ ماشینی (MT) برای تشخیص زبان متن و حتی تشخیص تکه‌های چندزبانه بکار می‌رود.

مالکیت یک تالیف

مولفان مختلف سبک‌ها و خصوصیات آماری مختلفی دارند که مخصوص به خودشان است. با تحلیل نوشته‌های یک مولف تا حد امکان، این خصوصیات آماری تهیه شده و می‌توان تالیف را مشخص نمود. از این کار می‌توان برای کشف سرقت‌های ادبی و حتی شناسایی مولفان استفاده کرد.

بررسی املایی و اصلاح

LID در سیستم‌های بررسی املایی و اصلاح برای ویرایش متون مفید بوده و یک جزء ضروری به حساب می‌آید. هدف آن، شناسایی زبان بدون در نظر گرفتن اشتباهات موجود در متن بوده و به کاربر نیز پیشنهاد اصلاح آن را می‌دهد. این اشتباهات ممکن است به علت متون تهیه شده از منابع پرسروصدا مانند OCR (تشخیص بصری حروف) باشد.

قطعه‌بندی کلمات

قطعه‌بندی کلمات، به تشخیص اینکه کلمه در کجا شروع و در کجا تمام می‌شود، مربوط می‌شود. یکی از چالش‌های اصلی سیستم‌های LID در این حوزه زمانی است که با زبان‌هایی مانند زبان‌های آسیایی سروکار داریم که دارای مرزهای صریحی نیستند. قطعه‌بندی کلمات برای سیستم‌های بازیابی اطلاعات حائز اهمیت است.

 

شناسه دست خط

یکی از مزایای سیستم‌های LID دست خطی، فراهم نمودن منابع بیشتر برای بازیابی داده‌ها و یافتن ویژگی‌هایی است که در نویسنده مدنظر وجود دارد. از آنجایی که دست خط‌های نویسندگان متفاوت است و به این دلیل که ما یک حرف مشخص را همیشه مشابه هم نمی‌نویسیم، ایجاد یک سیستم تشخیص عمومی ‌و قابل اتکا بسیار چالش‌برانگیز است. ویژگی‌های رایج استفاده شده در تشخیص حروف عبارتند از: ویژگی‌های منطقه‌ای، ویژگی‌های ساختاری، ویژگی‌های جهت‌دار، نقاط و خطوط متقاطع.

LID آنلاین

سیستم‌های LID بصورت آنلاین نیز مورد استفاده قرار می‌گیرند (مثال‌های بعدی از «وضعیت هنر» را ببینید. کاربران می‌توانند در یک صفحه اینترنت تایپ نموده یا متنی را کپی کنند و سیستم LID زبانی را که متن به آن نوشته شده است، شناسایی می‌کند. یک تکنیک دیگر LID، توسط Google Translate بکار می‌رود و زبان منبع را (بین 80 زبانی که پشتیبانی می‌کند) در صورتیکه کاربر آن زبان را نداند، تشخیص می‌دهد و سپس توسط ترجمه ماشینی (TM) فرآیند ترجمه را انجام می‌دهد.

بهترین فناوری روز

از ابتدای تحقیق و توسعه LID، اپلیکیشن‌های زیادی تولید شده است. امروزه، افزایش تعداد کاربران کامپیوتر و موبایل، موجب ایجاد تمایلی روزافزون برای توسعه اپلیکیشن‌هایی شده است تا نیاز آنها را تامین نماید. همانطور که قبلا نیز گفته شد، سیستم‌های آنلاین LID را می‌توان به راحتی در اینترنت دید. اینترنت، با درجات متنوعی از پیچیدگی و دقت، به مردم بصورت کاربرپسند ارائه شده و حتی وب‌سایت‌ها و شرکت‌هایی را پیشنهاد می‌دهد که می‌توان بصورت آنلاین پیدا کرد:

bakhtiari3

سیستم‌های LID در گستره‌ای پایین‌تر، برای موبایل‌ها نیز در دسترس هستند. یک نمونه، اپلیکیشن تشخیص زبان است که بیش از 50 زبان را پشتیبانی می‌کند. اپلیکیشن محبوب دیگر Google Translate است. همانطو که قبلا نیز گفته شد، هر دو نسخه موبایل و آنلاین قادرند ورودی‌های زبان نادرست را تشخیص دهند. علاوه بر این، اپلیکیشن موبایل قادر است این کار را در مورد دست خط‌ها نیز بصورت کاملاً دقیق انجام دهد. همچنین، اپلیکیشن‌های موبایل که از تکنولوژی LID بهره می‌برند، این قابلیت را در کیبورد خود دارند. یک نمونه، کیبورد قابل شخصی‌سازی شرکت بلک‌بری است که زبانی را که کاربر با آن در حال تایپ کردن است، در لحظه تشخیص می‌دهد. نمونه‌ای دیگر adaptxt برای کاربران اندروید است: کاربر این اپلیکیشن و زبان‌هایی را که می‌خواهد این برنامه پشتیبانی می‌کند، دانلود می‌نماید. سپس کاربر می‌تواند آزادانه به آن زبان‌ها تایپ کند. به عنوان مثال، اگر کاربر یک زبان از میان زبان‌های دانلودی را به عنوان زبان ورودی انتخاب کند و بخواهد به زبان دیگری از مجموعه زبان‌های دانلودی‌اش تایپ کند، این اپلیکیشن می‌تواند آن زبان را پیش‌بینی کرده و حروف و دایرۀ واژگان مربوط به آن زبان را پیشنهاد دهد.

یکی از موارد مهم در این حوزه، فرآیند پیام دادن است. شرکت اپل در این خصوص یک توسعه با تمرکز بر اسناد چند زبانه ارائه داده است. با بکارگیری تشخیص دهنده خودکار زبان، کاربر می‌تواند در یک متن با زبان‌های مختلف تایپ کند، بدون اینکه نیاز باشد تنظیمات را عوض کند. این کار نه تنها باعث می‌شود که عمل پردازش کلمات بسیار پویاتر باشد، بلکه همچنین عمل بررسی املای کلمات با محدودیت کمتری مواجه می‌شود که این کار می‌تواند بصورت خودکار یا با درخواست کاربر انجام شود.

با تمرکز بیشتر شرکت‌ها بر روی علایق مخاطبینشان، اکنون برای کاربران باتجربه‌تر این امکان وجود دارد که به زبان کد مربوط به تشخیص زبان، دسترسی داشته باشند تا بتوانند نرم‌افزار خودشان را بسازند یا نرم‌افزارهای موجود را ارتقاء دهند. ابزار تشخیص زبان فشرده گوگل و کد تشخیص زبان پایتون برای کاربران در دسترس نیست، پس می‌توان نتایج را شاهد بود.

همانطور که قبلا نیز گفته شد، داده‌کاوی (DM) یکی دیگر از حوزه‌های بسیار مهم و چالش برانگیز است. اسناد چند زبانه در مرکز تحقیقات LID هستند و NER (تشخیص موجودیت‌های نام‌دار) اخیراً مورد توجه توسعه‌دهندگان و محققان قرار گرفته است. تکنیک‌های استفاده شده اساساً آماری هستند اما داده‌کاوی به تلفیق محتوای معنایی بیشتری نیاز دارد. برای بهبود افزایش این محتوا و تمرکز بر تفاوت‌های فرهنگی، بعضی از سیستم‌های LID از تحلیل داده‌های عمومی‌در دسترس بهره می‌برند (مانند توییتر و ویکی پدیا).

 

آینده

سیستم‌های LID پیشرفت کرده‌اند و در حال تکامل نیز هستند. بعضی از موضوعاتی که نیاز به توجه خاص و توسعه دارند عبارتند از: معناشناسی، تشخیص گویش‌های متنوع و زبان‌های مختلف، تشخیص خطاهای املایی، بازیابی داده‌ها، اسناد چند زبانه، MT (ترجمه ماشینی) و ترجمه گفتار به گفتار.

معناشناسی یکی از موضوعات اصلی است که نیاز به توجه ویژه در زمینه سیستم‌های LID دارد. به منظور تشخیص یک زبان، غالباً تحلیل زمینه و محتوای اطلاعات تهیه شده ضرورت دارد. تکنیک‌های بکار رفته تا امروز از دیدگاه فنی مناسب بوده‌اند، اما از نظر معناشناسی نه. کدگزینی، نه تنها از دیدگاه ماهیت چند زبانه بودنش بلکه از دیدگاه پیچیدگی معناشناسی‌اش چالش ایجاد می‌کند: در یک متن، در یک پست شبکه اجتماعی یا در یک گفتار، مردم ممکن است کد ارتباطی‌شان را بنا به دلایل اجتماعی مانند گونۀ کاربردی، استانداردهای اجتماعی و متن، سبک و … تغییر دهند.

با افزایش استفاده از شبکه‌های اجتماعی (توییتر، فیس‌بوک، لینکدین (LinkedIn) و …)، گویندگان چندزبانه در محیط‌های آنلاین زبان‌هایشان را تغییر می‌دهند و در نتیجه نیاز روزافزونی به LID در مجموعه داده‌های بزرگتر بجای مجموعه داده‌های کوچکتر است، که می‌توانند برای ساختن منابع زبان برای زبان‌های اقلیت مفید باشند.

علاوه بر این، املاهای بسیار رسمی، خطاهای دستوری، متن ویرایش نشده توسط مردم عادی و موجودیت‌های نام‌دار، چالش‌هایی را برای سیستم‌های LID ایجاد می‌کند. در نتیجه کاری که محققان سعی در انجامش دارند، ارتقاء توانایی سیستم برای مقابله با نوشتار غیررسمی، متون چندزبانه، کدگزینی، متون بسیار کوتاه و داده‌های نامتوازن است.

داده‌کاوی نیز در خصوص تعدادی از موضوعاتی فنی‌اش مانند خوشه‌بندی، خلاصه‌سازی داده‌ها، طبقه‌بندی، یافتن شبکه‌های وابسته، تحلیل تغییرات و تشخیص ناهنجاری‌ها و همچنین موضوعات غیر فنی‌اش، چالشی جدی برای سیستم‌های LID ایجاد می‌کند. با توجه به افزایش تولید داده‌های ایجاد شده توسط کاربران در شبکه‌های اجتماعی مانند توییتر، فیس‌بوک، ویکی‌پدیا، لینکدین، و مشابه آنها، برای سیستم‌های LID ضروری است که با محتوای معناشناسی، خطاهای دستوری، املای غیررسمی، تنوع گویش‌ها، زبان‌های در اقلیت و زبان‌هایی که به هم شباهت دارند یا از یک ریشه هستند و وام واژه‌ها مقابله کند. این نکته حائز اهمیت است که اطلاعات تولیدی توسط کاربران، یک منبع غنی است که محققان و توسعه‌دهندگان می‌توانند زمانی که اطلاعات در مورد یک زبان خاص محدود است، از آن استفاده کنند.

شناسه دست خط، اسناد تشخیص بصری حروف (OCR) و طبقه‌بندی، حوزه‌هایی مهم برای تحقیق هستند. عمل تشخیص، رونویسی خودکار اسناد چندزبانه و جستجو برای اسنادی را که دست خط‌های خاصی دارند، آسان نموده است. امروزه، سیستم‌های LID با دشواری‌هایی در شناسایی اطلاعاتی که از این منابع بدست می‌آیند، روبروست که دلیل آن سبک‌های نوشتاری، اندازه حروف، شکل‌ها، فونت‌ها، فاصله بین خطوط و خود کلمات از یک سو و خطاها و ایرادات تایپی از سوی دیگر است که منتج به نتایج غیر قابل اطمینان می‌شود. سیستم‌های موجود عملکرد خوبی نشان داده‌اند، اما قطعاً جا برای کارهای بعدی وجود دارد. برای اینکه فرآیند تشخیص موفق و کارآمد تلقی شود، باید علی‌رغم خطاهای متنی و کیفیت اسناد دست نوشته و OCR، بتواند نتایج قابل اعتماد نشان دهد و همچنین کمترین فضای ذخیره‌سازی و زمان انجام فرآیند را داشته باشد. علاوه بر این، یکی دیگر از حوزه‌های اصلی قابل ارتقاء، توسعه روشی برای تشخیص خطوط متن در یک سند است که می‌توان آن را برای بخش‌های یک صفحه نیز گسترش داد. همچنین برای سیستم‌های LID موجود، بهبود میزان بهره‌وری در زمانی که زبان اولیه یک متن منبع را مشخص می‌کند، موضوعی مهم است.

تشخیص موجودیت‌های نام دار (NER) یکی دیگر از اپلیکیشن‌هایی است که هنوز نیاز به گسترش دارد. هدف از این کار، کمک به کامپیوتر برای تشخیص موجودیت‌های نام‌دار (NE)‌ها و دسته‌بندی آنها از طریق قوانین متنی و اطلاعات نحوی در دسته‌هایی مانند فرد، سازمان، مکان، مخفف، مقیاس، عدد، اصطلاح، تاریخ و زمان و … است. سیستم‌های NER فعلی می‌توانند از پس موجودیت‌های چند نشانی (چند توکنی) برآیند اما نمی‌توانند مرزهای موجودیت‌ها را شناسایی کنند.

علاوه بر اینها، حوزه‌های دیگر در زمینه سیستم‌های LID که نیاز به توسعه دارند ترجمه ماشینی و ترجمه گفتار به گفتار هستند: هدف از این کار تشخیص موفقیت‌آمیز زبان‌ها، گویش‌ها، زیرگویش‌ها یا تنوع‌های گویشی، اصطلاحات خاص، اسامی‌ثابت و … و پس از آن پیشبرد فرآیند ترجمه می‌باشد و در خصوص ترجمه گفتار به گفتار نیز انجام دادن مواردی از جمله: گفتگوهای آنی در محیط‌های مختلف مانند گفتگوها در گردهمایی‌ها، از طریق لپ‌تاپ یا موبایل، کنفرانس‌های تحت وب، وبینارها، دوره‌های آموزشی، اطلاعات توریستی در هتل‌ها و فرودگاه‌ها و … مدنظر است.

[1] . Qafmolla, M.A.Nejla (2017), Automatic Language  Identification. European Journal of Language and Literature Studies, V.3, Issue 1, Pages 140 to 149.

 

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *