Notice
जनकृति का मई-जून 2017 सयुंक्त अंक आप सभी पाठकों के समक्ष प्रस्तुत है. अंक में प्रकाशित सामग्री आप विषय सूची के आधार पर बायीं ओर स्तम्भ में पढ़ सकते हैं.

अभिकलनात्‍मक भाषाविज्ञान का संक्षिप्‍त परिचय: प्रवेश कुमार द्विवेदी [लेख]

अभिकलनात्‍मक भाषाविज्ञान का संक्षिप्‍त परिचय

(Brief Introduction of computational Linguistics)

           

प्रवेश कुमार द्विवेदी

   पी-एच.डी. (सूचना एवं भाषा अभियांत्रिकी)

 प्रौद्योगिकी अध्ययन केंद्र (भाषा विद्यापीठ)

   म. गां. अं. हिं. वि., वर्धा (महाराष्ट्र)

   dpraveshkumar@gmail.com

 

विश्‍व जगत में मानव ही एक विचारशील एवं क्रियाशील प्राणी है, जो भाषा के माध्‍यम से अपने विचारों एवं विभिन्‍न क्रियाओं को व्‍यक्‍त करता है। इन्‍हीं विचारों और क्रियाओं के माध्‍यम से ही वह नि‍रंतर विकास की ओर उन्‍मुख हुआ है। मानव ने अपने समाज में विभिन्‍न प्रकार के विकास की ओर अग्रसर है जिसमें अभिकलन (Computer) भी विकास का बड़ा पर्याय एवं मुख्‍य घटक बन चुका है, जिसके बिना मानव एक पल भी रहने से हिचकने लगा है। आज के दौर में अभिकलन को मानव जीवन की एक बड़ी उपलब्‍धी मानी जा रही है। जिससे न सिर्फ मानवीय कार्यों को पूरा किया जा सकता है बल्कि उसे कृत्रिम मेधाप्रदान कर सोचने, समझने एवं सही निर्णय लेने की क्षमता से युक्‍त भी किया जा रहा है। अभिकलन हेतु ऐसी युक्तियों, संसाधनों एवं प्रणालियों का निर्माण किया जा रहा है जिससे मानव-मशीन के बीच संवाद स्‍थापित किया जा सके अर्थात मानव के आदेशानुसार मशीन सभी आदेशों का पालन एक आज्ञाकारी बेटे की तरह पूरा करे। इस परिस्थिति में अभिकलन ने एक नई शोध की दिशा को प्रदान किया जिसमें भाषा को विश्‍लेषित करने की आवश्‍यकता महसूस की गई। यह विश्‍लेषण अभिकलन में भाषा को स्‍थापित करने में सहायक सिद्ध हो रही है। इसका मतलब यह कतई नहीं है कि पहले भाषा का विश्‍लेषण नहीं किया गया। नि:संदेह भाषा का विश्‍लेषण कई विद्वानों ने विभिन्‍न आयामों में किया है जो आज भी प्रासांगिक हैं लेकिन अभिकलनात्‍मक भाषाविज्ञान ने एक नए शोध की दिशा एवं दशा के दृष्टिकोण को प्रस्‍तुत किया है। जिस पर विभिन्‍न कार्यों को संपन्‍न करना आपेक्षित माना जा रहा है। यहां पर भाषा न सिर्फ अकादमिक शिक्षा तक सीमित है बल्कि इसका प्रभाव बाजार में भी पर्याप्‍त मात्रा में व्‍याप्‍त हो चुका है। दरअसल, बाजार मांग के आधार पर प्रौद्योगिकी विभिन्‍न भाषिक उद्योगों पर केन्द्रित हो चुकी है, जिसके द्वारा विभिन्‍न उत्‍पादों का निर्माण किया जा रहा है, जिसका केन्‍द्रबिंदु भाषा ही है।          

भाषा ही एक मात्र ऐसा माध्‍यम है जिसके माध्‍यम से मानव अपने दैनिक जीवन की समस्‍त क्रियाओं को संपन्‍न करता है, और इस परिस्थिति में जब आज सूचना प्रौद्योगिकी ने मानव जीवन के हर पल एक जरूरी सामग्री का रूप धारण कर लिया है जिसके माध्‍यम से आज कम-से-कम अवधि में ज्‍यादा-से-ज्‍यादा कार्य पूर्ण किए जा रहे हैं, तब भाषा के बिना प्रद्योगिकी भी अधूरी हो जाती है और सूचना प्रौद्योगिकी के समस्‍त दरवाजे भी बंद हो जाते हैं। जब सूचना प्रौद्योगिकी में सूचनाशब्‍द का समावेश होता है तभी से प्राकृतिक भाषा की भूमिका स्‍पष्‍ट हो जाती है और यह हम सब जानते है कि सूचना बिना किसी प्राकृतिक भाषा के संभव ही नहीं है। जिसे प्रौद्योगिकी में कोडीकृत अथवा डिकोडीकृत करके संदेश भेजा एवं प्राप्‍त किया जाता है। यहां पर यह कहना बिल्‍कुल भी गलत नहीं होगा कि जहां से प्राकृतिक भाषा के कोडीकरण अथवा डिकोडीकरण की बात उत्‍पन्‍न होती है वहीं से अभिकलनात्‍मक भाषाविज्ञान का अधिकार क्षेत्र उत्‍पन्‍न हो जाता है। अत: यहां पर यह जान लेना आवश्‍यक हो जाता है कि आखिरकार अभिकलनात्‍मक भाषाविज्ञान किसे कहते है

प्राकृतिक भाषा हमारे दैनिक जीवन का अभिन्‍न अंग है, जिसके द्वारा मानव समुदाय आपस में विचार-विनिमय एवं सूचनाओं को संरक्षित करता है। भाषा के द्वारा ही मानवीय समस्‍त विचार, योजना एवं कठिन सोच को व्‍यक्‍त करना संभव हो सका है। यह एक अंतरानुशासनिक विषय है जिसमें भाषाविज्ञान, अभिकलन विज्ञान, कृत्रिम बुद्धि, सूचना विज्ञान एवं संज्ञानात्‍मक विज्ञान आदि समाहित हैं। प्राकृतिक भाषा को समझने और प्रजनित करने हेतु अभिकलनात्‍मक (Computational) प्रणाली का एक अध्‍ययन अभिकलनात्‍मक भाषाविज्ञान है, जिसके अंतर्गत विभिन्‍न ऐसे दक्ष प्रणाली का विकास करना है जिसके माध्‍यम से मानव-मशीन के बीच संवाद स्‍थापित किया जा सके अर्थात अभिकलन (Computer) मानवीय भाषा को समझ सके एवं प्रतिउत्‍तर में प्राकृतिक भाषा का उत्‍पादन कर सके। इसकी प्राथमिक प्रेरणा प्राकृतिक भाषा के लिए विशिष्‍ट व्‍यावहारिक प्रणालियों का विकास करना है। ऐसी प्रणालियों की संरचना तथा विभिन्‍न घटकों के लिए कलनविधियों की रूपरेखा तैयार करना अभिकलानात्‍मक भाषाविज्ञान की विशेष रूचि का विषय है। अभिकलनात्‍मक भाषाविज्ञान एक अंतरानुशासिक क्षेत्र विशेष का अध्‍ययन है जो प्रमुख रूप से तीन ज्ञान क्षेत्र भाषाविज्ञान, अभिकलनात्‍मक विज्ञान एवं तर्क का सम्मिलित विषय है। जिसके प्रमुख दो लक्ष्‍य हैं: पहला प्राकृतिक भाषा का विश्‍लेषण, प्रक्रम एवं संश्‍लेषण करना तथा दूसरा प्राकृतिक भाषा को अभिकलन के समझने योग्‍य बनाना।

अभिकलनात्‍मक भाषाविज्ञान का एक अर्थ में उद्देश्‍य अभिकलन को भाषिक अभिव्‍यक्ति (लिखना, पढ़ना, सुनना एवं बोलना) से परिपूर्ण किया जाना है। अभिकलन को भाषा की समझ स्‍थापित करने हेतु भाषावैज्ञानिक आधार पर भाषा के विभिन्‍न स्‍तर (जैसे- पद, पदबंध, वाक्‍य, प्रोक्ति एवं अर्थ) पर विश्‍लेषण एवं संश्‍लेषण करना आवश्‍यक हो जाता है। जिससे मशीन के द्वारा भाषावैज्ञानिक कार्य (जैसे अनुवाद), संसाधित पाठ (जैसे- पुस्‍तक, पत्रिका, समाचार-पत्र) आदि कार्य भी किया जाना संभव हो सके एवं मशीन में संग्रहित डाटा के द्वारा मानवीय कार्य को ज्‍यादा सरल और सहज के साथ संपन्‍न किया जा सके एवं भाषा का प्रयोग करके उपयोगकर्ता अभिकलन को कैसे उपयोग करना है? को आसानी के साथ समझ सके।

अभिकलनात्‍मक भाषाविज्ञान का सैद्धांतिक पक्ष लक्ष्‍य भाषा की विशेषता के आधार पर व्‍याकरणिक नियम एवं अर्थीय संरचना को अभिकलन में स्‍थापित करने योग्‍य बनाने हेतु वाक्‍यात्‍मक एवं अर्थीय विश्‍लेषण, संसाधन, संश्‍लेषण करके ऐसी तकनीकी एवं सिद्धांतों की खोज करना है जो संरचनात्‍मक एवं अर्थीय दोनों स्‍तर पर भाषा की विशेषता को समाहित कर सके। इसके द्वारा संज्ञानात्‍मक विकास एवं तंत्रिकाविज्ञान के विकास, भाषा संसाधन व भाषा शिक्षण का मस्तिष्‍क में कार्य करने के तरीका का अध्‍ययन एवं विश्‍लेषण भी किया जा सकता है। 

अभिकलनात्‍मक भाषाविज्ञान का प्रायोगिक क्षेत्र विस्‍तृत एवं बृहद है। जिसके प्रमुख क्षेत्र इच्छित प्रसंग के अनुसार पाठ का सफल प्रत्‍यायन, मशीनी अनुवाद, प्रश्‍नोत्‍तरीय प्रणाली, पाठ सारांशीकरण, पाठ व वाक् का विश्‍लेषण, अर्थविज्ञान, मनोवैज्ञानिक तथ्‍य, भाषा शिक्षण और पाठ से ज्ञान को प्राप्‍त करना आदि है। इसके अंतर्गत किसी भी प्राकृतिक भाषा का विश्‍लेषण एवं संश्‍लेषण करके भाषिक टूल्‍सों का निर्माण किया जाता है। किसी भी भाषिक टूल्‍स का निर्माण करने हेतु अभिकलन में भाषा को इनपुट किया जाता है एवं एक निश्चित संसाधन के पश्‍चात इच्छित आउटपुट प्राप्‍त किया जाता है। जिसमें प्राकृतिक भाषा के विभिन्‍न स्‍तर (स्‍वन, पद, पदबंध, वाक्‍य एवं प्रोक्ति) पर विश्‍लेषण एवं संश्‍लेषण करके किया जाता है। प्राकृतिक भाषा का विश्‍लेषण एवं संश्‍लेषण करके अभिकलन में स्‍थापित करने हेतु आवश्‍यक कलनविधि का निर्माण किया जाता है। प्राकृतिक भाषा समस्‍त प्रक्रिया इसी कलनविधि पर निर्भर करती है, जिसे संगणकीय मॉडल भी कहा जाता है। इसप्रकार यह कहा जा सकता है कि संगणकीय मॉडल ही अभिकलनात्‍मक भाषाविज्ञान की आधारभूत संकल्‍पना है, जिसके माध्‍यम से भाषा के नए आयामों एवं उपयोक्‍ता के आधार पर विभिन्‍न भाषिक टूल्‍सों को प्राप्‍त किया जा सकता है। 

आज के युग में अभिकलन के बिना दैनिक जीवन के विभिन्‍न कार्य कठिन ही नही बल्कि मुश्किल हो गया है। आज हमारे दैनिक जीवन में प्रयोग होने वाले महत्‍वपूर्ण कार्य जैसे: संपूर्ण देश की वित्‍त व्‍यवस्‍था एवं सुरक्षा, एयरपोर्ट का नियंत्रण, बांध का निर्माण, अस्‍पताल, शहरीय यातायात, घरेलू काम-काज, घर का अर्थशास्‍त्र, मनोरंजन एवं शिक्षण आदि अभिकलन की सहायता से संपन्‍न किए जा रहे हैं। उक्‍त विभिन्‍न कार्य को पूर्ण करने हेतु एक अभिकलन उपयोगकर्ता के माउस क्लिक के द्वारा संपन्‍न किया जाना संभव हुआ है। यद्यपि भविष्‍य में जब अभिकलन भाषिक क्षमता से युक्‍त हो जाएगा तब हमें माउस क्लिक करने भी आवश्‍यकता नहीं पड़ेगी बल्कि मुंह से बोलकर कमाण्‍ड दिया जायेगा और मशीन दिए गए कमाण्‍ड के कार्य को पूर्ण करेगी। वस्‍तुत: इस क्षेत्र में थोड़ी-बहुत सफलता प्राप्‍त भी हुई है परंतु पूर्ण रूपेण अभी तक मशीन सभी कार्य का संपन्‍न करने में सफल नहीं हुई है। मशीन को भाषिक क्षमता प्रदान करने की कई समस्‍याएं एवं कठिनाईयां उत्‍पन्‍न हो रही है जिनका निवारण कुछ हद तक संभव भी हुआ है और इस क्षेत्र में निरंतर शोध कार्य जारी है। मशीन को भाषिक क्षमता से युक्‍त कर मानव-मशीन के बीच संवाद स्‍थापित करना ही अभिकलनात्‍मक भाषाविज्ञान का मुख्‍य विषय क्षेत्र है।

किसी भी विषय का परिभाषा देना एक कठिन कार्य होता है फिर भी इस विषय के बारे में पिछले तीन-चार दशको में विभिन्‍न विद्वानों का ध्‍यान आकर्षित हुआ है एवं उन्‍होंने इसके पक्ष में अपने-अपने विचार एवं परिभाषा को गढ़ने का कार्य भी किया है। जिनकी परिभाषाओं को यहां पर उल्‍लेखित करना आवश्‍यक हो जाता है, जो इसप्रकार है:

राल्‍फ ग्रिसमैन के अनुसार :  “Computational Linguistics is the study of computer system for understanding and generating natural language”.

आक्‍सफोर्ड डिक्‍शनरी के अनुसार : “The branch of linguistics in which the techniques of computer science are applied the analysis and synthesis of language and speech”. 

हंश उस्‍जकोरिट (Hans Uszkoreit) के अनुसार : “Computational Linguistics is a discipline between linguistics and computer science which is concerned with the computational aspects of the human language faculty”.   

उपरोक्‍त परिभाषाओं से यह स्‍पष्‍ट हो रहा है कि अभिकलनात्‍मक भाषाविज्ञान एक अंतरानुशासिक विषय है जिसमें अभिकलन एवं भाषाविज्ञान दोनों ज्ञान के साथ-साथ तार्किकता का भी अध्‍ययन एवं विश्‍लेषण आवश्‍यक हो जाता है। यहां पर भाषाविज्ञान एक साधन के तौर पर एवं अभिकलन को एक साध्‍य के तौर पर प्रयोग किया जाता है। अभिकलनात्‍मक विज्ञान एवं भाषाविज्ञान दोनों एक ही सिक्‍के के दो पहलू हैं, जहां बिना भा‍षावैज्ञानिक ज्ञान के अभिकलन में भाषा को स्‍थापित कर पाना मुश्किल है वहीं भाषाविज्ञान का भाषावैज्ञानिक अध्‍ययन एवं विश्‍लेषण करके प्रतिपादित नियम, संगणकीय मॉडल तथा निर्मित कलनविधि अधूरा रह जाएगा। अत: अभिकलनात्‍मक भाषाविज्ञान एक स्‍वतंत्र अनुशासन है जो अभिकलनात्‍मक भाषाविज्ञान के समस्‍त अनुप्रयोग क्षेत्र के तर्कों एवं कलनविधियों पर आधारित है।

अभिकलनात्‍मक एवं सैद्धांतिक दोनों में ही भाषाविज्ञान साधन के रूप प्रयुक्‍त हुआ है। एकतरफ जहां सैद्धांतिक भाषाविज्ञान में भाषावैज्ञानिक प्राकृतिक भाषा के विभिन्‍न आयामों एवं प्रकार्यों का वैज्ञानिक सिद्धांत प्रतिपादित कर कार्य एवं कारण का पता लगाते हैं, वहीं अभिकलनात्‍मक भाषाविज्ञान में अभिकलनात्‍मक भाषावैज्ञानिक भाषाविज्ञान का व्‍याकरणसम्‍मत विश्‍लेषण कर नियमों का प्रतिपादन एवं कलनविधि का निर्माण करते हैं। दोनों में अध्‍ययन एवं विश्‍लेषण के अभिगम अलग-अलग प्रयोग किए जाते हैं। अभिकलनात्‍मक भाषावैज्ञानिक प्राकृतिक भाषा को इनपुट करके विश्‍लेषण, संसाधन एवं संश्‍लेषण कर संगणकीय मॉडल का विकास करते हैं। जहां संगणकीय मॉडल के विकास हेतु समस्‍त सिद्धांत एवं नियमों का प्रतिपादन किया जाता है। वहीं सैद्धांतिक भाषावैज्ञानिक भाषा के प्रदर्शन के आधार पर मुख्‍यत: किसी एक पक्ष पर केन्द्रित होकर सिद्धांत का प्रतिपादन करते हैं एवं मानवीय अभिव्‍यक्ति में प्रयुक्‍त वाक्‍य कैसे व्‍याकरणिक अथवा अव्‍याकरणिक सम्‍मत हैं; के सत्‍यता एवं असत्‍यता की जांच करते हैं। यहां भाषा के सिद्धांत एवं व्‍याकरण को वैश्विक बनाने का कार्य किया जाता है जो सभी प्राकृतिक भाषाओं में प्रयुक्‍त किया जा सके। चूंकि भाषा न सिर्फ ध्‍वनि, रूप, पद, पदबंध अथवा वाक्‍य तक ही सीमित होता है बल्कि इसमें सामाजिक, सांस्‍कृतिक, राजनीतिक एवं आर्थिक जैसे कारक तत्‍व विद्यमान होते है, जो भाषा के संपूर्ण अर्थ को प्रभावित करते है। अत: ऐसे कारक तत्‍वों का वर्गीकरण एवं निवारण आदि सैद्धांतिक भाषाविज्ञान के ज्ञानक्षेत्र में आते हैं।  जबकि अभिकलनात्‍मक भाषाविज्ञान में इन्‍हीं कारक तत्‍वों का भी समावेश करने हेतु ऐसे फार्मालिज्‍म की खोज करना है जिसके माध्‍यम से अभिकलन वैश्विक स्‍तर पर बड़े पैमाने में कार्य कर सके।

अभिकलनात्‍मक भाषाविज्ञान की संकल्‍पना भाषावैज्ञानिक दृष्टिकोण से ज्‍यादा प्रभावित है जिसमें प्राकृतिक भाषा को व्‍याकरण सम्‍मत विश्‍लेषण एवं संश्‍लेषण करने की क्षमता पर बल दिया जाता है। जबकि भाषा अभियांत्रिकी तकनीकि दृष्टिकोण से ज्‍यादा प्रभावित है, जिसमें भाषा को ज्‍यादा सरल एवं सहज बनाकर मुश्किल एवं कठिन कार्य को भी आसानी के साथ पूरा करने की क्षमता का विकास किया जाता है। मशीन में भाषा की समझ स्‍थापित करने हेतु प्रणाली के समस्‍त आयामों की खोजबीन एवं उनका संस्‍थापन करने पर बल दिया जाता है। मानव-मशीन के मध्‍य संवाद में भाषा की समझ को स्‍थापित करने हेतु भाषा के समस्‍त ज्ञान जैसे- शब्‍दकोश का ज्ञानवाक्‍यात्‍मक ज्ञान, अर्थीय ज्ञान, प्रोक्ति का ज्ञान एवं सांसारिक ज्ञान आवश्‍यक हो जाता है। यहां पर केवल यह कह देना कि भाषाविज्ञान के समस्‍त क्षेत्रों के अध्‍ययन एवं विश्‍लेषण मात्र से मानव-मशीन के बीच संवाद स्‍थापित किया जा सकता है, बिल्‍कुल ही गलत होगा, क्‍योंकि भाषा न सिर्फ शब्‍द, वाक्‍य पर निर्भर करता है अपितु यह मानव समाज की सभ्‍यता एवं संस्‍कृति पर भी निर्भर होती है। यहां बड़े पैमाने पर मशीन में भाषा को स्‍थापित करना अभियांत्रिकी का कार्य क्षेत्र है। भाषा अभियांत्रिक न केवल भाषा के समस्‍त पहलुओं का अध्‍ययन विश्‍लेषण करते हैं बल्कि इसके अंतर्गत ऐसे भौतिक संरचना के निर्माण पर भी बल देते हैं, जिसके द्वारा भाषा को ज्‍यादा सरल एवं सहज बनाया जा सके। भाषा अभियांत्रिकी, संगणक अभियांत्रिकी की वह शाखा है जिसमें प्रणाली में कृत्रिम बुद्धि को प्रदान कर इसतरह तैयार किया जाता है कि वह मानवीय भाषा को समझ कर ठीक उसी प्रकार व्‍यवहार करे जिस प्रकार मनुष्य भाषा को समझ कर कार्य करता है।भाषा अभियांत्रिकी एक ऐसा अनुशासन है जिसके अंतर्गत मानवीय भाषा से संबंधित कार्यों को संसाधित किया जाता है एवं जिसकी संसाधन प्रक्रिया और प्राप्‍त परिणाम दोनों उम्‍मीद के मुताबिक और औसत दर्जे का हो। प्रासंगिक वैज्ञानिक परिणाम और अभ्‍यास की संरचना दोनों ही साहित्‍य के क्षेत्र से संबंधित हैं। भाषा अभियांत्रिकी के अंतर्गत इलेक्‍ट्रानिक उत्‍पादों के साथ-साथ भाषिक अनुप्रयोग वाले प्रणाली को सहजतम रूप से तैयार किए जा सके। अर्थात जिस तरह से अन्‍य अभियांत्रिकी में किसी न किसी उत्पाद को तैयार किया जाता है ठीक उसीप्रकार यहां भी भौतिक उत्पादन के साथ-साथ भाषिक अनुप्रयोग तैयार किया जाना चाहिए जिसका प्रयोग संगणक भाषाविद के साथ-साथ अन्‍य उपयोगकर्ता इसका उपयोग कर सकें।

आज अभिकलनात्‍मक भाषाविज्ञान के प्रत्‍येक पहलुओं पर शोध-कार्य जारी है। देश एवं विदेश के कई शिक्षा एवं शोध संस्‍थान इस विषय पर शोध-कार्य में जुटे हुए है। हालांकि इस क्षेत्र में अभी तक पूर्ण सफलता प्राप्‍त नहीं हो पाई है, परंतु काफी हद तक हम सफल भी हो चुके हैं। यदि इसी गति से इस क्षेत्र में शोध-कार्य जारी रहेगा तो आने वाला भविष्‍य मशीनों का होगा, जिसमें मानव केवल मौखिक आदेश देकर कठिन से कठिन कार्य को सरलतम तरीके से संपन्‍न करने में सफल हो जाएगा।