شناساگر موجودیت نام‌های استنفورد - ویکی‌پدیا، دانشنامهٔ آزاد

شناساگر موجودیت نام‌های استنفورد این ابزار، توالی نام‌ها (نام‌های خاص) از جمله اسامی سازمان‌ها، مکان‌های جغرافیایی، نام و نام خانوادگی افراد را در یک متن شناسایی و استخراج می‌کند، همچنین می‌توان این نرم‌افزار را جهت استخراج نام ژن‌ها و پروتئین‌ها، زمان و تاریخ نیز گسترش داد. این نرم‌افزار که جهت تحلیل متون و داده کاوی مورد استفاده قرار می‌گیرد، تحت مجوز جنرال پابلیک لایسنس بوده و دانلود و استفاده از آن برای همگان به صورت آزاد امکان‌پذیر است، نسخه‌های فعلی (Stanford NER) نیازمند جاوا ۱/۸ یا بالاتر هستند.

ابزار شناساگر موجودیت نام‌ها، طیف گسترده‌ای از تکنیک‌های مبتنی بر یادگیری ماشین و مدل‌های آماری زبان را به همراه واژه‌نامه‌هایی، جهت تحلیل متون و استخراج نام‌ها به کار می‌گیرد. در اصل، ما به آن یک بلوک متن طبقه‌بندی شده می‌گوییم، و این نرم‌افزار آن را از طریق متن پردازش می‌کند، به ساختار متن ما نگاه می‌کند و مطابق آن با مدل‌های آماری برای شناسایی افراد، سازمان‌ها و مکان‌ها اقدام می‌کند.[۱]

روش راه اندازی[ویرایش]

جهت استفاده ابتدا، (Stanford NER) را از وبگاه مخصوص استنفورد دانلود کنید و آن را به دستگاه خود بیفزایید. هیچ گونه روش نصب پیچیده‌ای برای آن وجود ندارد، شما باید قادر به اجرای (Stanford NER) از پوشه ای که آنرا ذخیره کرده‌اید، باشید. به‌طور معمول، (Stanford NER) از خط فرمان اجرا می‌شود.

(Stanford NER) نیز به عنوان «CRF Classifier» شناخته می‌شود. این نرم‌افزار یک پیاده‌سازی کلی از مدل‌های زنجیره خطی شرطی (CRF) را فراهم می‌کند، به عبارت دیگر شما می‌توانید از این کد برای ساخت مدل‌های توالی برای (NER) یا هر کار دیگری استفاده کنید. با وارد کردن فایل‌های متنی به این نرم‌افزار و انتخاب یکی از سه گزینه موجود در بخش «CRF»، نرم‌افزار شروع به تحلیل و پردازش داده‌ها می‌کند و درنهایت اسامی و نام‌ها را در متن با برجسته سازی رنگی نشان می‌دهد. هنگامی که برنامه پردازش را به پایان رساند، می‌توانیم از داده‌های پردازش شده جهت مصور سازی یا تحلیل‌های بعدی خروجی بگیریم.[۲]

منابع[ویرایش]

  1. «The Stanford Natural Language Processing Group». nlp.stanford.edu. دریافت‌شده در ۲۰۱۹-۰۱-۲۸.
  2. «The Stanford Natural Language Processing Group». nlp.stanford.edu. دریافت‌شده در ۲۰۱۹-۰۱-۲۸.