היווצרותמכללות ואוניברסיטאות

מהי בלשנות קורפוס?

רק לפני כמה עשרות שנים כדי להפוך את המחקר הלשוני, מדענים יכלו רק לחלום עליו. העבודה נעשתה ביד, זה מושך מספר גדול של תלמידים, יש טעויות "רשלניות" סבירות משמעותית, והכי חשוב - כל זה לקח הרבה זמן, הרבה זמן.

עם התפתחות הטכנולוגיה המחשב הפך להיות אפשרי לערוך מחקר על סדר גודל מהר, והיום אחד הכיוונים המבטיחים ביותר בחקר השפה היא בלשנות קורפוס. התכונה העיקרית שלו היא שימוש כמויות גדולות של מידע בטקסט, מידע לתוך מסד נתונים יחיד, באופן מיוחד שנקראת הגוף הניכר.

נכון להיום, ישנם בניינים רבים שנוצרו עם מטרות שונות על בסיס חומר לשוני שונה פורש מן מ'עד עשרות מיליארדים יחידות לקסיקליות. כיוון זה מוכר בתור מבטיח ומדגים התקדמות משמעותית לקראת מטרות יישום ומחקר. מומחים, בדרך זו או אחרת להתמודדות עם שפה טבעית, מומלץ להכיר את הגוף של טקסטים לפחות ברמה בסיסית.

היסטוריה של בלשנות קורפוס

היווצרות מגמה זו נובעת הקמתה של ארצות הברית ב גוף בראון ב 60-ies המוקדמת של המאה שעברה. האוסף כולל את הטקסטים של כל 1 מ'צורות מילה, והיום הגוף בגודל זה יהיה לגמרי תחרותי. זה נובע במידה רבה את קצב הפיתוח של טכנולוגיית מחשב, כמו גם הדרישות הגוברות משאבי מחקר חדשים.

בשנתי ה -90 בלשנות קורפוס הגיחו לתוך משמעת מלאה ועצמאית, אוסף של טקסטים הוכן ומסומן עבור עשרות שפות. בתקופה זו הוא נוצר, למשל, אסימונים מיליון הלאומי הבריטי קורפוס 100.

עם ההתפתחות בתחום זה של בלשנות, כרכי טקסט הופכים יותר ויותר (ולהגיע מיליארדים יחידות מילון), ואת הפריסה נעשית מגוונת יותר. נכון להיום, את מרחב האינטרנט ניתן למצוא פגרים הכתובים ומדוברים שפה, רב-לשוני, ולמידה מוכווני ספרות אמנותית או אקדמית, כמו גם מינים רבים אחרים.

מהן הדיור

סוגי הגוף בלשנות הגוף יכול להינתן מכמה סיבות. באופן אינטואיטיבי, את הבסיס לסיווג יכול להיות שפת טקסט (רוסית, גרמנית), מצב הגישה (קוד פתוח, סגור, מסחרי), הז'אנר של חומר המקור (בדיונית, תיעודי, אקדמית, עיתונות).

דרך מעניינת מייצר חומרים של השפה המדוברת. מאז ההקלטה המכוונת של דיבור כזה כדי ליצור סביבה מלאכותית של המשיבים, ואת החומר וכתוצאה מכך לא יכל להיקרא "ספונטני", בלשנות קורפוס מודרני הלך לכיוון השני. מתנדב מצויד במיקרופון, ובמהלך היום מיוצר שיא של כל השיחות, בהם היא משתתפת. אנשים מסביב, כמובן, לא יכול לדעת כי במהלך השיחה היומיומית תורמת להתפתחות המדע.

מאוחר יותר קבל שיא מאוחסן במסד הנתונים מלווים סוג תמליל טקסט מודפס. לפיכך, הוא הופך להיות סימון אפשרי הנדרש כדי ליצור דיור דיבור יומיומי אוראלי.

יישום

במידת האפשר את השימוש בשפה, ואולי השימוש בטקסטים בניינים. שיטות ליישם את הספינה בבלשנות עשוי להיות:

  • יצירת תכנית קביעת המפתח, נעשה שימוש נרחב בפוליטיקה ובעסקים לעקוב אחר תגובות חיוביות ושליליות של בוחרים ולקוחות, בהתאמה.
  • מערכת המידע חיבור מילונים ומתרגמים כדי לשפר את הביצועים שלהם.
  • מגוון של משימות מחקר שתורמות להבנת יחידת השפה, ההיסטוריה של הפיתוח שלה וחיזוי שינויים בעתיד הקרוב.
  • פיתוח מערכות יחזרו מידע מבוסס על תכונות מורפולוגיות, תחביריות, סמנטיות אחרות.
  • אופטימיזציה של מערכות ועוד לשוניים שונים.

שימוש במבנים

ממשק משאב דומה עם מנוע חיפוש טיפוסי, ומנחה את המשתמש כדי להזין מילה או צירוף של מילות לחיפוש בסיס המידע. מלבד טופס השאילתה המדויקת יכולה להשתמש בגרסה המשופרת, המאפשרת למצוא מידע טקסטואלי על כמעט כל קריטריונים לשוניים.

בסיס חיפוש עשוי להיות:

  • חברות של קבוצה מסוימת של חלקי דיבור;
  • תכונות דקדוקיות;
  • סמנטיקה;
  • צביעה סגנונית ורגשית.

ניתן גם לשלב את קריטריון החיפוש עבור רצף של מילים, למשל, למצוא את כל המופעים של הפועל בגוף מתוח, הראשון בהווה יחיד, אשר מגיעה לאחר מילת יחס "ב" ואת עצם במקרה הפעול. פתרון משימה פשוטה כזו מביא את המשתמש כמה שניות ודורש רק כמה לחיצות עכבר בתחום שצוין.

התהליך של יצירת

החיפוש עצמו יכול להתבצע על כל subcorpus ואחד נבחר במיוחד, בהתאם לצרכים בהשגת מטרה מסוימת:

  1. השלב הראשון הוא להגדיר אילו טקסטים מהווים את הבסיס עבור המקרה. למטרות מעשיות, הוא משמש לעתים קרובות סיפורים עיתונאיים, חדשות, תגובות באינטרנט. פרויקט המחקר הוא השימוש במגוון רחב של סוגי חבילה, אבל הטקסט צריך להיבחר על פי מכנה משותף כלשהו.
  2. האוסף שהתקבל טקסטים נתונים מקדים, יש תיקון שגיאות, אם בכלל, שהוכן על ידי תיאור ביבליוגראפי חוץ-לשוני של הטקסט.
  3. מתבטל כל המידע שאינו טקסטואלי: מנקה את הגרפיקה, תמונות, השולחנות.
  4. היא הקצאה של אסימונים, שהן בדרך כלל דיבור, להמשך עיבוד.
  5. לבסוף, זה נשא סימונים מורפולוגי, תחבירי ואחרות שהושגו ריבוי האלמנטים.

התוצאה של כל העסקות שנעשו על ידי מבנה תחבירי עם המופץ בו ריבוי של אלמנטים, שכל אחד מהם מזוהים חלק הדיבור, דקדוק, ובמקרים מסוימים, את התכונות הסמנטיות.

קשיים ביצירת מבנים

חשוב להבין כי הוא לא מספיק כדי להרכיב קבוצה של מילים או משפטים עבור הגוף. מצד אחד, אוסף של טקסטים צריך להיות מאוזן, כלומר, מייצג סוגים שונים של טקסטים בפרופורציות מסוימות. מצד שני - את תכולת המתחם צריכה להיות מחולקת באופן מיוחד.

הבעיה הראשונה נפתרת על ידי סכם: למשל, באוסף כולל 60% של טקסטים ספרותיים, 20% של סרטים תיעודיים, אחוז מסוים ניתן פנייה בכתב של השפה המדוברת, חקיקה, עבודות מדעיות, וכו 'היום גוף מאוזן מתכון המושלם אינו קיימת ...

השאלה השנייה, לגבי פריסת תוכן, לפתור מאתגר. ישנן תוכניות מיוחדות ואלגוריתמים המשמשים אוטומט סימון של טקסטים, אבל הם לא נותנים תוצאה מושלמת, יכול לגרום לשיבושים ודורשים חוזרים ידני. הזדמנויות ואתגרים בהתמודדות עם בעיה זו מתוארות בפירוט במאמר V. פ Zaharova בלשנות קורפוס.

סימון טקסט מיושם בכמה רמות, אשר אנו מוסיפים למטה.

תיוג מורפולוגיים

מבית הספר, אנו זוכרים כי בשפה הרוסית, יש חלקים שונים של דיבור, וכל אחד מהם יש מאפיינים משלה. לדוגמא, הפועל יש קטגוריות של עניין והזמן הפנוי שבו אין שם עצם. דובר שפת בלי היסוס ירידות שמות עצם ופעלים המצומד, אבל כדי לסמן את הגוף של 100 מיליון. אסימוני עבודת כפיים לא יעבוד. כל הפעולות הדרושות יכול לבצע במחשב, לעומת זאת, בשביל זה היא צריכה להילמד.

תיוג מורפולוגי, המחשב חייב "להבין" כל מילה כמו חלק מסוים של דיבור שיש תכונות דקדוקיות מסוימות. מאז רוסית (ולכל שפה אחרת) מפעילה מספר כללים קבועים, אפשר לבנות הליך אוטומטי לניתוח מורפולוגי, להשקיע במכונית במשך מספר אלגוריתמים. עם זאת, ישנם חריגים לכלל, כמו גם גורמי מסבכים שונים. כתוצאה מכך, ניתוח המחשב נקי של היום רחוק מלהיות אידיאלי, ואפילו 4 השגיאה% מניב בשווי של 4 מיליון. מילים על הגוף של 100 מיליון. יחידות, המחייב חוזרת ידנית.

בספר מפורטות מתאר את הבעיה Zaharova V. פ "בלשנות קורפוס".

ביאור תחבירי

ניתוח או ניתוח - הליך הקובע את היחסים של מילים במשפט. באמצעות סדרה של אלגוריתמים אפשר לקבוע את הטקסט של נושא, נשוא, תוספות, פניות מרובות של דיבור. גלה אילו מילים הם הסדרה הראשית, ואשר - תלויה, נוכל לחלץ מידע ביעילות מטקסט ללמד את המכונה להנפיק בתגובה לבקשת החיפוש רק את המידע המעניין אותנו.

אגב, מנועי החיפוש המודרניים להשתמש בזה כדי לתת מספרים ספציפיים במקום טקסטים ארוכים בתגובה לשאילתות רלוונטיות, כמו "כמה קלוריות בתפוח" או "המרחק בין מוסקבה לסנט פטרבורג." עם זאת, כדי להבין אפילו את היסודות של התהליך שתאר את הצורך להתייעץ עם "המבוא לבלשנות קורפוס" או ההדרכה בסיסית אחרת.

סימון סמנטי

הסמנטיקה של המילה - כלומר, במונחים פשוטים, המשמעות. גישה נרחבת החלימה על הניתוח הסמנטי של תגי ייחוס מילה, המשקף את השתייכותו לקבוצה של קטגוריות ותת-קטגוריות סמנטיות. מידע כזה הוא יקר ערך עבור אופטימיזציה אלגוריתמים לנתח טון טקסט, תמצות אוטומטית ושיטות משימות אחרות של בלשנות קורפוס.

ישנם מספר "השורש" של העץ, מייצג מילה מופשטת עם סמנטיקה מאוד רחבה. כשלוחה של הצמתים בעץ נוצרות, המכיל יותר ויותר ספציפיים אלמנטים לקסיקליים. לדוגמה, המילה "יצור" עשויה להיות קשורה למושגים כמו "אדם" ו "חיה". המילה הראשונה תמשיך להסתעף מקצועות שונים, מבחינת קרבה, לאום, ואת השני - על כיתות וסוגי חיות.

השימוש במערכות אחזור מידע

תחומי השימוש בלשנות קורפוס מכסים תחומים שונים של פעילות. מרכבים משמשים להכנה והתיקון של מילונים, ליצור מערכות תרגום אוטומטיות, מפרש, יחזור עובדות, הקובע את הטון ועיבוד טקסט אחר.

בנוסף, משאבים כאלה משמשים באופן פעיל במחקר של שפות העולם והמנגנונים של תפקוד של השפה בכלל. גישת כמויות גדולות של מידע מוכן מראש מקלת לימוד מהיר ומקיף של המגמות של שפות פיתוח, ושינוי מהירות דיבור neologisms היווצרות היציב ערך יחידות לקסיקלית ואחרים.

מאחר שהעבודה עם כמויות כה גדולות של נתונים דורשת אוטומציה, היום יש אינטראקציה הדוקה בין בלשנות מחשב קורפוס.

לאומי רוסית קורפוס

במקרה זה (מקוצר NKRYA) כולל מספר subcorpus, המאפשר שימוש של משאב עבור מגוון רחב של משימות.

החומרים באתר מחולקים NKRYA:

  • לפרסומים של מקומיים וזרים -90 וה -2000, הן בתקשורת;
  • קלטת דיבור;
  • aktsentologicheski המסומנים טקסטים (דהיינו, סימני סטרס);
  • בנאום ניב;
  • שירה;
  • חומרים עם סימונים תחביריים אחרים.

מערכת מידע כוללת גם Subcorpus עם תרגומים מקבילים של יצירות מרוסית לאנגלית, גרמנית, צרפתית ושפות רבות אחרות (ולהיפך).

כמו כן באתר יש קטע של טקסטים הסטוריים, המייצג את הנאום הכתוב ברוסית בתקופות שונות של הפיתוח שלה. ישנו גם גוף ההדרכה, אשר יכול להיות שימושי עבור אזרחים זרים שליטה בשפה הרוסית.

הלאומי קורפוס רוסית כולל של 400 מ'יחידות לקסיקליות, ובמובנים רבים לקראת חלק משמעותי מן השפות של גופי אירופה.

סיכויים

עובדה לטובת ההכרה של מגמה זו היא הזמינות של מבטיח בלשנות קורפוס מעבדה באוניברסיטות רוסיות, כמו גם זרים. עם השימוש ומחקר במסגרת מקורות מידע וחיפוש זה כרוך בפיתוח של אזורים מסוימים בתחום טכנולוגיות גבוהות, מערכות לענות-שאלה, אבל זה נדון לעיל.

פיתוח נוסף של בלשנות קורפוס צפוי בכל הרמות, החל טכנית והן מבחינת יישום של אלגוריתמים חדשים לייעל את תהליכי חיפוש ועיבוד מידע, העצמת מחשבים, יותר זיכרון RAM, וכדי הצרכן, כי משתמשים הם יותר ויותר דרכים להשתמש בסוג זה של המשאב היומיום שלהם חייו ופועלו.

לסיכום

באמצע המאה הקודמת ב 2017 נראה בעתיד הרחוק, שם חלליות לנסוע ברחבי היקום רובוטים לעשות את כל העבודה עבור העם. למעשה, המדע גדוש "כתמים לבנים" ועושה ניסיונות נואשים כדי לענות על השאלות של האנושות במשך מאה מפריע. שאלות מתפקדת של השפה כאן תופסות מקום של כבוד, ואת ארון ובלשנות חישובית יכול לעזור לנו לענות עליהן.

עיבוד של ערכות נתונים גדולות יכול לזהות דפוסים, נגיש בעבר, לחזות את ההתפתחות של תכונות שפה ספציפית כדי לעקוב יצירה של מילות בזמן אמת כמעט.

ברמה מעשית, ניתן לראות את המתחמים העולמיים, למשל, ככלי פוטנציאלי להעריך את מצב הרוח הציבורית - האינטרנט הוא טקסטים שונים בסיס יומי מעודכנים כל זמן נוצרו על ידי משתמשים אמיתיים: זה תגובות וביקורות, ומאמרים, וצורות רבות אחרות של דיבור.

בנוסף, עבודה עם גופים תורמים להתפתחות באותה החומרה, כי מעורבות יחזור מידע, אנחנו מכירים את השירות "גוגל" או "Yandex", התרגום מכונה, מילונים אלקטרוניים.

אנחנו יכולים לטעון בביטחון כי בלשנות קורפוס עושה את הצעדים הראשונים בלבד, ובעתיד הקרוב תפרח.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 iw.birmiss.com. Theme powered by WordPress.