| jtokenis פתרון תוכנה חופשית המשלבת קבוצה של tokenisers כי להתמודד באופן אינטואיטיבי עם שפה טבעית |
הורד עכשיו |
jtokenis דירוג וסיכום
- מערכות הפעלה:
- Windows All / Unix
jtokenis תגים
jtokenis תיאור
מיתרים tokenising לתוך האסימונים המרכיבים שלה / מילים יכול להוכיח מסובך עבור דוגמאות לא טריוויאלי. בפרט, כאשר אתה מתמודד עם שפה טבעית, אתה חייב לקחת בחשבון גם סימני פיסוק גם כדי לבודד את המילים. כל אחד מה- ToKenisers לאמץ מבנה דומה java.util.stringtokenizer במונחים של איך ליצור את הכיתות לחלץ את אסימונים. זה אומר שהם פשוט לשימוש. אתה יכול להקליד, להעתיק ולהדביק, או אפילו לטעון קובץ טקסט לתוך היישום. עליך לבחור את ToKenizer של בחירה (וכל אפשרויות של ריבית) ולאחר מכן לחץ על כפתור Tokenise. התוצאות שלך יוצגו ברגע שהן מעובדות ויש לך אפשרות לשמור את התוצאות לקובץ, אם תבחר. GUI שימושי במיוחד עבור ניסויים בשיטות tokenisation בסביבת הוראה (כגון קורס NLP). זה יהיה גם לעניין את אלה המבקשים להשתמש בספריית JTOKEISER אבל אין לך את חוויית התכנות Java לנצל את הקוד ישירות. Jtokenis מורכן של ארבעה tokenisers כי כל להאריך מתוך מחלקה של Tokenizer: · Whitespacekokeniser - זה מחלק מחרוזת על כל התרחשות של Whitespace, הכוללים רווחים, Newlines, כרטיסיות ו linefeeds. · Stringtokenis - זה בעצם זהה java.util.stringtokenerizer עם כמה שיטות נוספות (ומרחיב מ Tokeniser). התנהגות ברירת המחדל שלה היא לפעול כ- WhitespaceTOneiser, עם זאת, תוכל לציין קבוצה של תווים שיש להשתמש בהם כדי לציין מילה מילה. · Regextokener - זה Tokeniser הוא הרבה יותר גמיש כפי שאתה יכול להשתמש בביטויים רגולריים כדי להגדיר מה אסימון. אז, "\ w +" פירושו בכל פעם שהוא תואם אותיות אחת או יותר, זה ישקול כי מילה. כברירת מחדל, היא משתמשת בביטוי רגיל שווה ל - ToKeniser Whites. · Regexseparatortokener - זה יכול להיחשב כמו stingtokenis מתקדמים. ואילו Stringtokeniser מוגבל להגדרת תעלמות כמו קבוצה של תווים בודדים, regexseparatortokener יכול לנצל ביטויים רגילים עבור גישה עשירה יותר וגמישה יותר. · Babliteratortokeniser - אחד של tokenisers מתוחכם ביותר בספריה, אם כי צריך לשמש רק על מחרוזות שפה טבעית לבודד מילים. זה גם מגיע עם כללים מובנים על איך למצוא מילים, לדעת איך להתעלם פיסוק, וכו ' · SentencetOneiser - זה גם משתמש לבלות כמו האמור לעיל, אבל מכוון לקראת מציאת גבולות המשפט. את "אסימונים" זה tokeniser הם למעשה משפטים בודדים.
jtokenis תוכנה קשורה