

בן נוה
: מנחה
רות אלוני
לביא -
: לקוח
מכללת אפקה
הנדסת תוכנה
מערכת איסוף טקטסים תלויי נושא
מרשת האינטרנט
המערכת
מבצעת
זיהוי
התוכן של
בעמוד
האינטרנט
באופן
, אוטומטי
את כן כמו
הקישורים
שהעמוד
מפנה
אליהם
ולבסוף
מייצרת
קבצי
, טקסט
מילון
וקובץ
טקסט
נושאי
לכל
העמודים
שהורדו
בשאילתה
. הנוכחית
המערכת
בנויה
ממספר
מחלקות
עצמאיות
שלכל
מחלקה
תפקיד
בפני
עצמו
ומחלקה
שמפעילה
אלגוריתם
זיהוי
תוכן
וקישורים
המספקת
שירות
בדיקה
וזיהוי
עבור
מחלקת
הקילוף
וההורדה
(
Parser
-ו
Crawler
).
אלגוריתם
זיהוי
התוכן
את סורק
קוד
המקור
עמוד של
האינטרנט
ומבצע
מספר
פעולות
מחיקת של
פסקאות
שאינן
טקסט
המיוצג
כרצף
מילים של
ומשפטים
ומבצעת
בדיקה
אורך של
ושכיחויות
מילים
עבור
פסקאות
שזוהו
. כטקסט
בדיקת
רלוונטיות
תוכן
הפסקאות
הינה
מערכת
חוקים של
שפותחו
והותאמו
בתהליך
ניסוי של
טעייה
ובחינה
תוצאות
. התוכן
מערכת
החוקים
מורכבת
משלושה
חוקים
עיקריים
–
, אורך
הקשר
ושכיחויות
מילים
באופן
כזה
שהחוקים
משתנים
בהתאם
לאורך
יש חוק לכל , הפסקה
סף תנאי
המאשרים
את
. הפסקה של טיבה
בתהליך
איסוף
וניתוח
הדרישות
מהלקוח
הוגדרו
חמישה
מדדים
להצלחה
עבור
טיבו
וגודלו
התוכן של
שהמערכת
מייצרת
והוגדרה
השערת
מחקר
עבור
זיהוי שיפור
הדיבור
.
השערת
המחקר
–
ניתן
לשפר
ביצועי
מערכת
זיהוי
קבצי על דיבור
תוכן תלויי שמע
בעזרת
שימוש
במודל
הקשר תלוי שפה
על שאומן
טקסטים
שיאספו
בעזרת
המערכת
אנו . שתפותח
משערים
שניתן
לקבל
לפחות של שיפור
1%
-ה במדד
WER
בזיהוי
ביחס תוכן תלוי שמע
למערכת
העושה
שימוש
במודל
. כללי שפה
תוצאות הניסויים שבוצעו במסגרת הפרויקט בשיתוף המרכז לחקר הדיבור
נרשם
שיפור יחסי של כ
–
4.6
אחוזים עבור קובץ שמע בנושא
" אוכל "
שאילתות חיפוש
:
Describe your perfect meal
,
Favorite food
.
נוצר קובץ אחוד של כ
-
- מיליון ו
350
אלף מילים
.
רכיב שיפור
מודל
השפה
מנוע של
זיהוי
הדיבור
לצורך
שיפור
תוצאות
זיהוי
דיבור
באמצעות
איסוף
מידע של המוני
מרשת
האינטרנט
באופן
דינאמי
ומהיר
.
(