תמלול קבצי אודיו קול ווידאו על ידי רשת בעוד בני אדם

המלץ בדבר קישור עמוד תגובות הדפס מאמרשתף מאמר זה הזמן בפייסבוקשתף קישור זה בטוויטרשתף קישור זה ב-Linkedinשתף מאמר זה ב-Deliciousשתף קישור זה בין השנים Diggשתף מאמר זה הזמן ב-Redditשתף עמוד הגיע ב-Pinterest
בשבעה ימים הראשוני של מאי, 2010 רשת הכריזה בדבר שחרור בסדר גודל עולמי בידי מתן התמלול הווידאו שלה ביוטיוב. בזמן שפורסמה במרכז 2009, גרסת הבטא של תמלול קבצי אודיו סרטוני YouTube נתפסה זמינה למספר אוניברסיטאות נבחרות, שדרני חדשות וסוכנויות ממשלתיות.

ההיסטוריה בידי טכנולוגיית זיהוי הדיבור ראשיתה מסוף שנות ה-30, כאשר מעבדות AT&T Bell פיתחו טלפון פרימיטיבי שידע למצוא דיבור. החוקרים ידעו כיצד שהשימוש הנרחב בזיהוי דיבור יהווה עשוי ביכולת לתפוס והיה אם אמין ומקצועי ועקבי קלט מילולי פגיע ומורכב. אולם אירועים מכיוון שטכנולוגיית המחשוב אינם הייתה די טובה, הפיתוח של זיהוי דיבור מתפעל בתזמון חילזון.



חמישים קיימת מעתה ואילך, הכישורים אצל מכשירי אלקטרונים דיגיטליים מגוונים עלו באופן כללי אודות הטכנולוגיות המפורסמות והיקרות מאוד אצל שנות ה-30. זה הזמן התאפשר בשל פריצות הפרוצס שנעשו בייצור שבבים ומוליכים למחצה. המחסומים הכבירים ביותר למהירות ולדיוק על ידי זיהוי שיחה – מהירות המרקע והכוח – תיכף אינם שימשו אי נעימות.

בעלויות כוח מחשוב יקר שנתיים (נמדד ביחידות בקרב FLOPS) היכן שמדעני המחשבים על ידי שנות ה-30 של החברה יכלו לתכנן, מתכנתים הם בעלי זכאות עתה למרב אלגוריתמים לקוד ולפענוח בקרב חמש רב של דפוסי קול. מעשית הינם יכלו בזמן זה להתקין מסד פרמטרים על ידי מאות רבות של דפוסי קול יחודיים, להמיר בו לגלי סינוס דיגיטליים ולנתח סימבולים הכול על סמך המתמטיקה של אותות דפוסי קול. לאורך כמה זמן ספציפית, כאשר טכנולוגיות הדיבור לכתב הפכו לשימושיות; פירמות רבות התחילו להציע זיהוי קולי לקונים שלה – Dragon Dictation, Microsoft (XP, Vista), Google Voice וחברות תחום רבות.

אם כן עתה נשאלת השאלה – ועד ל כמה הטכנולוגיות הללו מקצועיות, בהשוואה תמלול יוטיוב אצל רשת וכן אם הינן יתחרו פעם אחר יעלו על דיוק תמלול האנושי?

אדם האוהב שמצויים בסרטוני יוטיוב בעלות כיתובים מופעלים, אולי תראה שהדיוק של הכתוביות גדל בגודל קיפולים במסגרת הזמן החודשים האחרונים. הדיוק יכולה לעלות מזמן עבור יום והוא רק מתעתד להשתפר ככל שיותר עוזרות משתמשים בצבא. לפי שאריק שמידט, מנכ”ל אינטרנט בע”מ ללא הפסקה -‘ התמלילים שלכם ב-YouTube על ידי Google ישתפרו במשך מתי, ככל שיותר ויותר משתמשים יעשו שימוש וש, שזו טכנולוגיה של למידה עצמית”

אולם אירועים הינו מתופעל 2 פגמים מרכזיים שניתן לעיין מראש בזמן שזו שיטה בידי למידה עצמית –

1. כיתוב אמין אפשרי בסיסי במקרה שבו הדובר מדבר מההבטים עד מאוד חד וברורה.

2. האזור וכרחה לקחת נקייה מכול ניתוח הפרעה

3. שגיאות מתגנבות בגלל סימנים שנשמעות זהות כגון – שמיים וגבוהים – שמדברים באופן מהיר, המערכת אינם עלולה להבדיל מכיוון השניים.

4. קריאות ביניים – לפעמים קרובות עוזרות עוצרים אם משמיעים צלילי חשיבה בעת נאומים – כדוגמת אלו מכילים אה, המממ, אהה וכו’. תוכנת הזיהוי יכול לעשות פעילות לתמלל ואלו את אותה אלה, ולעתים מוכרת השפעה מצחיקות. (חפש ביוטיוב בשביל תמלול קבצי אודיו קולי גורם חיוך על ידי גוגל)

ולבסוף עובר המגרעת הגדול מכולן

תמלול הקלטות . שביעות כוונה פסיכולוגית – כעבור שהכתוביות בוצעו באמצעות הרובוטים בידי רשת, והיה אם מעלה הסרטון יתכן רוצה במידת הדיוק? חד בעיקר שרצוי לאמת את הכתוביות המתומללות למציאת שגיאות ולהגהה מיקרים. זה ללא הפסקה לחלוף על מרבית הסרטון מקרים, לתקן את אותו המילים אם וכאשר ידני, לתפעל את אותו החלק הדקדוק בסיסי פסיקים, מקפים, מרכאות וכיוצא בזה ולהעלות ש. תהליך שלוקח עת.


לכן מה זה הפתרון האולטימטיבי לתמלול קבצים נוספת טכנולוגיית זיהוי קול לטקסט?

המענה הנו פשוטה, ההשתלשלות אותה קבצים דיגיטליים ואנלוגיים תומללו ב-50 עם הזמן האחרון – בני אדם.

4 המתארת את אגודת התמלול ותמלול מסה ב-Etranscriber Transcriptions.


Leave a comment

Your email address will not be published.