הכנה לאנליזת רצפים של המיקרוביום

בפוסט הקודם על חקר המיקרוביום סיימנו עם כמות גדולה מאד של רצפים שהופקו על ידי מכשיר ה-PCR. בפוסט הזה נמשיך ונראה אלו תהליכים הרצפים שלנו צריכים לעבור על מנת שנפיק מהם את המידע שאנו רוצים הפוסט הוא תאורטי ולא נכנס לפרקטיקה בפוסטים הבאים נפרט בצורה פרקטית

הקדמה

לאחר תהליכי הכנה שונים שולחים את הדוגמאות שלנו לריצוף (ננסה בעתיד לפרסם פרוטוקולים רלוונטים) אנחנו לא נרחיב כרגע על תהליך הריצוף זה פשוט תהליך מורכב, (אתם יכולים להרחיב כאן את הידע שלכם) אבל כן נסכם שהתהליך הוא פשוט מעבר מדגימה פיזית של DNA לקובץ טקסט ממוחשב שמכיל את האותיות הרצף התואם לו.

בדרך כלל לקובץ FASTQ כזה: ⛓️

ולפעמים לקובץ FASTA כזה:

נעמוד על ההבדלים בהמשך, בינתיים אפשר לקרוא כאן וכאן.

נגדיר בראשי פרקים את השלבים הראשוניים שהדאטא צריך לעבור על מנת להוציא ממנו מידע רלוונטי

1. Demultiplexing – הפרדת הדוגמאות על פי הברקודים

2. ניקוי הדאטא – הוצאת רצפים פגומים וחיתוך הרצפים על פי איכות

Clustering .3 – איחוד רצפים דומים ליחידה אחת

4. אנליזה – אבחון הדאטא על ידי כלים ביואינפורמטים

Demultiplexing

שלב חשוב בתהליך הכנת ה-DNA לקראת הריצוף הוא הכנת ספריות. בתהליך זה אנחנו מחברים לכל הדוגמאות רצף נוקלאוטידים ייחודי שנקרא ברקוד, כאשר לכל דוגמא ברקוד משלה. התהליך נובע מהעובדה שבמכשירי הריצוף אין אפשרות להריץ כל דוגמא בנפרד אלא קבוצת דוגמאות יחד (זאת בהנחה שיש לנו יותר מדוגמא אחת ואנחנו כן מעוניינים לחסוך בכסף). התהליך הוא תהליך דומה לPCR שבו עשינו אמפליפיקציה או שכפול בהתאם למקטע שרצינו, אך כאן אחד הפריימרים הוא הרצף היחודי או הברקוד, וכך כל דוגמא עוברת אמפליפיקציה או שכפול כשהיא מכילה את הברקוד הייחודי שלה. כאשר הדאטא נמצא על קובץ ניתן לזהות את הדוגמאות על פי אותם ברקודים באופן ממוחשב. התהליך נקרא Demultiplexing בעצם הפרדת הדוגמאות על פי הברקודים.

נקוי הדאטא

כדאי לדעת שבכל התהליך מה- Extraction (חילוץ ה- DNA מהדוגמאות) דרך השכפול שלו בPCR (אמפליפיקציה) והריצוף עצמו נוצרות הרבה טעויות, את הטעויות הללו צריך לנקות מהדאטה, או על ידי חיתוך לפי האיכות שמכשיר הריצוף מספק לנו, או הוצאת כל הרצף.חיתוך רצפים הינו תהליך חיוני לניקוי הדאטא בעיקר לחיתוך הברקודים ולפעמים גם הפריימרים שנשארו על הרצף.

Clustering

מכוון שמדובר בביג דאטה אנחנו לא רוצים לעבוד על כל הרצפים, התעסקות שדורשת הרבה משאבים, אלא רק על חלק מייצג – רצפים שייצגו לנו אוכלוסיה מסוימת של רצפים שדומים אחד לשני. כמה דומים? בדרך כלל 97% זהו אחוז הדמיון או הגבול התחתון שרוב החוקרים מסתפקים בו אך יהיו כמובן כאלו שיגידו שזה לא מספיק ויטענו ל 99%, או ההפך, כאלו שיטענו שזה יותר מידי מכל מיני שיקולים ויסתפקו ב-95%.

התהליך שבו מקבצים ביחד רצפים (רלוונטי עבור כל בסיס נתונים) נקרא Clustering או יצירת אשכולות. במילים אחרות, אנחנו רוצים ליצור קבוצות של רצפים שנקראים קלסטר (Clusters) או אשכולות  שמיוצגים על ידי רצף אחד. לכל קבוצה כזו, או אשכול כזה אנחנו קוראים OTU- (Operational Taxonomic Unit) (יחידה טקסונומית אופרטיבית) והיא נקראת כך מכוון שאת העצים הפילוגנטים ניתן לבנות עבור מינים, עבור רצפים או עבור משפחות כאשר כל יחידה או OTU כזה יוכל לייצג סוג אחר של מידע בהתאם לעץ שבנינו. מבחינתנו לצורך העצים שנבנה בעתיד היחידה הטקסונומית שלנו היא רצף. ועם האשכולות הללו או הOTU האלו אנחנו ממשיכים הלאה לעיבוד הנתונים שלנו.

באופן הזה אנחנו מצמצמים את הדאטה שלנו מעשרות, אולי מאות מליוני רצפים לאלפי OTU או אשכולות בלבד, מה שמאפשר לנתח את הנתונים ביתר בקלות. כאשר כאמור כל אשכול מייצג קבוצת רצפים כמעט זהים.

אם נרצה לסבר יותר את האוזן, נחזור לאנלוגיה שדימינו בפוסט הראשון על פאזלים שעורבבו ועל האפשרות להרכיב אותם ללא שום מידע עליהם, אפשר להבין שאם נבחר רק חלקים מייצגים של הפאזלים (נניח חלק ימני תחתון) ניתן לקבל תמונה כמעט שלמה לפחות על מקור הקבוצה של תמונות ממנה הגיע החלק שיש בידינו. כך גם כאן, האשכול או הרצף המייצג מעיד על הרצפים שיש בידינו ועל ידי מסדי נתונים המכילים את כל הגנום, ניתן להסיק אלו זנים של חיידקים נמצאים בדוגמה ופחות או יותר אילו גנים נמצאים בדוגמה. את כל הדאטא הזה אנחנו מסכמים בטבלה שמכילה מצד אחד שמות של ה-OTU's ומצד שני את הדוגמאות שלנו (טורים).

את ה-OTU ניתן להמיר לכל מידע מייצג אחר משם של חיידק ועד הרצף המקורי בעצמו. הערכים שמופיעים בתוך הטבלה, מייצגים את מספר הפעמים בהם ה-OTU מופיע. לדוגמה בטבלה שלפנינו החיידק המיוצג על ידי OTU מס' 6 מופיע 2025 פעמים בדוגמא F3D147.

כמובן שאם בשנות התשעים הטבלאות היו נראות כך, כיום הטבלאות נראות כך:

השלב הבא הוא אנליזה, בפוסט הבא..

אם יש לכם הערות, הארות, שאלות, פידבקים על התוכן או על איך שהאתר נראה, רעיונות אתם יותר ממוזמנים ליצור קשר⛓️:bioinformatics.israel@gmail.com

השאר תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *