שורת הפקודה של לינוקס – כלים שימושיים

שלום לכולם,

הרבה זמן לא פרסמנו פוסט, מכל מיני סיבות. בכל מקרה אנחנו חוזרים לשגרה😎

בפוסט הזה נלמד:

א. איך משתמשים בשורת הפקודות?

ב. פקודות שימושיות עבור ביואינפואמטיקאים

הרבה כלים ביואינפורמאטים מופעלים על ידי שורת הפקודות-Command line ( אם אין לכם מושג מה זה תציצו כאן )

לכן אחד מהצעדים הראשונים שלנו בעולם הביואינפורמטיקה הוא קודם כל ללמוד להשתמש בשורת הפקודות. השימוש בשורת הפקודות לא רק שמאפשר לנו להוציא לפועל פקודות , אלא גם חוסך לנו זמן יקר, בעיקר כאשר אנחנו רק רוצים להציץ או לבחון קבצים גדולים של FASTA או FASTQ. (תוכלו לקרוא על הפורמטים הללו כאן וכאן )

כמה הערות לפני שנתחיל:

הפקודות שנראה כאן רלוונטיות בעיקר עבור שורת הפקודות של לינוקס (בפרט אובונטו) אך הן יכולות להיות רלוונטיות גם עבור שורת הפקודות של שאר מערכות ההפעלה.

התייחסות הסלקטיבית לקבצי FASTA ולא לFASTQ נובעת מנוחות בלבד.

אוקי בואו נתחיל:

איך משתמשים בשורת הפקודות?

על מנת שניגש לשורת הפקודות נלחץ על CTRL + ALT + T או שנלחץ על האייקון השחור

TERMINAL

ברגע שאתם בטרמינל ניתן לנווט לתיקיות על ידי הפקודה CD, לקבל את רשימת הקבצים בתקייה הנוכחית על ידי LS ,להעביר קבצים מתיקיה לתיקיה על ידי MV וליצור תקיה חדשה על ידי הפקודה MKDIR ועוד הרבה פקודות בסיסיות שניתן לעשות בשורת הפקודות של לינוקס. מצאנו כאן רשימה ארוכה של פקודות שימושיות.

פקודות שימושיות עבור ביואינפואמטיקאים

בהקשר שלנו נראה לכם פקודות נוספות שבהחלט מקלות על העבודה עם קבצים כמו FASTA ו FASTQ.

more + שם הקובץ:  יפתח לכם את הקובץ בתוך הטרמינל ללא הצורך לפתוח אותו עם עורך טקסטים.עם מקש הENTER תוכלו לדפדף בכל הקובץ. אם תרצו לצאת מהקובץ תוכלו לעשות זאת על ידי Ctrl C. (באופן כללי בדרך כלל הפקודה Ctrl C מפסיקה הרצה של כמעט כל פעולה)

head – n + שם הקובץ: תציג בפניכם את n השורות הראשונות של הקובץ.

Tail -n + שם הקובץ:  תציג בפניכם את n השורות האחרונות של הקובץ.

לדוגמה:

head -10 file.fasta יציג את 10 השורות הראשונות של הקובץ file.fasta

 

טריק מאד שימושי לביצוע אנליזה של חלק קטן מהקובץ הוא על ידי השימוש בפקודה head עם הסימן < מה שיצור קובץ חדש שמכיל רק את מה שהגדרתם בHEAD

לדוגמה אם נרצה ליצור קובץ שמכיל את 2000 השורות הראשונות של הקובץ המקורי נכתוב :

באופן הזה:   שם קובץ חדש <  שם הקובץ מקורי 2000- HEAD

כדאי לדעת שקבצי FASTA מכילים שתי שורות עבור כל רצף, השורה הראשונה היא השם של הרצף. לכן 2000 השורות הראשונות יציגו לנו 1000 רצפים.

head -2000 myfile.fasta > 1000seqs_myfile.fasta

הפקודה הזו תיצור קובץ fasta חדש עם 2000 השורות הראשונות מהקובץ המקורי.

GREP

אם נרצה לחפש נתונים ספצפיים בתוך קובץ הFASTA שלנו נשתמש בפקודת grep. הפקודה מהירה הרבה יותר מאשר לפתוח את הקובץ במעבד תמלילים ולערוך בתוכו חיפוש.אז אם לדוגמה אנחנו רוצים לראות רק את השורות המכילות את שמות הרצפים נריץ:

grep ‘>’ myfile.fasta

(הנתון שאנחנו רוצים לחפש נמצא בתוך הגרשיים)

מה שיציג לנו את זה:

אם נרצה לדעת כמה רצפים יש לנו בקובץ FASTA שלנו נריץ את הפקודה הזו:

grep '>' myfile.fasta | wc -l

אגב אם לא שמתם ❤️ בפקודה הזו ישנו סימן שנראה כך:  |   (במקלדת זה ( + SHIFT ) הסימן נקרא PIPELINE ופקודה נוספת (WC-L).

על ידי הpipeline ניתן להעביר כמה פקודות בו זמנית.

אז מה שקורה בפקודה הזו הוא הצגה של שמות הרצפים על ידי  grep והעברת התוצאה דרך פקודה נוספת wc -l שבמקרה כאן סופרת את מספר התוצאות.

עוד דוגמה:

לפעמים נצטרך למצוא את הרצפים שמכילים מקטעים מסויימים של רצף קצר, זה יכול להיות ברקוד או רצף ספציפי אחר נעשה זאת על ידי הפקודה הזו:

grep 'TACGNAGG' sequences.fastq

מה שיתן לנו את התוצאה הזו:

לגבי השימוש בברקודים, אם אין לכם מושג על מה מדובר, אל חשש אנחנו עובדים  על פוסט שלישי בסדרת המקרוביום.

אם יש לכם הערות, הארות, שאלות, פידבקים על התוכן או על איך שהאתר נראה, רעיונות אתם יותר ממוזמנים ליצור קשר⛓️:

bioinformatics.israel@gmail.com

השאר תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *