Câu hỏi phỏng vấn Data Scientistt
Câu hỏi phỏng vấn Data Science về chuyên môn
Câu hỏi 1: 'Data science' là gì?
Data Science (Khoa học dữ liệu) là một dạng phương pháp luận được sử dụng để trích xuất và tổ chức các dữ liệu và thông tin khác nhau từ các nguồn dữ liệu khổng lồ (cả có cấu trúc và không có cấu trúc).
Cách thức hoạt động của dạng khoa học này là nó sử dụng các thuật toán khác nhau và toán học ứng dụng để trích xuất kiến thức, thông tin hữu ích và sắp xếp nó theo cách có ý nghĩa và đưa ra một số cách sử dụng.
Câu hỏi 2: Khác nhau giữa 'Data Science' và 'big data' là gì?
Chắc chắn đây là một trong những câu hỏi phỏng vấn Data Science khó trả lời hơn, rất nhiều người không diễn đạt được sự khác biệt rõ ràng. Điều này chủ yếu là do thiếu thông tin xung quanh chủ đề.
Tuy nhiên, chính câu trả lời rất đơn giản - vì thuật ngữ "dữ liệu lớn" (big data) ngụ ý khối lượng dữ liệu và thông tin khổng lồ, nó cần một phương pháp cụ thể để phân tích. Do vậy, dữ liệu lớn là thứ mà khoa học dữ liệu (Data Science) phân tích.
Câu hỏi 3: 'Data scientist' và 'data analysist' khác nhau như thế nào?
Mặc dù đây cũng là một trong những câu hỏi phỏng vấn Data Science cơ bản, các thuật ngữ vẫn thường có xu hướng lẫn lộn.
Nhà khoa học dữ liệu (Data Scientist) khai thác, xử lý và phân tích dữ liệu. Họ quan tâm đến việc cung cấp các dự đoán cho doanh nghiệp về những vấn đề doanh nghiệp có thể gặp phải.
Nhà phân tích dữ liệu (Data Analysist) giải quyết các vấn đề kinh doanh không được hỗ trợ thay vì dự đoán chúng. Họ xác định các vấn đề, thực hiện phân tích thông tin thống kê và ghi lại mọi thứ.
Câu hỏi 4: Đâu là những tính năng căn bản đại diện cho dữ liệu lớn?
Vừa rồi chúng ta đã đề cập đến các định nghĩa, chúng ta có thể chuyển sang các câu hỏi phỏng vấn Data Science cụ thể. Tuy nhiên, hãy nhớ rằng bạn sẽ nhận được các câu hỏi phỏng vấn nhà khoa học dữ liệu, nhà phân tích và dữ liệu lớn. Lý do tại sao là bởi vì tất cả các phân nhánh nhỏ hơn này đan xen với nhau.
Năm danh mục đại diện cho dữ liệu lớn và chúng được gọi là “5V”:
- Giá trị (Value);
- Đa dạng (Variety);
- Vận tốc (Velocity);
- Tính xác thực (Veracity);
- Âm lượng (Volume).
Tất cả các thuật ngữ này tương ứng với dữ liệu lớn theo cách này hay cách khác.
Câu hỏi 5: 'recommender system' là gì?
Đây là một loại hệ thống được sử dụng để dự đoán mức độ xếp hạng của người dùng đối với một số đối tượng cụ thể (phim, nhạc, hàng hóa, v.v...). Không cần phải nói, có rất nhiều công thức phức tạp liên quan đến một hệ thống như vậy.
Câu hỏi 6: Thử A/B là gì?
Mặc dù thử A/B có thể được áp dụng trong nhiều lĩnh vực khác nhau, nhưng nó cũng là một trong những câu hỏi phỏng vấn cho data scientist nổi bật hơn cả. Vậy đó là gì?
Thử A/B là một hình thức thử nghiệm được thực hiện để tìm ra phiên bản của cùng một thứ đáng sử dụng hơn cho mục đích đạt kết quả mong muốn.
Ví dụ, nói rằng bạn muốn bán táo. Bạn không chắc loại táo nào - đỏ hay xanh - khách hàng của bạn sẽ thích hơn. Vì vậy, bạn thử cả hai - đầu tiên bạn cố gắng bán những quả táo đỏ, sau đó là những quả xanh. Sau khi hoàn tất, bạn chỉ cần tính toán xem cái nào sinh lợi nhiều hơn và thế là xong - đó là thử A/B!
Câu hỏi 7: 'selection bias' là gì?
Sai lệch lựa chọn là sai lệch được đưa ra bởi việc lựa chọn các cá thể, nhóm hoặc dữ liệu để phân tích theo cách không đạt được ngẫu nhiên thích hợp, do đó đảm bảo rằng mẫu thu được không đại diện cho quần thể dự định phân tích.
Nếu không tính đến sai lệch lựa chọn, thì một số kết luận của nghiên cứu có thể không chính xác.
Câu hỏi 8: Bạn biết gì về 'Normal Distribution'?
Dữ liệu được phân phối theo nhiều cách khác nhau với độ lệch sang trái hoặc sang phải hoặc tất cả có thể bị lộn xộn. Tuy nhiên, có khả năng dữ liệu sẽ đạt đến dạng đường cong hình chuông mà không có bất kỳ độ lệch nào sang trái hoặc sang bên phải.
Các đặc điểm của phân phối chuẩn:
- Unimodal - một chế độ
- Đối xứng (Symmetrical) - nửa trái và phải là hình ảnh phản chiếu
- Hình chuông (Bell-shaped) - chiều cao tối đa ở mức trung bình
- Mean, Mode, Median đều nằm ở trung tâm
- Tiệm cận (Asymptotic)
Câu hỏi 9: Hiệu năng thống kê của độ nhạy là gì?
Đây có thể là một trong những câu hỏi phỏng vấn Data Science phức tạp hơn. Độ nhạy thường được sử dụng để xác nhận độ chính xác của một bộ phân loại (classifier), ví dụ: Logistic,Random Forest, SVC.
Độ nhạy là "Sự kiện đúng được dự đoán/Tổng số sự kiện".
Sự kiện Đúng (True Events) là những sự kiện đúng và mô hình cũng dự đoán chúng là đúng.
Việc tính toán thời vụ rất đơn giản. Công thức là Seasonalit = (Khẳng định thật-True positives)/(Khẳng định trong biến phụ thuộc thực tế).
Câu hỏi 10: Cái nào tốt hơn - dữ liệu tốt hay mô hình tốt?
Đây có thể là một trong những câu hỏi phỏng vấn dữ liệu lớn phổ biến hơn, mặc dù nó cũng thuộc loại câu hỏi phỏng vấn cho data scientist.
Câu trả lời cho câu hỏi này thực sự rất chủ quan và phụ thuộc vào từng trường hợp cụ thể. Các công ty lớn hơn có thể thích dữ liệu tốt, vì nó là cốt lõi của bất kỳ doanh nghiệp thành công nào. Mặt khác, không thể tạo ra các mô hình tốt nếu không có dữ liệu tốt.
Bạn có thể chọn theo sở thích cá nhân của mình - không có câu trả lời đúng hay sai (trừ khi công ty đang tìm kiếm cụ thể một trong hai câu trả lời).
Câu hỏi 11: Điều gì sẽ xảy ra nếu hai người dùng truy cập cùng một tệp HDFS cùng lúc?
Đây cũng là một trong những câu hỏi phỏng vấn Data Science phổ biến hơn - và nó hơi khó. Bản thân câu trả lời không khó, nhưng rất dễ kết hợp nó với cách các chương trình tương tự phản ứng.
Nếu hai người dùng đang cố gắng truy cập vào một tệp trong HDFS, người đầu tiên có quyền truy cập, trong khi người dùng thứ hai (hơi muộn hơn) bị từ chối.
Câu hỏi 12: 'cluster sampling' là gì?
Cluster sampling (Lấy mẫu theo cụm) có nghĩa là một loại phương pháp lấy mẫu. Với lấy mẫu theo cụm, nhà nghiên cứu chia tổng thể thành các nhóm riêng biệt, được gọi là cụm. Sau đó, một mẫu cụm ngẫu nhiên đơn giản được chọn từ tổng thể. Nhà nghiên cứu tiến hành phân tích dữ liệu từ các cụm được lấy mẫu.
Nhưng lưu ý khi đi phỏng vấn vị trí Data Science
Chuẩn bị Kiến thức Cơ bản
Đảm bảo bạn có kiến thức cơ bản về Machine Learning, Statistical Analysis, và các công cụ phổ biến như Python và R. Các câu hỏi về kiến thức cơ bản thường xuất hiện trong phỏng vấn DData Science.
Hiểu Vị trí và Công Ty
Nắm rõ mục tiêu và yêu cầu của vị trí Data Science mà bạn đang phỏng vấn. Nghiên cứu về công ty để hiểu về môi trường làm việc, văn hóa công ty, và dự án họ đang thực hiện.
Xây dựng Portfolios và Dự án Thực Tế
Nếu có thể, đưa ra ví dụ về các dự án Data Sciencee mà bạn đã thực hiện. Một portfolio mạnh có thể là một ấn tượng lớn trong quá trình phỏng vấn.
Kỹ năng Lập Trình
Làm việc với Python và/hoặc R là quan trọng. Hãy chuẩn bị để trình bày kỹ năng lập trình của bạn và làm rõ là bạn đã sử dụng chúng trong các dự án thực tế.
Kỹ năng Trình bày và Giao tiếp
Data Scientists cần có khả năng trình bày kết quả phân tích một cách dễ hiểu cho đồng nghiệp và các bên liên quan. Hãy chuẩn bị để diễn đạt ý kiến của bạn một cách rõ ràng và tổ chức.
Suy luận Logic và Giải quyết Vấn đề
Thường có các câu hỏi về khả năng suy luận logic và giải quyết vấn đề. Hãy luyện tập trước để trả lời một cách logic và có hệ thống.
Trả lời câu hỏi về Kinh nghiệm
Chuẩn bị câu trả lời cụ thể về kinh nghiệm làm việc trong các dự án Data Science trước đây, bao gồm cả thành công và thất bại. Sự chân thành và khả năng học hỏi từ kinh nghiệm là quan trọng.
Thái độ Tìm kiếm và Sáng tạo
Data Science thường đòi hỏi sự sáng tạo và khả năng tự tìm kiếm giải pháp. Hãy thể hiện thái độ tích cực và khả năng tìm kiếm giải pháp trong phỏng vấn.
Hỏi Câu hỏi
Khi bạn có cơ hội, hãy đặt câu hỏi về vị trí công việc, đội ngũ làm việc, và dự án mà bạn sẽ tham gia. Điều này cho thấy bạn quan tâm và đã xem xét kỹ vị trí này.
Thận trọng với Câu hỏi Lương
Thường thì câu hỏi về lương nên được đặt ở giai đoạn sau khi bạn đã nhận được lời mời làm việc hoặc khi cuộc phỏng vấn đã tiến triển đến giai đoạn cuối. Trước đó, tập trung vào thể hiện khả năng và giá trị của bạn đối với công ty.
Câu hỏi phỏng vấn
"Bạn có kinh nghiệm trong việc xử lý và phân tích dữ liệu lớn từ nguồn khác nhau như SQL, NoSQL, hoặc các nguồn dữ liệu khác không?"
↳
Tôi có kinh nghiệm đáng kể trong việc xử lý và phân tích dữ liệu lớn từ nhiều nguồn khác nhau như SQL, NoSQL cũng như các nguồn dữ liệu đa dạng khác. Qua các dự án và trải nghiệm làm việc, tôi đã có cơ hội áp dụng kiến thức vững về các công cụ và ngôn ngữ truy vấn cơ sở dữ liệu, cùng kỹ năng phân tích dữ liệu để hiểu và trích xuất thông tin quan trọng từ các nguồn dữ liệu đa dạng, hỗ trợ trong việc xây dựng các mô hình và giải quyết các vấn đề trong lĩnh vực Data Science.
"Hãy chia sẻ về kỹ năng của bạn trong việc sử dụng các công cụ và ngôn ngữ lập trình phổ biến như Python, R, và công cụ thống kê như Jupyter, Pandas, hay NumPy."
"Làm thế nào bạn có thể áp dụng kiến thức về Machine Learning và các mô hình dữ liệu để giải quyết các vấn đề thực tế trong lĩnh vực của Data Science?"
Bạn nghĩ gì về việc làm tăng ca với vị trí Data Science?
Cách làm việc của bạn với vị trí Data Science?
Bạn làm thế nào để hoàn thành công việc đúng thời hạn với vị trí Data Science?
Khi nào bạn cảm thấy hài lòng trong công việc với vị trí Data Science?
Mức lương bạn mong muốn với vị trí Data Science?
Khả năng chịu áp lực trong công việc với vị trí Data Science?
Lý do nào sẽ khiến bạn từ bỏ công việc ngay trong tháng đầu tiên với vị trí Data Science?
Tại sao chúng tôi nên tuyển bạn với vị trí Data Science?
Làm sao công ty tuyển dụng bạn khi bạn chưa có kinh nghiệm với vị trí Data Science?
Bạn có nghĩ là năng lực của bạn vượt so với yêu cầu của chúng tôi với vị trí Data Science?
Mức lương ở công ty cũ của bạn với vị trí Data Science?
Mục tiêu nghề nghiệp của bạn với vị trí Data Science?