유용한 정보 꿀팁

논문 작성 요령 5 - 데이터 수집 팁

넌오드리햇반 2014. 7. 31. 12:50

여백

반응형

이 번 포스팅에서 타이틀에 팁이라는 단어를 붙인 이유는 데이터 수집은 정말 정도가 없기 때문에 본인이 아는 선에서만 정리를 하자는 목적이니 그저 참조만 하시고 혹시 다른 노하우를 가지고 계시면 공유를 해주시면 감사하겠습니다. 

 
 
각자 자기 자신 만의 노하우를 통해 데이터를 수집할 수 밖에 없는 것이 현실이다. 본인처럼 프로그래머였던 경력을 활용하여 인터넷이나 SNS에서 데이터를 수집하는 경우가 아닌 이상 연구 과정 중 가장 고되고 귀찮은 작업이 데이터 수집이라고 할 수 있다. (독자 중에 기억하실지 모르겠지만 본인이 만든 데이터 컬렉터가 있는데, 혹시 SNS 데이터 특히 트위터 데이터 수집을 원하는 경우가 있으면 연락주시면 수집해 드릴 수 있습니다. 다만 저도 시간적 제한이 있기 때문에 요청해주신다고 무조건으로 데이터를 모아드리진 않습니다)
 
우선 연구에 사용되는 데이터를 크게 구분지으면
 
  1. 1. 설문 등을 통한 1차 자료
  2. 2. 직접 수집하지 않고 기존의 데이터를 활용하는 2차 자료
 
본인이 활용하는 인터넷 상의 데이터는 이 중 2차 자료에 해당된다고 할 수 있다. 해보신 분들은 알겠지만 설문이 얼마나 고된작업인지 잘 아실 것이다. 한국의 경우 사생활 보호를 크게 신경을 쓰지 않아서 그나마 설문 문항 작성이 쉽고 적당한 시간과 돈만 들이면 그래도 괜찮은 수준의 데이터를 모을 수 있다. 하지만 본인이 공부하고 있는 미국 대학의 경우 IRB(Institutional Review Board)라고 해서 학교마다 위원회가 있는데 왜 이 설문을 해야하며 몇 명을 대상으로 하는지 몇 번에 서신과 직접 미팅을 통해 설명을 해야 한다. 더군다나 모든 설문 문항 하나하나 다 리뷰를 하기 때문에 만약 한 문항이라도 이슈가 있으면 모든 과정을 거의 처음부터 해야 한다. 정말이지 진을 빼는 과정이라 본인은 박사과정 중에 절대로 설문을 통한 논문은 쓰지 않겠다고 다짐하고 일찌감치 온라인 데이터를 모으기 시작했다. 설문이 전통적이고 굉장히 유용한 방법임에는 틀림이 없다. 이 점 마저 부정하고 싶지는 않다. 그리고 반드시 설문이 필요한 영역도 있기에 그냥 본인과 잘 맞지 않는 방법이라는 선에서 마무리를 짖고 싶다.
 
2차 자료의 경우 그 소스가 굉장히 많은데 특정 기관에서 공개한 데이터들이 있다. 예를 들어 Healthcare 분야의 경우 오래 전이라 잘 기억이 안나지만 보스턴의 어떤 병원에서 그 병원의 환자들의 profile과 치료법을 공개한 적이 있다.(물론 개인 신상 정보는 없다). 병명, 증상, 기본적인 demographic 정보, 그리고 치료법 등을 정리했었는데 이런 공개된 자료를 활용하는 것도 하나의 방안이다. 참고로 국가 레벨의 데이터를 보고 싶으면 OECD나 Worldbank에 가면 원하는 만큼 데이터를 받을 수 있다. 이 부분은 구글링을 통해 사실 원하는 데이터를 구할 수 있다.
 
이런 자료들을 모으기 위한 '팁'으로 본격적으로 Data Collector를 만들기 전에 했던 팁으로 논문들의 data collection 부분만 집중적으로 보는 방법이 있다. 논문이란 것이 한정된 분량에 효과적으로 내용을 전달해야 하기 때문에 중요하지 않다고 생각되는 부분은 생략이 많이 되는 편이라 data collection 부분에 적은 분량만 할애하는 것이 일반적이긴 하지만 데이터 중심 논문의 경우 어떻게 data를 모았는지 자세히 정리되어 있는 경우가 종종 있다. 이런 내용을 놓치지 말고 잘 정리했다가 향후 필요할 경우 remind하여 데이터 제공자를 찾아보는 방법이 있다. 혹은 두 번 정도 시도했던 것인데 분명 공개된 자료지만 데이터 소스가 확실치 않은 경우 저자에게 직접 물어볼 수도 있다. 저자들 중에서는 굉장히 친절한 분들도 많아서 친절히 어떻게 모았는지 잘 설명해 주는 분들이 많다. 다만 요청시 정말 최대한 정중히(논문이 정말 인상 깊었다는 칭찬은 기본) 그리고 왜 필요한지 잘 설명하면 이외로 싶게 잘 알려준다. 한마디로 두들기면 길이 있는 법이다.
 
혹은 유료 정보를 구입해서 연구를 진행하는 것도 방법이긴 한데, 장점으로는 유료이기 때문에 굉장히 잘 clean되어 있고 정리가 잘 되어있다. 하지만 대부분 유료 자료들이 가격이 상당히 비싼 편이다. 기본적으로 몇 십만원에서 몇 백만원까지 그 범위가 다양하다. 펀드가 넉넉하지 않다면 시도하기 쉽지 않는 방법이다. 너무나 당연한 얘기지만 이 전 포스팅 중에서 언급했던 데이터를 통한 연구 아이디어 찾기를 하기 보다는 미리 어느 정도 연구 설계가 되있어야 시도해볼 법한 방법이다. 
 
조금 장황되게 설명이 된 것 같아서 마지막으로 실제 데이터 수집 팁을 요약하면
1차 자료 : 설문, 인터뷰
2차 자료 : 학계에 이미 공개된 자료(구글링), 논문 안의 Data Collection 참조, 저자에게 문의, 유료 자료 구입
이 되겠다. 사실 본인은 데이터 수집에 대해 크게 고민을 안해봤기 때문에 그냥 아는 선에서 정리만 했으니 참조만 해주시길 바랍니다.
 
 
 

원래 논문 컨설팅을 목적으로 블로그에 작성 중인 글이지만 질의 응답도 환영합니다.

지식의 나눔을 좋아라 합니다.

 

 

 

반응형

여백