제목 | 안녕하세요 web Crawler 개발에 대해서 조언 구하고싶습니다. | ||
---|---|---|---|
글쓴이 | dataguru | 작성시각 | 2013/09/23 00:45:02 |
|
|||
이번에 Crawler , data mining 를 개발하게 되었습니다. 개발환경 언어 : Python , PHP 중 1택 서버 : Apache DBMS : MySQL 어디서 부터 정보를 모아야 할지 막막합니다. 우선 저는 국내에 출판된 책중 파이썬 관련 책에 크롤러 관련 목차가 있어 이책부터 볼려고합니다. 그리고 data mining은 어떻게 접근 하는것이 좋을까요? Crawler 와 data mining 분석시스템 설계에 대하여 접근방법 조언 구하고싶습니다. |
|||
태그 | Crawler,data mining | ||
다음글 | 페이지 네이션 질문 드립니다. (5) | ||
이전글 | 죄송합니다, 도저히 안되서 다시 질문 드립니다. (4) | ||
변종원(웅파)
/
2013/09/23 10:09:03 /
추천
0
|
들국화
/
2013/09/23 10:11:44 /
추천
0
검색엔진에 대해 공부해 보면 되지 않을까요.
언어야 각 언어가 장단점이 있으니 익숙하거나 아니면 사용하기 편리한 언어로 하면 될거 같네요. |
milosz
/
2013/09/23 11:08:08 /
추천
0
CI 포럼에서 파이썬 답을 하는 것은 좀 이상하긴 하지만;
파이썬의 경우 requests, beautifulSoup를 사용하면 간편하게 데이터를 불러와 가공할 수 있습니다. CI로 구현하고자 하면 curl 등을 찾아보시면 될텐데, 데이터 가공이 용이하려면 아무래도 파이썬 쪽이 더 나을 수 있겠네요. |
최용운
/
2013/09/24 13:12:48 /
추천
0
Java 하신다면 apache의 오픈소스 solr를 사용하시면 좋으실텐데..한번 참고해서 보세요. http://projects.apache.org/projects/solr.html
|
dataguru
/
2013/09/24 16:11:17 /
추천
0
변종원님 조언 감사합니다. 그부분에 대해서 다시 생각해보겟습니다.
|
dataguru
/
2013/09/24 16:11:26 /
추천
0
들국화님 이번엔 파이썬 공부해서 개발을 해야할것같습니다.
감사힙니다. |
dataguru
/
2013/09/24 16:11:35 /
추천
0
miosz 님 감사합니다.
좋은 정보 감사합니다. 파이썬에 괜찮은 책이 있어 파이썬으로 해야할듯합니다. |
dataguru
/
2013/09/24 16:11:43 /
추천
0
최용운님 감사합니다. solr 라는건 처음들어 보는데 한번 참고해 보겟습니다.
|
양승현
/
2013/09/27 08:34:12 /
추천
0
전 snoopy 라는 라이브러리를 사용해 긁어온 데이터중 dom을 선택하여 가공하고 디비에 쌓았습니다.
반복되는 페이지의 url을 먼저 파악하시고 하나의 프로세스 안에서 반복하여 ajax형태로 다른 페이지를 호출하여 처리했던 것으로 기억되네요.
|
하얀기억
/
2013/09/27 14:06:25 /
추천
0
crawling 은 python scrapy 쓸만한 것 같구요
광범위하게 crawling 하시려면 celery 같은 task queue 사용해서 분산 처리하면 어떨까 하네요 data mining은 solr나 elastic search 공부하시면 도움이 될 것 같습니다 요즘은 elastic search 많이들 사용하는 것 같아요 |
변종원(웅파)
/
2013/09/27 14:44:40 /
추천
0
|
dataguru
/
2013/10/01 09:57:32 /
추천
0
양승현님 감사합니다. 스누피 클레스는 예전에 사용해봐서 어떻게 만들어야 할지 알것같습니다.
|
dataguru
/
2013/10/01 09:58:50 /
추천
0
하얀기억님 감사합니다.
scrapy , celery , task queue 에대해서 알아보겟습니다. |
dataguru
/
2013/10/01 09:59:53 /
추천
0
웅파님 감사합니다. 하지만 그쪽링크가 깨져있네요. 제가 따로 알아보겟습니다.
|
크롤링의 범위와 크롤링 대상을 정해야 하겠죠. 데이터 가공과도 연관이 되는 부분이구요.
이런 포괄적 질문에도 육하원칙은 적용이 됩니다.
뭘, 왜 하고 싶은지 알아야 그에 맞는 답을 합니다.
그러면 다시 스무고개가 시작되고(스무고개도 문제를 풀어가는 한가지 방식이긴 합니다만
소모적이라는 단점이...)