In the beginning of the web, the users used to visit a website to obtain information or content. However, a much more convenient communication model, known as content syndication, has gained a lot of attentions. Conventional web content syndication technologies like RSS and ATOM becomes popular from its simplicity. While Internet users don’t need to visit every site for the contents but only referring to feed reader, it appears that these content syndication technologies have a problem of inefficient feed query, resulting item missing and post-it delay. Moreover, feed query makes cost for the use of traffic. However, this problem has not been noted much and also few have attempted to address the problem. To solve this problem, history based pattern learning approaches are mainly used. It tracks publishing pattern and determines the number of queries which is used for feed querying and query timing schedule of those queries. Nevertheless, most studies only focus on the post-it delay for restricted query resource but it is not perfect for representing convenience in real use case. It needs to also consider possibility of item missing with small additional expense. In this paper, it presents the problem in detail, and proposes a new feed querying scheme which is used in web feed aggregator. It firstly aims to reduce item missing probability and then seizes chance of reducing post-it delay. Heuristic approach is adopted to handle various feed publishing pattern. To evaluate proposed scheme, it simulates the idea with feed data which is crawled from real feed publishers including popular news, magazines and various blogs. The simulation confirms that proposed scheme shows meaningful performance improvements in both item missing probability and post-it delay compared with previous studies.
웹 초창기에 사용자들은 정보나 콘텐츠를 얻기 위해 웹 사이트에 접속하였다. 하지만, 콘텐츠 신디케이션이라고 알려진 더 편리한 통신 모델이 많은 관심을 받기 시작하였고, 그에 따라 RSS나 ATOM과 같은 종래의 웹 콘텐츠 신디케이션 기술이 그 단순성 때문에 대중화 되었다. 인터넷 사용자들은 콘텐츠를 보기 위해 모든 웹사이트에 접속할 필요 없이 피드 리더만 보면 되게 되었으나 이러한 콘텐츠 신디케이션 기술들은 아이템 분실이나 구독 지연을 만드는 비효율적인 피드 쿼리의 문제점을 보였다. 더욱이 피드 쿼리들은 트래픽 비용을 만들기도 하였다. 그러나 이러한 문제점은 잘 알려지지 않았으며, 이것들을 해결하기 위한 적은 시도들만이 있었다. 이 문제를 해결하기 위해서 주로 히스토리 기반의 패턴 학습 기법들이 연구되어왔는데, 이것은 콘텐츠 발행 패턴을 추적하여 그것을 통해 해당 피드의 구독에 사용할 쿼리의 숫자와 쿼리의 스케쥴을 만드는 방법이다. 그러나 이러한 연구들이 있었음에도 불구하고 대부분의 연구들은 오직 제한된 쿼리 숫자 상황에서 구독 지연시간을 줄이는 것에 집중하였으며, 이는 실제 사용 상황의 편의성을 완벽하게 반영하지는 못하였다. 적은 추가 비용으로 아이템 분실의 가능성 또한 고려하는 것이 필요하였다. 본 논문에서는 해당 문제점을 상세하게 제시하고 웹 피드 어그리게이터를 위한 새로운 피드 구독 기법을 제안하였다. 이 기법은 먼저 가능한 적은 아이템 분실을 갖도록 하는 것을 목표로 하며 그런 다음 가능한 구독 지연시간을 줄이도록 동작한다. 그리고 다양한 피드 발행 패턴을 다루기 위해 휴리스틱한 접근방법을 채택하였다. 제안한 기법의 평가를 위해서 유명한 뉴스, 잡지 기타 다양한 블로그를 포함한 실제 피드 발행자들로부터 수집된 데이터를 기반으로 하여 시뮬레이션을 수행하였으며, 그 결과를 통해 제안한 기법이 기존의 연구들과 비교하여 아이템 분실 확률이나 지연시간에 있어서 유의미한 성능향상을 보임을 확인하였다.