인터넷에서 정보를 포함하고 있는 글의 경우 특성상, 누구나 쉽게 복사해서 비슷한 글을 만드는 것이 가능하다. 이런 경우에 인기 있는 주제의 경우 같은 정보가 지나치게 범람하게 되는 문제가 있고, 원작자 입장에서는 본인의 지적 재산권을 빼앗기는 문제도 있다. 인터넷 포털 사이트 이용자 입장에서는 본인이 알고싶은 어떤 주제를 검색했는데 어느 한 원본으로부터 출발한 비슷한 유형이 정보만 검색 결과에서 노출된다면 여러 사이트를 들어간다하여도 결국 얻는 것은 한정되어 있고 시간 낭비가 아닐 수 없다. 국내 최대 이용자를 보유한 네이버가 이에 대한 보완을 위해 오래전부터 유사문서 판별 시스템을 도입하여 이용하고있다. 

인터넷에 등장하는 모든 웹페이지를 사람이 직접보고 베꼈는지 안베꼈는지 판별하는 것은 현실적으로 어려움으로 네이버 봇이 자체적으로 어떤 알고리즘을 통해 이미지와 글을 분석하여서 유사문서 여부를 판별하는 것으로 추측된다. 이경우 당연히 가장 먼저 검색에 노출되었던 웹페이지를 원본 문서로 간주하는 것으로 판단되며 이후에 그 웹페이지를 이용한 유사한 또 다른 웹페이지가 편찬되었을 때는 유사문서로 분류되어 검색창에 노출되지 않는다.

일반적으로 유사문서로 낙인된 웹페이지는 네이버 검색 결과에서 나타나지 않게된다. 그러한 유사문서를 찾아보기 위해서는 따로 검색 옵션을 조정해줘야하는 수고로움이 필요하다. 아래와 같이 검색 옵션에서 



유사문서 항목탭에서 “제외"와 “포함" 중에 “포함"으로 변경하여서 검색하면 유사문서까지 같이 볼 수 있게된다. 기본 값이 “제외”로 되어 있고 검색 하는 사람 입장에서는 특수한 경우가 아니라면 유사문서를 보기를 원할리 없으므로 결국 유사문서로 네이버에 분류되는 것은 검색에 노출되지 않는 죽은 웹페이지가 되는 것과 다름 없다.

네이버가 실제로 웹페이지를 편찬하는 사람을 구분하여서 원작자가 편찬했는지 베낀 사람이 편찬했는지 구분하는 것이 아니고, 단지 웹페이지가 편찬된 (검색에 노출되게된) 시기와 유사성을 기준으로 원본과 유사문서를 구분 짓는 것으로 추측된다.

블로그를 운영하는 블로거 입장에서 접근하면, 본인이 작성한 포스팅이 본인의 originality가 있는 경우인데 불구하고 억울하게 유사문서로 분류되면 검색에서 위처럼 따로 옵션 조정을 하지 않는한 절대 노출되지 않기 때문에 주의해야할 사항이다.

블로거가 다른 블로거의 글을 베끼거나 짜깁기하여 포스팅을 작성하는 경우는 유사문서로 분류되고 이경우는 유사문서 필터링을 도입한 네이버의 취지에 맞게 필터링되는 것이 마땅하다. 그러나 본인의 블로그에 본이이 작성한 포스팅을 다른 블로그로 이전하는 경우에 이 유사문서 분류 시스템이 문제가되게된다. 나중에 작성한 블로그의 포스팅은 그게 본인의 것이라 할지라도 무조건 유사문서로 분류되게 된다. 결국 블로그 이전을 하여도 이전된 블로그는 베낀 것으로 간주되어 검색에 노출되지 않아 방문자 수가 급감하는 문제가 발생한다. 이는 이후에 이전 original 블로그에 원본 포스팅을 삭제 또는 비공개로 전환한다하여도 새 블로그에서의 유사문서로의 낙인은 사라지지 않는다. 

본인의 블로그 포스팅의 조회수 또는 블로그 방문자수의 네이버를 통한 유입이 현격하게 적다면 네이버에서 유사문사로 낙인되었을 가능성을 항상 고려하여야한다. 이를 직접 확인하는 방법은 본인의 블로그 특정 포스팅의 제목을 네이버 검색어에 넣고 검색하였을 때 검색화면에서 노출되지 않고, 위처럼 검색옵션에서 유사문서 포함을 활성화하여 다시 동일 검색어로 검색하였을 때는 노출된다면 유사문서로 분류된 것이다.

이에 대한 해결방안이 다행히도 존재한다. 이를 해결하려면 원본반영 요청을하여 네이버측에 내가 나중에 옮겨놓은 포스팅이 내가 쓴 원본이므로 검색에 노출되게 해달라고 요청을해야한다.

원본반영 요청을 하는 법은 아래와같이 네이버 화면에서 상단 우측에 위치해있는 “원본반영”버튼을 클릭하면 된다.



또는 아래의 링크에 해당하는 페이지로 들어가서 진행하여도된다.


그러면 아래와 같은 화면을 만나게된다.



원본 URL입력란 5개가 존재하고 한 번에 5개씩 본인이 원본이라고 주장하고싶은 블로그 각 포스트 페이지의 URL을 넣어서 작성하여 보내면된다. 문제는 이렇게 일일이 지정해서 URL을 넣어주여야하고 한 번에 5개씩밖에 지정되지 않으므로 포스팅의 수가 많다면 노가다가 될 수 있다. 

이렇게 작성하여 보내게되면 따로 원본으로 인정되었다는 식의 피드백을 받을 수는 없고 네이버 검색 봇이 자동으로 소리 없이 반영해 놓는 것으로 추측된다. 

만약 블로그를 이전하였고 이전 블로그에서 네이버 검색유입이 가능하게하였다면 일단 새로 만든 블로그의 포스팅들이 유사문서로 낙인되는 것을 막기위해서 이전 블로그의 글을 삭제또는 비공개로 전환하고나서 새 블로그에서 복사한 글을 발행하도록하여야한다. 내 경험상 일단 복사하여서 발행하고 아무리 빨리 이전 블로그의 글을 삭제하거나 비공개로 전환한다고해도 유사문서로 분류되게 된다.

네이버 블로거들의 풍문에는 저품질블로그로의 낙인이 존재하여서 아무리 열심히 포스팅을 작성하여도 검색에 노출되지 않기 때문에 블로그를 살릴 수 없다는 증거가 명확하지 않은 소문이 존재하는데, 이 저품질 블로그라는 것이 네이버 검색 봇이 지정한 유사문서 분류와 관련성이 있을 것으로 추측된다. 


요약하면
블로그 운영중 네이버 검색 유입에 문제가 있는 것으로 판단된다면 네이버로부터 유사문서로 지정되었을 가능성을 고려하자.
유사문서로 지정되었는지 여부를 확인하는 방법은 다행히도 존재한다 (방법은 위에 적어두었다.). 유사문서로 지정되었다면 원본 반영 요청을하여 바로잡도록하자. 



+ Recent posts