Review content ExtrActor (REA) ver 1.2

Review content ExtrActor is an open source project that has a novel Review Extraction Algorithm. This algorithm has two steps to discover review layout and efficiently extract this layout. [more] Click for download C# source codes and dataset.

*Green parts represent important blocks where as red parts represent noisy blocks.

First Step (Learning Stage)

 
//1. Create DOM Object 
HTMLMarkerClass.DOM _dom = new HTMLMarkerClass.DOM(); 
//2. Load HTML Text 
_dom.prepareDOM(html_doc); 
//3. find review main tag method of Decision Class 
_ri = HTMLMarkerClass.desicionClass_Review.find_Review_Main_Tag(_dom._list); 
 
Second Step (Extraction Stage)
 
//html_doc is string value. Pattern value is obtained from first stage. 
HTMLMarkerClass.webfilter.Contents_of_givenLayout_Tags_TESTER(html_doc, pattern, false)[0]; 
//webfilter class: Contents of a given Layout method efficiently extract by using the obtained pattern. 
 
Paper of the REA has been published in the Journal of Information Science.
  • Uçar, Erdem; Uzun, Erdinç & Tüfekci, Pınar (2016) “A novel algorithm for extracting the user reviews from web pages”, Journal of Information Science, first published on September 2, 2016 as DOI: 10.1177/0165551516666446

Search Engine for Turkish (SET)





Our search engine supports no-stemming and two stemming techniques as inflectional/derivational and word truncation. Moreover, a fuzzy based technique is developed for obtaining more relevant results. [more]

Turkish Suffix Analyzer

This module, is used Zemberek library, is Morphological Analyzer for Turkish. Moreover, this module automatically adds some dictionary entry which is not zembrek dictionary. Clik for trying.

Publications

 

Project Members
Project Manager: Assist. Prof. Erdinç UZUN
Project Counselor: Assist. Prof. Tarık YERLİKAYA
Graduate Students: Yasin AKMAN, Cihat ERDOĞAN, Emir ÖZTÜRK, Mustafa ÇANKAYA, Mustafa KADİR EMİR, Meltem KURT, Nazan DEMİRCİ,Hakan GENÇOĞLU, Suzan HACIOĞLU, Gonca ÖZMEN
Undergraduate Students: İbrahim TÜYSÜZ, Adem TOSUN, Seyfullah ALVER
 


Intelligent Crawler ver 1.1

ICrawler (Intelligent Crawler) is an open source project that has three different properties:

 

  • Automatically and efficiently extracts necessary contents including headline, summary, main content and other contents
  • Automatically determines crawling depth
  • Quickly discovers new hyperlinks in web pages[more]

 

Click for application

Click for source codes

Click for arff file that is used for training of the ICrawler.

 

Rule Editor

This application can be utilized for preparing rules to extract contents in a web page.

 

Paper of the ICrawler has been published in the Software: Practice and Experience.

 

  • Uzun, Erdinç; Güner, E.Serdar; Kılıçaslan, Yılmaz; Yerlikaya, Tarık & H.Agun, Volkan, (2013) “An effective and efficient Web content extractor for optimizing the crawling process”, Software: Practice and Experience, DOI: 10.1002/spe.2195

 

WEB Content Extractor 1.4 (WebCe)





WEB Content Extractor (WEBCE) is an open source project that has two effective algorithms to eliminate uninformative blocks and efficiently extract content blocks from web pages. Moreover WEBCE produce a XML File that contains main, headline, and information about the article for a given web page. [more] Click for download C# source codes and dataset.

 

Green parts represent important blocks where as red parts represent noisy blocks.

HTML DOM

WEBCE is a two-step algorithm. In the first step, we remove noisy blocks and then classify each block according the features given in the previous section. 

In the second step, a rule based parser uses the output of the first step – a well-formed structure – to extract the main content.

In first step, we use the sub-tree raising method of decision tree learning method for the extraction of the content blocks. We establish our learning method to DIV and TD html tags. Therefore, in second step we effectively parse web pages by using these tags.

 

Paper of the WebCE has been published in the Information Processing & Management.

 

  • Uzun, Erdinç; H.Agun, Volkan & Yerlikaya, Tarık, (2013) “A hybrid approach for extracting informative content from web pages”, Information Processing & Management, Volume 49, Issue 4, July 2013, Pages 928–944, DOI: 10.1016/j.ipm.2013.02.005


7.2. Hiyerarşik kümeleme (Hierarchical Clustering): Ödev Benzerlikleri Üzerinden Kopya Gruplarını Bulma

k-means algoritmasının en kötü taraflarından biri küme sayısına karar vermenin zorluğudur. Küme sayısına ancak sistemi çok iyi bilen biri karar verebilir ki bu da probleme göre değişir. Örneğin bir ödev verdiniz ve hangi öğrencinin hangi öğrenciye yakın ödev yaptığını ve kaç küme oluştuğunu merak ettiğinizde küme sayısını önceden bilmenize olanak yoktur. Bir ödevde 3 küme çıkar, diğer ödevde 20 küme çıkabilir. İşte bu noktada x-means ve single pass gibi algoritmalar olsa da hiyerarşik kümeleme küme oluşturma için esnek bir yapı olması sebebiyle bir adım öne çıkar.  Continue reading

4.9. Bir Makine Öğrenmesi Uygulaması: Web sayfasından asıl içeriklerin çıkarımı

Bu yazımda bir web sayfasından menüleri, reklamları, linkleri, yorumları kısacası konu ile alakasız gereksiz kısımları elimine edip asıl içeriklerin nasıl çıkarabileceğimizi anlatan bir blog yazacağım. Bu eliminasyon işlemini  için verinin makine öğrenmesi metotları için nasıl uygun hale getirilebileceğini göreceğiz. 
Continue reading

ADYS (Akıllı Ders Yönetim Sistemi)

ADYS, C# dilinde ASP.Net MVC ortamında MySql veritabanını üzerine geliştirilmiş bir uygulamadır. Uygulama içinde üniversite hocalarımızın ders paylaşımı, ödev değerlendirmesini, uygulama/ödev takibini kolaylaştıracak birçok modül bulunmaktadır. Namık Kemal Üniversitesi Bilimsel Araştırma Projeleri (NKUBAP.00.17.AR.13.15) desteğinden dolayı teşekkür eder, geliştirilen yazılımın tüm üniversitemizde eğitime olumlu bir etki yapmasını dileriz. [more]

Bu modüller:

Gelişmiş ders içerik yönetimi

Öğretim üyesi derslerini internet ortamından paylaşabilir. Ayrıca, aynı ders içeriğini farklı bölüm veya ikinci öğretim gösterilen dersler için not eklemesine gerek kalmadan paylaşabilir.

Uygulama ve ödevler için öğretim üyesi süre verebilir. Süre dolduğunda öğrenci ödevi gönderemez.

Gelişmiş kullanıcı yönetimi
Fakülte, bölüm, öğretim üyesi ve öğrenci olmak üzere dört farklı kullanıcı sisteme tanımlanmıştır. Fakülte kullanıcı, sisteme öğrenci eklenmesi ve tüm bölümlerin ders programlarının düzenlenmesi ile ilgilenirken bölüm kullanıcısı sadece kendi bölümüne ait bilgileri değiştirebilir.
Gelişmiş dosya yönetimi
Ödev, uygulama ve dosya yükleme işlemleri işletim sisteminin dosya yönetimine bırakılması sistemden kolayca bilgiye ulaşılması anlamına gelir. Her kullanıcıya, işletim sistemi tarafında yetki vermek zor ve zahmetli bir iştir. Bunun yerine, ADYS tüm bilgileri (resimler dahil) veritabanında tutar ve kullanıcıya göre dosya yönetimini sağlar. Bu sayede, bir öğrenci ne diğer dersin notlarını görebilir ne de sistemden diğer öğrencilerin resimlerini ya da dosyalarına ulaşabilir. Ayrıca, GET metodu ile taşınan bilgide şifrelendiği için sistemin hacklenmesi zorlaştırılmıştır.
İntihal tespit sistemi ve Hiyerarşik kümeleme

Ne yazık ki verilen bir ödeve çoğu öğrenci benzer veya tamamen aynı dosyayı göndermektedir. ADYS, gönderilen dosyaları otomatik olarak açıp (.rar veya .zip dosyası da olabilir) benzer ödevleri gruplandırılmış şekilde öğretim üyesi ile paylaşır. Bu gruplama işleminde hiyerarşik kümeleme ve dendrogram (ağaç diyagramı) kullanılarak hangi öğrencinin hangi öğrenci ile yakın ödev yaptığı kolaylıkla tespit edilebilir.  Bu modül sayesinde, öğretim üyesi için ödev değerlendirme süreci hızlandırılmış olur. (Yakında geliştirilen sistem literatürle paylaşılacaktır.)

Uygulamaya erişim için tıklayın.