Microsoft Cognitive Services – Computer Vision ile Fotoğraf Analizi ve OCR

Microsoft’un AI alanında tüm geliştiricilere sunmuş olduğu çok sayıda fazla ürün seçeneği bulunuyor. Bu ürünler arasında hem veri bilimcilerin kullanabileceği hem de yazılım geliştirebileceği yapay zekâ tabanlı servisler mevcut.

Bu örnekte görüntü işleme konusunda yazılım geliştiricilerin kullanabileceği, özel olarak tanımlatmak isteyeceğiniz nesneleri tanımlayabileceğiniz Microsoft Cognitive Service’in altında yer alan servislerden biri olan Computer Vision API servisini inceleyeceğiz.

Computer Vision API’ın çalışma mantığı

Computer Vision API görüntü işleme, OCR (Optical Character Recognition), el yazısı tanımlama gibi çeşitli başlıklar altında çözümler sunmakta. Bu örnekte Görüntü Tanımlama, OCR örneğini inceleyeceğiz. Fotoğrafta ünlü bir kişi varsa onu tespit etmek için ve de bir fotoğrafta farklı boyutlarda en optimum tumbnail için fotoğraf kesiminin gerçekleşmesini sağlamaktadır.

Computer Vision API’ın tüm çıktıları read-only olduğu için sistemi maalesef eğitemiyoruz. Görüntülerle eğitebilmek için Custom Vision Service örneği’nde olduğu gibi kendiniz eğitebilir veya CNTK ve Azure Machine Learning sayesinde de görüntü işleme ile kendi eğittiniz modelleri oluşturabilirsiniz.

Computer vision servisini daha detaylı incelemek ve de web arayüzünden kendi testlerinizi oluşturmak için Microsoft Cognitive Services – Computer Vision sayfasını ziyaret edebilirsiniz.

Tag & Actions

Bu örnekteki temel mantık fotoğraflarda bulunan nesnelere ve aksiyonlara göre sizlere tag ve aksiyon çıktıları dönmekte. Bu çıktıları da isteğinize göre düzenleyebilirsiniz.

Örnek olarak Cedi Osman’ın bir fotoğrafını verdiğimizde bize aşağıdaki detayları ve daha fazlasını dönebilmekte.

vision-cediosman

computer-vision-tag

OCR

Aşağıdaki örnekte bir haber sitesinin manşetini Türkçe olarak tanıyabilmekte olduğunu görebilir ve diğer tüm dokümanları da aynı şekilde tarayabileceğini görebilirsiniz.

ocr-haber

computer-vision-ocr

Biz de bu örnekleri linklerini programımıza vererek dönen sonuçları görebiliriz.

Yeni bir Computer Vision Services projesi oluşturulması

Fotoğrafları analiz etmek için Azure üzerinden Microsoft Cognitive Services’i kullanmak yeterli. Bunun için aşağıdaki adımları kullanabilirsiniz.

Subcription Key Alma

Microsoft Cognitive Services – Computer Vision key’ine erişebilmek için Microsoft Azure hesabınız olması gerekiyor, hesap edinmek için aşağıdaki adımları takip edebilirsiniz.

  1. Microsoft Azure hesabı oluşturmak için http://azure.com adresine giderek yeni bir hesap oluşturun.
  2. Hesabı oluşturduktan sonra http://portal.azure.com adresine erişin.
  3. Ürünler menüsünden New seçeneğini seçin.
  4. AI + Cognitive Services kategorisini seçin.
  5. Sağ üst köşeden See All‘a tıklayın.
  6. Computer Vision seçeneğini seçin.
  7. Create butonuna tıklayın.
  8. Karşınıza çıkan alanları doldurun.
  9. Pricing Tier bölümünde size uygun olan seçeneği seçin.
  10. Create butonuna tıklayın.
  11. Şu anda Computer Vision proejeniz aktif olarak oluştu.
  12. All Resources içerisinden oluşturduğunuz Computer Vision’ı seçin.
  13. Keys bölümünden Key içeriğini alın.

Computer Vision API ile C# kodunun entegre edilmesi

Aşağıdaki kod örneğinde de girdiğiniz bir fotoğraf URL’i aracılığıyla fotoğrafınızın içeriğini tespit edebilirsiniz. İsterseniz fotoğrafı yükleyerek de test edebilirsiniz.

Computer Vision ile Fotoğraf Analizi

Computer Vision API ile OCR

Kodun çıktısı

Girdiğiniz bir örnek fotoğraf linki aracılığı ile sonucu görmek isterseniz de çıktınız aşağıdaki gibi olacaktır.

Optical Character Recognition (OCR)

OCR için de aşağıdaki haber başlığının görüntü linkini veya kendi test etmek istediğiniz metin görüntüsünün linkini kullanabilirsiniz. https://raw.githubusercontent.com/ikivanc/Microsoft-Cognitive-Services—Computer-Vision/master/screenshots/ocr-haber-test.png

ocr-haber-result

Fotoğraf Analizi

Fotoğraf analizi için aşağıdaki Cedi Osman’ın fotoğraf linkini veya kendi test etmek istediğiniz fotoğraf linkini kullanabilirsiniz. https://raw.githubusercontent.com/ikivanc/Microsoft-Cognitive-Services—Computer-Vision/master/screenshots/ocr-haber-test.png

computer-vision-result

Bu örneklerde de gördüğümüz gibi, Microsoft’un sunmuş olduğu API Set’i ile yapay zekâ ile görüntü işleme ve OCR ile yazı tespit etmeyi çok rahat bir şekilde kendi uygulamalarınıza entegre edebilirsiniz.

Sizler de kurumunuz için gerekli olan çeşitli entegrasyonları farklı senaryolarda kullanabilirsiniz.

  • Fotoğraflardan hashtag/tag’lerin çıkartılması
  • Doküman arşivlerinin yazıya aktarılması
  • Fotoğraf arşivinden metadata ve aksiyonların çıkartılması
  • Fotoğraftaki kişilerin yaşları, cinsiyetleri ve mutluluklarının belirlenmesi
  • Yüksek çözünürlüklü fotoğraflar için otomatik thumbnail’lerin oluşturulması

gibi pek çok senaryoyu bu servisler ile çıkartabilirsiniz.