[프로그래머스] 순위 검색 - python 본문

코테 문제 풀이

[프로그래머스] 순위 검색 - python

미니모아 2022. 4. 18. 21:38
반응형

순위 검색

문제

지원자가 지원서에 입력한 4가지의 정보와 획득한 코딩테스트 점수를 하나의 문자열로 구성한 값의 배열 info, 개발팀이 궁금해하는 문의조건이 문자열 형태로 담긴 배열 query가 매개변수로 주어질 때, 각 문의조건에 해당하는 사람들의 숫자를 순서대로 배열에 담아 return 하도록 solution 함수를 완성해 주세요.

제한사항

  • info 배열의 크기는 1 이상 50,000 이하입니다.
  • info 배열 각 원소의 값은 지원자가 지원서에 입력한 4가지 값과 코딩테스트 점수를 합친 "개발언어 직군 경력 소울푸드 점수" 형식입니다.
    • 개발언어는 cpp, java, python 중 하나입니다.
    • 직군은 backend, frontend 중 하나입니다.
    • 경력은 junior, senior 중 하나입니다.
    • 소울푸드는 chicken, pizza 중 하나입니다.
    • 점수는 코딩테스트 점수를 의미하며, 1 이상 100,000 이하인 자연수입니다.
    • 각 단어는 공백문자(스페이스 바) 하나로 구분되어 있습니다.
  • query 배열의 크기는 1 이상 100,000 이하입니다.
  • query의 각 문자열은 "[조건] X" 형식입니다.
    • [조건]은 "개발언어 and 직군 and 경력 and 소울푸드" 형식의 문자열입니다.
    • 언어는 cpp, java, python, - 중 하나입니다.
    • 직군은 backend, frontend, - 중 하나입니다.
    • 경력은 junior, senior, - 중 하나입니다.
    • 소울푸드는 chicken, pizza, - 중 하나입니다.
    • '-' 표시는 해당 조건을 고려하지 않겠다는 의미입니다.
    • X는 코딩테스트 점수를 의미하며 조건을 만족하는 사람 중 X점 이상 받은 사람은 모두 몇 명인 지를 의미합니다.
    • 각 단어는 공백문자(스페이스 바) 하나로 구분되어 있습니다.
    • 예를 들면, "cpp and - and senior and pizza 500"은 "cpp로 코딩테스트를 봤으며, 경력은 senior 이면서 소울푸드로 pizza를 선택한 지원자 중 코딩테스트 점수를 500점 이상 받은 사람은 모두 몇 명인가?"를 의미합니다.

풀이

처음

조건별로 딕셔너리를 만들어서 인덱스 값을 집합으로 저장한 후 교집합을 구하면 어떨까 했다. 하지만 효율성을 통과하지 못했고 이 상태에서 더 개선해봤자 답이 안 나왔다.

from collections import defaultdict
import re
import copy
def find_intersection(query, hash_map, scores, s):
    
    check = copy.deepcopy(hash_map['-'])
    for q in query:
        check &= hash_map[q]
    
    return len(check & get_scores(scores, s))
​
def get_scores(scores, s):
    total = set()
    keys = sorted(scores.keys())
​
    low, high = 0, len(keys)
    while low < high:
        mid = low + (high - low) // 2
        if s <= keys[mid]:
            high = mid
        else:
            low = mid + 1
​
    for k in keys[low:]:
        total.update(scores[k])
    
    return total
​
def solution(info, query):
    answer = []
    hash_map = {
        'cpp': set(), 'java': set(), 'python': set(),
        'backend': set(), 'frontend': set(),
        'junior': set(), 'senior': set(),
        'chicken': set(), 'pizza': set(),
        '-': set()
    }
    scores = defaultdict(set)
    
    for i in range(len(info)):
        v = info[i].split(' ')
        for j in v[:-1]:
            hash_map[j].add(i)
        hash_map['-'].add(i)
        scores[int(v[-1])].add(i)
    
    for q in query:
        tmp = re.split(' and | ', q)
        
        r = find_intersection(tmp[:-1], hash_map, scores, int(tmp[-1]))
        answer.append(r)
            
            
    return answer

개선

카카오 해설을 참고했다.

 

조건 찾기

원리는 info에 대해 가능한 모든 조합으로 키 값을 만들어서 딕셔너리에 배열로 점수를 저장하는 것이다.

이렇게 되면 쿼리를 받아서 바로 점수 배열을 찾을 수 있다.

예를 들어 java backend junior pizza 150 의 경우

  • _ backend junior pizza
  • java _ junior pizza
  • java backend _ pizza
  • java backend junior _
  • _ _ junior pizza
  • (생략)
  • _ _ _ _

이렇게 키 값을 만들 수 있다.

 

점수 찾기

점수를 찾을 때도 선형 탐색하면 시간 초과가 난다. 쿼리 for문 안에서 배열을 정렬해도 시간 초과가 난다

이진 탐색을 사용해서 해당 하는 범위를 찾아야한다. 파이썬은 라이브러리로 정렬된 리스트에서 값이 특정 범위에 속하는 원소의 개수를 구하고자할 때 효과적으로 사용할 수 있는 bisect를 제공한다.

from itertools import combinations
from collections import defaultdict
from bisect import bisect_left 
import re
​
def solution(info, query):
    answer = []
    dicts = defaultdict(list)
    for line in info:
        i = line.split()
        condition, score = i[:-1], int(i[-1])
        
        for i in range(5): #'-' 들어갈 자리 0개부터 4개까지 선택
            for case in combinations([0,1,2,3], i): # 몇 번 인덱스를 대체할 것인지
                tmp = condition[:]
                for c in case:
                    tmp[c] = '-'
                key = ''.join(tmp)
                dicts[key].append(score)
    
    for v in dicts.values(): #low bound 탐색을 위해 정렬
        v.sort()
        
    for line in query:
        tmp = re.split(' and | ', line) # and 혹은 로 나누기
        q, target = ''.join(tmp[:-1]), int(tmp[-1])
        answer.append(len(dicts[q]) - bisect_left(dicts[q], target))
    return answer

low bound

low bound를 직접 구현하면 다음과 같다. 크거나 같은 값이 나오면 범위를 좁혀 가면서 처음으로 크거나 같은 값이 나오는 인덱스를 리턴한다.

#(생략)
for line in query:
  tmp = re.split(' and | ', line)
  q, target = ''.join(tmp[:-1]), int(tmp[-1])
  scores = dicts[q]
  left, right = 0, len(dicts[q])
​
  while left < right:
    mid = (left + right) // 2
    if scores[mid] >= target:
      right = mid
    else: # target보다 작은 값은 버린다.
      left = mid + 1
​
  answer.append(len(dicts[q]) - left)
 
return answer
반응형
Comments